KR20220036324A - Automated data processing method for topic adoption - Google Patents

Automated data processing method for topic adoption Download PDF

Info

Publication number
KR20220036324A
KR20220036324A KR1020210079978A KR20210079978A KR20220036324A KR 20220036324 A KR20220036324 A KR 20220036324A KR 1020210079978 A KR1020210079978 A KR 1020210079978A KR 20210079978 A KR20210079978 A KR 20210079978A KR 20220036324 A KR20220036324 A KR 20220036324A
Authority
KR
South Korea
Prior art keywords
cluster
source data
clustering
topic
evaluation
Prior art date
Application number
KR1020210079978A
Other languages
Korean (ko)
Other versions
KR102477893B1 (en
Inventor
최상훈
양태민
김재윤
Original Assignee
주식회사 딥서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥서치 filed Critical 주식회사 딥서치
Priority to KR1020210079978A priority Critical patent/KR102477893B1/en
Publication of KR20220036324A publication Critical patent/KR20220036324A/en
Application granted granted Critical
Publication of KR102477893B1 publication Critical patent/KR102477893B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

특정 관심 주제 또는 테마 등을 지정함이 없이도 수집된 소스 데이터에 대한 분석을 통하여 지배적인 토픽(dominant topic)을 자동으로 선정하는 정보 처리 방법이 게시된다. 본 게시에 따른 정보 처리 방법은 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 단계와, 상기 수집된 소스 데이터를 클러스터링 하는 단계와, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계와, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계와, 상기 선정된 클러스터에 대응되는 토픽(topic)을 결정하는 단계를 포함할 수 있다.An information processing method is published that automatically selects a dominant topic through analysis of collected source data without specifying a specific topic or theme of interest. The information processing method according to this disclosure includes collecting source data stored in one or more external devices connected to the computing device through a network, clustering the collected source data, and evaluating each cluster formed as a result of the clustering. It may include a step of selecting some of the plurality of clusters formed as a result of the clustering using the results of the evaluation, and a step of determining a topic corresponding to the selected cluster.

Description

토픽 선정을 위한 자동화된 정보 처리 방법{AUTOMATED DATA PROCESSING METHOD FOR TOPIC ADOPTION}Automated information processing method for topic selection {AUTOMATED DATA PROCESSING METHOD FOR TOPIC ADOPTION}

본 발명은 자동화된 정보 처리 방법에 관한 것이다. 보다 자세하게는, 테마, 범주 등의 한정이 없이 판단 시점의 토픽(dominant topic)을 스스로 선정하는 자동화된 정보 처리 방법에 관한 것이다.The present invention relates to an automated information processing method. More specifically, it concerns an automated information processing method that automatically selects the topic at the time of judgment (dominant topic) without limitations such as theme or category.

한국공개특허 제 2020-0065736 호 문헌에서 관심 토픽에 대한 투자 대상 기업을 결정하는 방법이 제시된다. 한국공개특허 제 2020-0065736 호 문헌은 다양한 문서를 분석하고, 그 결과를 이용하여 관심 토픽과 관련 있는 기업들을 자동으로 선정하고 있다. 이러한 관심 토픽 기반 투자 대상 기업 자동 결정 방법은 관심 토픽이 지정되는 것을 전제로 하여 투자 대상 기업을 자동으로 결정하는 방법을 제시하는 것이다.In Korean Patent Publication No. 2020-0065736, a method for determining investment target companies for topics of interest is presented. Korean Patent Publication No. 2020-0065736 analyzes various documents and uses the results to automatically select companies related to topics of interest. This method of automatically determining investment target companies based on topics of interest proposes a method of automatically determining investment target companies on the premise that a topic of interest is specified.

한국공개특허 제 2020-0065736 호 (2020.06.09 공개)Korean Patent Publication No. 2020-0065736 (published on 2020.06.09)

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 판단 시점의 지배적인 토픽(dominant topic)을 스스로 선정하는 자동화된 정보 처리 방법 및 그 장치를 제공하는 것이다.The technical task to be achieved through several embodiments of this publication is to provide an automated information processing method and device that automatically selects the dominant topic at the time of judgment.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 판단 시점의 떠오르는 토픽(rising topic)을 스스로 선정하는 자동화된 정보 처리 방법 및 그 장치를 제공하는 것이다.The technical task to be achieved through several embodiments of this publication is to provide an automated information processing method and device that automatically selects a rising topic at the time of judgment.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 판단 시점에 이전 시점 대비 커다란 변화가 있는 토픽(topic with great change)을 스스로 선정하는 자동화된 정보 처리 방법 및 그 장치를 제공하는 것이다.The technical task to be achieved through several embodiments of this publication is to provide an automated information processing method and device that automatically selects a topic with great change at the time of judgment compared to the previous time.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 사용자 또는 관리자에 의한 어떠한 테마, 범주의 한정도 없는 상태에서 스스로 판단시점의 토픽을 선정하고, 선정된 토픽과 관련된 투자 자산도 스스로 선정하여 투자 유니버스를 자동 생성하는 방법 및 그 장치를 제공하는 것이다.The technical task to be achieved through some embodiments of this publication is to select a topic at the time of judgment without any limitations on the theme or category by the user or administrator, and to select investment assets related to the selected topic on their own. To provide a method and device for automatically creating an investment universe.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 토픽의 선정에 있어서, 선정의 기반이 되는 소스 데이터의 수집 위치를 지정 받음으로써, 지정된 위치의 소스 데이터에 담긴 시장 관점이 반영되도록 하는 투자 유니버스 자동 생성 방법 및 그 장치를 제공하는 것이다.The technical task to be achieved through some embodiments of this publication is to designate the collection location of the source data that serves as the basis for selection in the selection of topics, so that the market perspective contained in the source data at the designated location is reflected. The goal is to provide a method and device for automatically creating a universe.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 토픽의 선정에 있어서, 선정의 기반이 되는 소스 데이터의 타입 별 가중치를 지정 받음으로써, 각 타입의 소스 데이터 별로 그 정보가 반영되는 정도가 차등화 되도록 하는 투자 유니버스 자동 생성 방법 및 그 장치를 제공하는 것이다.The technical task to be achieved through some embodiments of this publication is to determine the extent to which the information is reflected for each type of source data by specifying a weight for each type of source data that is the basis for selection when selecting a topic. The purpose is to provide a method and device for automatically generating an investment universe that allows for differentiation.

본 게시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of this publication are not limited to the technical problems mentioned above, and other technical problems not mentioned can be clearly understood by those skilled in the art from the description below.

본 게시의 일 실시예에 따른 토픽 선정 방법은, 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 복수의 소스 데이터를 수집하는 단계, 상기 수집된 복수의 소스 데이터를 클러스터링하는 단계, 상기 클러스터링의 결과 형성된 복수의 클러스터에 포함된 소스 데이터의 타입 속성값에 기초하여, 상기 복수의 클러스터 각각을 평가하는 단계 및 상기 평가의 결과를 이용하여, 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함할 수 있다.A topic selection method according to an embodiment of the present disclosure is a method performed by a computing device, comprising collecting a plurality of source data, clustering the collected plurality of source data, and plurality of sources formed as a result of the clustering. It may include evaluating each of the plurality of clusters based on the type attribute value of the source data included in the cluster and selecting some of the plurality of clusters using the results of the evaluation.

일 실시예에서, 상기 평가하는 단계는, 상기 복수의 클러스터 각각에 포함된 소스 데이터의 타입의 다양성 지표를 연산하는 단계 및 상기 소스 데이터의 타입의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하거나 상기 복수의 클러스터 각각에 포함된 각 소스 데이터의 스코어를 소스 데이터의 타입에 따른 스코어 연산 규칙에 기초하여 연산하는 단계, 상기 복수의 클러스터 각각에 포함된 각 소스 데이터의 스코어를 합산하는 단계 및 상기 스코어의 합산치가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하거나 상기 복수의 클러스터 각각에 포함된 소스 데이터의 관련 주체를 소스 데이터의 타입에 따른 관련 주체 추출 규칙에 기초하여 결정하는 단계, 상기 복수의 클러스터 각각에 포함된 소스 데이터의 주체의 다양성 지표를 연산하는 단계 및 상기 소스 데이터의 주체의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함할 수 있다.In one embodiment, the evaluating step includes calculating a diversity index of the type of source data included in each of the plurality of clusters, and positively evaluating the cluster as the diversity index of the type of source data increases. Comprising or calculating the score of each source data included in each of the plurality of clusters based on a score calculation rule according to the type of source data, summing the scores of each source data included in each of the plurality of clusters And the step of evaluating the cluster more positively as the sum of the scores increases, or determining a related subject of source data included in each of the plurality of clusters based on a related subject extraction rule according to the type of source data; It may include calculating a diversity index of subjects of source data included in each of the plurality of clusters, and evaluating the cluster more positively as the diversity index of subjects of the source data increases.

일 실시예에서, 상기 클러스터링하는 단계는, 상기 수집된 복수의 소스 데이터 각각의 타입에 기초하여, 기 지정된 불용어를 제거하는 단계를 포함할 수 있다.In one embodiment, the clustering step may include removing pre-designated stop words based on the type of each of the plurality of collected source data.

일 실시예에서, 상기 선정하는 단계는, 상기 클러스터링의 결과의 시간적 변화에 기초하여, 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함할 수 있다.In one embodiment, the selecting step may include selecting some of the plurality of clusters based on temporal changes in the clustering results.

일 실시예에서, 상기 선정된 클러스터에 대응되는 토픽을 결정하는 단계를 더 포함할 수 있다. 여기서, 상기 토픽을 결정하는 단계는, 중요도를 기준으로 상기 선정된 클러스터에 대응되는 토픽에 포함될 주요 키워드를 선정하는 단계를 포함할 수 있다. 이때, 상기 결정된 토픽에 대응되는 자산을 결정하는 단계 및 상기 결정된 자산을 포함하도록 구성된 투자 유니버스에 대한 정보를 제공하는 단계를 더 포함할 수도 있다.In one embodiment, the step of determining a topic corresponding to the selected cluster may be further included. Here, the step of determining the topic may include selecting key keywords to be included in the topic corresponding to the selected cluster based on importance. At this time, the method may further include determining an asset corresponding to the determined topic and providing information on an investment universe configured to include the determined asset.

도 1 내지 도 4는 본 게시의 몇몇 실시예들에 따른 투자 유니버스 자동 생성 시스템의 구성도들이다.
도 5는 본 게시의 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 6 내지 도 7은 도 5를 참조하여 설명한 정보 처리 방법의 일부 동작을 보다 상세히 설명하기 위한 상세 순서도들이다.
도 8은 본 게시의 또 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 9는 도 8을 참조하여 설명한 정보 처리 방법의 일부 동작을 보다 상세히 설명하기 위한 상세 순서도이다.
도 10 내지 도 12는 도 9를 참조하여 설명한 동작 중 당해 클러스터링의 결과 구성된 클러스터를 과거 클러스터링 결과 구성된 클러스터와 동일성 매칭하는 예시적인 방법을 설명하기 위한 도면들이다.
도 13은 본 게시의 또 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 14 내지 도 19는 도 13을 참조하여 설명한 동작 중 당해 클러스터링의 결과 구성된 예시적인 토픽의 클러스터를 과거 클러스터링 결과 구성된 상기 예시적인 토픽의 클러스터와 대비하여 상기 예시적인 토픽에 대한 시간적 변화 평가를 수행하는 방법을 설명하기 위한 도면들이다.
도 20은 도 5, 도 8 또는 도 13을 참조하여 설명한 클러스터 대응 토픽 결정 방법을 상세하게 설명하기 위한 순서도이다.
도 21은 도 5, 도 8 또는 도 13을 참조하여 설명한 정보 처리 방법의 후속 동작으로서 수행될 수 있는 몇몇 동작들을 예시적으로 설명하기 위한 순서도이다.
도 22는 도 21을 참조하여 설명한 일부 동작을 상세하게 설명하기 위한 상세 순서도이다.
도 23은 본 게시의 또 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 24는 도 23을 참조하여 설명한 일부 동작을 보다 상세하게 설명하기 위한 상세 순서도이다.
도 25는 본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법의 제1 순서도이다.
도 26은 본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법의 제2 순서도이다.
도 27 내지 도 29는 도 26을 참조한 투자 유니버스 구성 설정 세팅 동작 관련하여, 사용자 단말에 표시될 수 있는 예시적인 환경설정 화면들을 도시한 도면이다.
도 30은 본 게시의 몇몇 실시예들에 따른 예시적인 컴퓨팅 장치의 하드웨어 구성을 설명하기 위한 도면이다.
1 to 4 are configuration diagrams of an automatic investment universe generation system according to some embodiments of this publication.
5 is a flowchart of an information processing method according to another embodiment of this disclosure.
Figures 6 and 7 are detailed flowcharts for explaining in more detail some operations of the information processing method described with reference to Figure 5.
Figure 8 is a flowchart of an information processing method according to another embodiment of this disclosure.
FIG. 9 is a detailed flowchart to explain in more detail some operations of the information processing method described with reference to FIG. 8.
FIGS. 10 to 12 are diagrams illustrating an exemplary method of matching a cluster formed as a result of clustering for identity with a cluster formed as a result of past clustering during the operation described with reference to FIG. 9 .
13 is a flowchart of an information processing method according to another embodiment of this disclosure.
FIGS. 14 to 19 show a method for performing temporal change evaluation on the exemplary topic by comparing the cluster of the exemplary topic formed as a result of the clustering with the cluster of the exemplary topic formed as a result of past clustering during the operation described with reference to FIG. 13. These are drawings to explain the method.
FIG. 20 is a flowchart for explaining in detail the method for determining a topic corresponding to a cluster described with reference to FIG. 5, FIG. 8, or FIG. 13.
FIG. 21 is a flowchart illustrating some operations that can be performed as a follow-up operation of the information processing method described with reference to FIG. 5, FIG. 8, or FIG. 13.
FIG. 22 is a detailed flowchart for explaining in detail some of the operations described with reference to FIG. 21.
23 is a flowchart of an information processing method according to another embodiment of this disclosure.
FIG. 24 is a detailed flowchart to explain in more detail some of the operations described with reference to FIG. 23.
Figure 25 is a first flowchart of a method for automatically generating an investment universe according to another embodiment of this disclosure.
Figure 26 is a second flowchart of a method for automatically generating an investment universe according to another embodiment of this disclosure.
FIGS. 27 to 29 are diagrams illustrating example configuration settings screens that can be displayed on a user terminal in relation to the investment universe configuration setting operation with reference to FIG. 26.
FIG. 30 is a diagram illustrating the hardware configuration of an example computing device according to some embodiments of the present disclosure.

이하, 첨부된 도면을 참조하여 본 명세서의 실시예들을 상세히 설명한다. 본 명세서의 실시예들의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 명세서의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.Hereinafter, embodiments of the present specification will be described in detail with reference to the attached drawings. Advantages and features of the embodiments of the present specification and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings. However, the technical idea of the present invention is not limited to the following embodiments and may be implemented in various different forms. The following embodiments are merely intended to complete the technical idea of the present invention, and the embodiments of the present specification are included. It is provided to fully inform those skilled in the art of the scope of the present invention, and the technical idea of the present invention is only defined by the scope of the claims.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 명세서의 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.When adding reference numerals to components in each drawing, it should be noted that identical components are given the same reference numerals as much as possible even if they are shown in different drawings. Additionally, in describing the embodiments of the present specification, if it is determined that a detailed description of a related known configuration or function may obscure the point, the detailed description will be omitted.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 명세서의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 명세서의 실시예들을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings that can be commonly understood by those skilled in the art to which the embodiments of this specification pertain. Additionally, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless clearly specifically defined. The terminology used herein is for describing embodiments and is not intended to limit the embodiments herein. As used herein, singular forms also include plural forms, unless specifically stated otherwise in the context.

또한, 본 명세서의 실시예들의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.Additionally, in describing the components of the embodiments of the present specification, terms such as first, second, A, B, (a), and (b) may be used. These terms are only used to distinguish the component from other components, and the nature, sequence, or order of the component is not limited by the term. When a component is described as being “connected,” “coupled,” or “connected” to another component, that component may be directly connected or connected to that other component, but there is another component between each component. It will be understood that elements may be “connected,” “combined,” or “connected.”

이하, 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.Hereinafter, several embodiments will be described in detail according to the attached drawings.

자동 생성된 투자 유니버스에 대한 트레이딩 지원 시스템Trading support system for automatically generated investment universe

본 게시의 일 실시예에 따르면 투자 유니버스 자동 생성 및 자동 생성된 투자 유니버스에 대한 트레이딩 지원 시스템(이하, '트레이딩 지원 시스템'으로 약칭한다)이 제공된다. 본 실시예에 따른 트레이딩 지원 시스템에 대하여 도 1 내지 도 4를 참조하여 설명한다.According to an embodiment of this publication, an automatic creation of an investment universe and a trading support system for the automatically created investment universe (hereinafter abbreviated as 'trading support system') are provided. The trading support system according to this embodiment will be described with reference to FIGS. 1 to 4.

도 1에 도시된 바와 같이, 본 실시예에 따른 트레이딩 지원 시스템은 투자 유니버스 구성 장치(100) 및 트레이딩 시스템(20)을 포함할 수 있다. 본 실시예에 따른 트레이딩 지원 시스템은 투자 유니버스 구성 장치(100)를 관리하거나, 트레이딩 시스템(20)에 접속하여 자동 생성된 투자 유니버스와 관련된 투자 상품을 트레이딩 하는 사용자 단말(30)을 더 포함할 수 있다.As shown in FIG. 1, the trading support system according to this embodiment may include an investment universe construction device 100 and a trading system 20. The trading support system according to this embodiment may further include a user terminal 30 that manages the investment universe configuration device 100 or connects to the trading system 20 to trade investment products related to the automatically generated investment universe. there is.

투자 유니버스 구성 장치(100)는 소스 데이터 저장 장치(10)로부터 소스 데이터를 자동으로 수집(40)한다. 도 1에 도시된 바와 같이 소스 데이터는 특허 문서, 논문, 뉴스 등 다양한 텍스트 기반의 자료를 포함할 수 있으며, 투자 유니버스 구성 장치(100)는 상기 소스 데이터의 수집을 위해 복수의 컴퓨팅 장치에 접속할 수 있다. 투자 유니버스 구성 장치(100)는 상기 소스 데이터를 저장하는 소스 데이터 저장 장치(10)가 제공하는 자료 조회 API(Application Programming Interface)를 이용하여 상기 소스 데이터를 수집하거나, 크롤링(crawling) 방식으로 상기 소스 데이터를 수집할 수 있다.The investment universe constructing device 100 automatically collects (40) source data from the source data storage device (10). As shown in Figure 1, source data may include various text-based materials such as patent documents, papers, and news, and the investment universe construction device 100 may access a plurality of computing devices to collect the source data. there is. The investment universe configuration device 100 collects the source data using a data inquiry API (Application Programming Interface) provided by the source data storage device 10 that stores the source data, or searches the source data using a crawling method. Data can be collected.

소스 데이터 저장 장치(10)는 특허 문헌 조회 서버, 논문 조회 서버 및 언론사의 웹 서버 및 인터넷 뉴스 포털 서비스의 웹 서버 중 적어도 하나를 포함할 수 있다.The source data storage device 10 may include at least one of a patent document search server, a paper search server, a web server of a media company, and a web server of an Internet news portal service.

상기 소스 데이터는 특허 문서, 논문, 뉴스 등 공식적으로 간행된 텍스트 기반의 자료로 한정되지 않는다. 예를 들어, 블로그, SNS(Social Network Service) 등 개인적으로 온라인에 게시된 컨텐츠도 상기 소스 데이터로서 수집될 수 있을 것이다.The source data is not limited to officially published text-based materials such as patent documents, papers, and news. For example, content posted personally online, such as blogs and social network services (SNS), may also be collected as the source data.

상기 소스 데이터는 텍스트 기반의 자료로 한정되지 않는다. 예를 들어, 유튜브(www.youtube.com) 등의 동영상 게시 플랫폼 또는 넷플릭스(www.netflix.com) 등의 OTT(Over The Top) 서비스에 업로드 된 동영상 스트리밍 서비스 등에서 멀티미디어 컨텐츠가 수집될 수 있으며, 투자 유니버스 구성 장치(100)는 이러한 멀티미디어 컨텐츠를 투자 유니버스 구성 장치(100)가 분석할 수 있는 형태로 변환할 수 있다. 예를 들어, 투자 유니버스 구성 장치(100)는 수집된 동영상의 자막 컨텐츠를 상기 소스 데이터로서 사용하거나, 수집된 동영상의 음성을 STT(Speech To Text) 기술을 이용하여 텍스트로 변환하고, 상기 변환된 텍스트를 상기 소스 데이터로서 사용할 수 있을 것이다.The source data is not limited to text-based data. For example, multimedia content may be collected from video publishing platforms such as YouTube (www.youtube.com) or video streaming services uploaded to OTT (Over The Top) services such as Netflix (www.netflix.com). The investment universe construction device 100 can convert such multimedia content into a form that the investment universe construction device 100 can analyze. For example, the investment universe construction device 100 uses the subtitle content of the collected video as the source data, or converts the voice of the collected video into text using STT (Speech To Text) technology, and the converted Text may be used as the source data.

또한, 투자 유니버스 구성 장치(100)는 인터넷 라디오, 음성 e-book 컨텐츠 등 음성 컨텐츠를 STT 기술로 텍스트 변환한 것을 상기 소스 데이터로서 사용할 수도 있음은 물론이다.In addition, of course, the investment universe construction device 100 can use voice content such as Internet radio and voice e-book content converted into text using STT technology as the source data.

종합하면, 소스 데이터의 타입은 특허, 논문, 뉴스, 공시자료 등의 공식 간행 텍스트와, SNS, 비디오/오디오 변환 텍스트 등 비공식 간행 텍스트로 구분될 수 있을 것이다.In summary, the type of source data can be divided into officially published text such as patents, papers, news, and public information, and unofficial published text such as SNS and video/audio converted text.

요컨대, 상기 소스 데이터는 정보 처리 기술을 통하여 투자 유니버스 구성 장치(100)가 그 내용을 분석할 수 있는 텍스트의 형태로 변환될 수 있는 모든 형태의 컨텐츠를 포함하는 것으로 이해되어야 할 것이다. 다만, 이하의 기재에서는 이해의 편의를 돕기 위해 투자 유니버스 구성 장치(100)가 텍스트 형태의 소스 데이터를 수집하는 것을 대상으로 실시예들을 설명하기로 한다.In short, the source data should be understood to include all forms of content that can be converted into a text format that can be analyzed by the investment universe construction device 100 through information processing technology. However, in the following description, for convenience of understanding, embodiments will be described with the focus on the investment universe construction device 100 collecting source data in text form.

투자 유니버스 구성 장치(100)는 주기적으로 또는 비주기적으로 소스 데이터를 자동 수집(40)한다. 예를 들어, 투자 유니버스 구성 장치(100)는 소스 데이터 수집 배치 프로세스(batch process)를 수행하되, 기 지정된 주기에 따라 상기 배치 프로세스를 수행하거나, 특정 이벤트가 발생된 것으로 판정되면 상기 배치 프로세스를 수행하거나, 사용자 단말(30) 중 관리자 단말로부터 상기 배치 프로세스의 수행 커맨드가 수신되면 상기 배치 프로세스를 수행할 수 있다.The investment universe construction device 100 automatically collects source data periodically or aperiodically (40). For example, the investment universe construction device 100 performs a source data collection batch process, and performs the batch process according to a predetermined cycle, or performs the batch process when it is determined that a specific event has occurred. Alternatively, when a command to perform the batch process is received from the administrator terminal of the user terminal 30, the batch process can be performed.

물론, 투자 유니버스 구성 장치(100)는 상시적으로 소스 데이터를 자동 수집(40)할 수도 있을 것이다.Of course, the investment universe construction device 100 may automatically collect source data 40 on a regular basis.

투자 유니버스 구성 장치(100)는 트레이딩 시스템(20)으로부터 시장 정보를 수신하고, 수신된 시장 정보를 이용하여 시장 상황을 모니터링 하며, 상기 모니터링의 결과를 이용하여 시장 상황에 기준치 이상의 변동이 있는지 여부를 판정하고, 시장 상황에 기준치 이상의 변동이 있는 것으로 판정하면 상기 특정 이벤트가 발생된 것으로 판정할 수 있다. 예를 들어, 투자 유니버스 구성 장치(100)는 주식 시장의 지수가 기준치 이상의 변동이 있는 경우 상기 특정 이벤트가 발생된 것으로 판정하거나, 주식 시장의 기 지정된 몇몇 대표 주식의 가격 지수에 기준치 이상의 변동이 있는 경우 상기 특정 이벤트가 발생된 것으로 판정할 수 있을 것이다.The investment universe configuration device 100 receives market information from the trading system 20, monitors the market situation using the received market information, and uses the results of the monitoring to determine whether there is a change in the market situation more than a standard value. If it is determined that there is a change in the market situation that exceeds the standard value, it can be determined that the specific event has occurred. For example, the investment universe configuration device 100 determines that the specific event has occurred when the stock market index fluctuates more than the standard value, or when the price index of several pre-designated representative stocks of the stock market fluctuates more than the standard value. In this case, it may be determined that the specific event has occurred.

투자 유니버스 구성 장치(100)는 수집된 소스 데이터를 축적한다. 이 때, 투자 유니버스 구성 장치(100)는 중복 수집된 소스 데이터는 제거 후 축적할 수 있을 것이다. 물론, 투자 유니버스 구성 장치(100)는 소스 데이터 게시일 등의 식별용 정보를 이용하여 소스 데이터가 기 수집된 것인지 여부를 판정하고, 새로운 소스 데이터 만을 자동 수집(40)할 수도 있을 것이다.The investment universe constructing device 100 accumulates the collected source data. At this time, the investment universe constructing device 100 may be able to accumulate the duplicated source data after removing it. Of course, the investment universe constructing device 100 may determine whether the source data has already been collected using identification information such as the source data posting date and automatically collect only new source data (40).

투자 유니버스 구성 장치(100)는 축적된 소스 데이터에 대한 클러스터링(clustering)을 수행한다. 상기 클러스터링의 방식은 다양한 실시예와 함께 후술될 것이다. 투자 유니버스 구성 장치(100)는 주기적으로 축적된 소스 데이터를 클러스터링 할 수 있다. 클러스터링의 주기는 소스 데이터 수집의 주기보다 길거나 같을 수 있다. 예를 들어, 소스 데이터 수집은 매일 수행되고, 클러스터링은 매주 수행(weekly)되거나 매일 수행(daily)될 수 있을 것이다.The investment universe configuration device 100 performs clustering on the accumulated source data. The clustering method will be described later along with various embodiments. The investment universe configuration device 100 may cluster periodically accumulated source data. The period of clustering may be longer than or equal to the period of source data collection. For example, source data collection may be performed daily, and clustering may be performed weekly or daily.

투자 유니버스 구성 장치(100)는 축적된 소스 데이터에 담겨 있는 정보를 이용하여 상기 소스 데이터를 클러스터링 하기 위해, 축적된 소스 데이터 각각의 본문 텍스트를 특징 데이터로 변환하고, 상기 변환된 특징 데이터를 클러스터링 알고리즘에 입력하여 상기 클러스터링을 수행할 수 있다. 요컨대, 투자 유니버스 구성 장치(100)는 각 소스 데이터의 메타 데이터가 아닌 본문의 내용을 이용하여 상기 클러스터링을 수행하는 것으로 이해할 수 있을 것이다. 상기 메타 데이터는, 특허 문서의 출원인, 발명자, 발명의 명칭, IPC 등의 기술 분류 코드 등일 수 있고, 논문의 논문명, 저자, 주제어, 발행 기관 등일 수 있으며, 뉴스의 기사 타이틀, 언론사, 기자 등일 수 있다.In order to cluster the source data using information contained in the accumulated source data, the investment universe constructing device 100 converts the body text of each accumulated source data into feature data, and applies the converted feature data to a clustering algorithm. The clustering can be performed by entering . In short, it can be understood that the investment universe constructing device 100 performs the clustering using the content of the text rather than the metadata of each source data. The metadata may be the applicant, inventor, title of invention, technical classification code such as IPC of a patent document, the paper title, author, keyword, publishing organization, etc. of a paper, and may be the title of a news article, media company, reporter, etc. there is.

투자 유니버스 구성 장치(100)는 상기 클러스터링의 결과로 형성된 복수의 클러스터들 각각에 대한 평가(assessment)를 수행하고, 평가의 결과를 이용하여 상기 복수의 클러스터들 중에서 일부를 선정한다. 상기 평가의 방식은 다양한 실시예들과 함께 후술될 것이며, 평가의 결과는 평가 스코어(assessment score) 또는 평가 등급(assessment grade)의 형태로 각 클러스터에 대하여 출력될 수 있다. 투자 유니버스 구성 장치(100)는 상기 평가 스코어 또는 상기 평가 등급을 기준으로 하나의 클러스터 만을 선정할 수도 있고, 기 지정된 개수의 상위 클러스터를 선정할 수도 있다.The investment universe construction device 100 performs an assessment on each of the plurality of clusters formed as a result of the clustering, and selects some of the plurality of clusters using the results of the evaluation. The evaluation method will be described later along with various embodiments, and the evaluation results may be output for each cluster in the form of an assessment score or assessment grade. The investment universe constructing device 100 may select only one cluster based on the evaluation score or the evaluation grade, or may select a predetermined number of upper clusters.

투자 유니버스 구성 장치(100)는 기 지정된 평가 주기에 따라 주기적으로 클러스터의 평가를 수행하거나, 상기 클러스터링의 수행 이후 곧바로 클러스터의 평가를 수행할 수 있다. 즉, 클러스터의 평가 주기는 클러스터링 주기와 같거나 더 길 수 있다. 예를 들어, 클러스터링이 매주 수행(weekly)될 때, 클러스터의 평가는 매월 수행(monthly) 되거나, 클러스터링 이후 바로 수행될 수 있을 것이다.The investment universe constructing device 100 may perform cluster evaluation periodically according to a predetermined evaluation cycle, or may perform cluster evaluation immediately after performing the clustering. That is, the evaluation cycle of a cluster may be equal to or longer than the clustering cycle. For example, when clustering is performed weekly, the evaluation of clusters may be performed monthly or may be performed immediately after clustering.

투자 유니버스 구성 장치(100)는 상기 선정된 클러스터에 대응되는 자산(asset)을 결정하거나, 상기 선정된 클러스터에 대응되는 주제(topic)를 결정한 후 결정된 주제에 대응되는 자산을 결정할 수 있다. 상기 결정된 자산에 대하여도 스코어 또는 등급이 부여될 수 있으며, 상기 결정된 자산의 스코어 또는 등급은 상기 자산이 대응되는 클러스터의 평가 스코어 또는 평가 등급에 기반하여 결정될 수 있을 것이다.The investment universe constructing device 100 may determine an asset corresponding to the selected cluster, or determine a topic corresponding to the selected cluster and then determine an asset corresponding to the determined topic. A score or rating may also be assigned to the determined asset, and the score or rating of the determined asset may be determined based on the evaluation score or rating of the cluster to which the asset corresponds.

투자 유니버스 구성 장치(100)는 하나의 자산 만을 선정할 수도 있고, 기 지정된 개수의 상위 자산을 선정할 수도 있으며, 기 지정된 기준 스코어를 상회하는 자산이 선정될 수도 있다.The investment universe constructing device 100 may select only one asset, may select a predetermined number of top assets, or may select assets exceeding a predetermined standard score.

투자 유니버스 구성 장치(100)는 기 지정된 투자 유니버스 생성 주기에 따라 주기적으로 투자 유니버스 생성을 수행할 수 있다. 이 때, 투자 유니버스 생성 주기는 클러스터의 평가 주기와 동일할 수 있다. 즉, 클러스터의 평가의 결과로 선정된 클러스터에 대응되는 하나 이상의 자산으로 구성된 투자 유니버스가 생성될 수 있는 것이다. 예를 들어, 클러스터의 평가 주기가 매월 평가(monthly)일 때, 매월 최신의 상황을 반영한 투자 유니버스가 자동으로 생성될 수 있을 것이다.The investment universe constructing device 100 may periodically generate an investment universe according to a predetermined investment universe creation cycle. At this time, the investment universe creation cycle may be the same as the cluster evaluation cycle. In other words, as a result of cluster evaluation, an investment universe consisting of one or more assets corresponding to the selected cluster can be created. For example, when the cluster's evaluation cycle is monthly, an investment universe reflecting the latest situation every month can be automatically created.

이 때, 투자 유니버스 생성 주기는 클러스터의 평가 주기 보다 길 수도 있다. 예를 들어, 클러스터의 평가 주기가 매월 평가(monthly)일 때, 투자 유니버스 생성 주기는 매 분기 평가(quarterly)일 수 있다. 표 1을 참조하여 투자 유니버스 생성 방식을 설명한다.At this time, the investment universe creation cycle may be longer than the cluster evaluation cycle. For example, when the cluster's evaluation cycle is monthly, the investment universe creation cycle may be quarterly. Refer to Table 1 to explain how the investment universe is created.

1월 내지 3월에 총 3번의 클러스터 평가가 수행되고 그에 따라 3번의 자산 선정이 이뤄졌으며, 그 결과가 표 1과 같다고 가정하자. 또한, 2개의 자산을 포함하는 투자 유니버스가 생성되도록 설정된 상황을 가정한다. 제1 실시예에서, 자산 선정 회수를 기준으로 컷-오프(cut-off)가 이뤄질 수 있다. 이 경우 투자 유니버스는 [B화학, C전자]로 생성될 것이다. B화학은 3회 선정되었고, C전자는 2회 선정되었기 때문이다. 제2 실시예에서, 스코어를 기준으로 컷-오프가 이뤄질 수도 있다. 이 경우 투자 유니버스는 [D자동차, C전자]로 생성될 것이다. 자산의 스코어를 기준으로 1등은 88점의 D자동차이고, 2등은 82점의 C전자이기 때문이다.Let's assume that a total of three cluster evaluations were conducted from January to March, three asset selections were made accordingly, and the results are as shown in Table 1. Additionally, assume a situation in which an investment universe containing two assets is created. In a first embodiment, a cut-off may be made based on asset selection recovery. In this case, the investment universe will be created as [B Chemical, C Electronic]. This is because B Chemical was selected three times, and C Electronics was selected twice. In a second embodiment, a cut-off may be made based on the score. In this case, the investment universe will be created as [D Automobile, C Electronic]. Based on the asset score, first place is D Automobile with 88 points, and second place is C Electronics with 82 points.

제3 실시예에서, 컷-오프 없이 3번의 자산 선정 과정에서 한번이라도 선정된 모든 자산을 포함하도록 투자 유니버스가 생성될 수도 있다. 이 경우 투자 유니버스는 [A전자, B화학, C전자, D자동차]로 생성될 것이다.In a third embodiment, an investment universe may be created to include all assets selected at least once in three asset selection processes without a cut-off. In this case, the investment universe will be created as [A Electronics, B Chemicals, C Electronics, D Automobiles].

제4 실시예에서, 생성된 투자 유니버스는 각 편입 자산 별 비중에 대한 정보도 포함할 수 있다. 상기 편입 자산 별 비중은 상기 자산의 스코어, 자산의 선정 횟수 또는 상기 컷-오프 기준에 따른 투자 유니버스 내 순위를 기준으로 자동 결정될 수 있다. 일 실시예에서, 상기 편입 자산 별 비중은 펀드 매니저 등 전문가 단말로부터 수동으로 입력될 수도 있음은 물론이다.In the fourth embodiment, the generated investment universe may also include information on the proportion of each incorporated asset. The proportion of each included asset may be automatically determined based on the score of the asset, the number of times the asset is selected, or the ranking within the investment universe according to the cut-off standard. In one embodiment, of course, the proportion of each included asset may be manually input from a terminal of an expert such as a fund manager.

상기 투자 유니버스에 포함된 자산은 상장 지수 펀드(Exchange Traded Fund; ETF)의 형태로 거래소에 상장되어 주식처럼 거래될 수 있다. 이 때, 투자자들의 이해를 돕기 위해, 투자 유니버스 구성 장치(100)는 투자 유니버스 구성 이유에 대한 정보를 자동으로 생성할 수 있다. 상기 투자 유니버스 구성 이유에 대한 정보는 상기 투자 유니버스의 구성 자산 및 그 비중에 대한 정보와 함께 트레이딩 시스템에 송신될 수 있을 것이다. 상기 투자 유니버스 구성 이유에 대한 정보는, 각 자산 선정의 결과 및 자산 선정의 이유가 된 선정된 클러스터에 대한 상세 정보를 포함할 수 있다. 상기 선정된 클러스터에 대한 상세 정보는 클러스터에 속한 소스 데이터의 양적인 정보, 소스 데이터 타입 별 비중 및 클러스터의 시간적 변화에 대한 정보 중 적어도 하나를 포함할 수 있다.Assets included in the investment universe can be listed on the exchange in the form of an Exchange Traded Fund (ETF) and traded like stocks. At this time, to help investors understand, the investment universe constructing device 100 may automatically generate information about the reason for constructing the investment universe. Information on the reason for forming the investment universe may be transmitted to the trading system along with information on the constituent assets of the investment universe and their proportions. The information on the reason for forming the investment universe may include the results of selecting each asset and detailed information on the selected cluster that was the reason for asset selection. The detailed information on the selected cluster may include at least one of quantitative information on source data belonging to the cluster, proportion of each source data type, and information on temporal changes in the cluster.

트레이딩 시스템(20)은 투자 유니버스 구성 장치(100)로부터 수신된 투자 유니버스 구성 이유에 대한 정보를 이용하여 ETF의 상품 설명서를 자동으로 생성하고, 투자자의 사용자 단말(30)의 요청에 응답하여 상기 상품 설명서를 사용자 단말(30)에 송신할 수 있을 것이다.The trading system 20 automatically generates a product description of the ETF using information on the reason for constructing the investment universe received from the investment universe construction device 100, and responds to a request from the investor's user terminal 30 to produce the product. The manual may be transmitted to the user terminal 30.

몇몇 실시예에서, 투자 유니버스 구성 장치(100)가 업데이트 된 투자 유니버스의 정보를 생성하는 것에 응답하여, 상기 상장 지수 펀드 계정에 편입된 자산에 대한 매매 주문을 자동 생성할 수 있다. 이로 인해, 상기 상장 지수 펀드는 투자 유니버스 구성 장치(100)에 의하여 업데이트된 투자 유니버스에 포함된 자산 및 그 비중을 추종하도록 설계될 수 있을 것이다.In some embodiments, the investment universe construction device 100 may automatically generate a buy or sell order for an asset included in the exchange traded fund account in response to generating updated information of the investment universe. Because of this, the exchange-traded fund may be designed to track the assets and their proportions included in the investment universe updated by the investment universe construction device 100.

도 1에는 투자 유니버스 구성 장치(100)가 소스 데이터 저장 장치(10)로 부터 소스 데이터를 자동 수집(40)하는 것으로 도시되어 있으나, 도 2에 도시된 바와 같이, 투자 유니버스 구성 장치(100)는 상기 소스 데이터를 트레이딩 시스템(20)으로부터 자동 수집(41)할 수도 있다. 트레이딩 시스템(20)으로부터 자동 수집(41)되는 소스 데이터는 투자 자산 별 거래 정보, 공시 정보, 증권사 리포트 등을 포함할 수 있다.In FIG. 1, the investment universe construction device 100 is shown as automatically collecting (40) source data from the source data storage device 10. However, as shown in FIG. 2, the investment universe construction device 100 The source data may be automatically collected (41) from the trading system (20). Source data automatically collected 41 from the trading system 20 may include transaction information for each investment asset, public information, and securities company reports.

또한, 도 3에 도시된 바와 같이, 투자 유니버스 구성 장치(100)는 사용자 단말(30)로부터 소스 데이터를 자동 수집(42)할 수도 있다. 즉, 투자 유니버스 구성 장치(100)는 투자 유니버스의 자동 생성을 의뢰한 투자자의 단말에 저장된 다양한 자료를 분석하고, 분석 결과를 이용하여 자동으로 투자 유니버스를 생성할 수 있는 것이다. 소스 데이터의 자동 수집(42)을 위해 사용자 단말(30)에 백그라운드에서 동작하는 에이전트(agent) 소프트웨어(31)가 설치될 수 있을 것이다.Additionally, as shown in FIG. 3, the investment universe construction device 100 may automatically collect (42) source data from the user terminal (30). In other words, the investment universe constructing device 100 can analyze various data stored in the terminal of the investor who requested automatic creation of the investment universe, and automatically create the investment universe using the analysis results. Agent software 31 running in the background may be installed on the user terminal 30 for automatic collection 42 of source data.

에이전트 소프트웨어(31)는 사용자 단말(30)에 저장된 파일들을 대상으로 소스 데이터 적격성을 평가하고, 소스 데이터 적격으로 평가된 파일들을 투자 유니버스 구성 장치(100)의 요청에 응답하여 송신(pull 방식)하거나, 투자 유니버스 구성 장치(100)의 요청과 무관하게 주기적/비주기적으로 투자 유니버스 구성 장치(100)에 송신(push 방식)할 수 있을 것이다.The agent software 31 evaluates source data eligibility for files stored in the user terminal 30 and transmits (pull method) files evaluated as source data eligibility in response to a request from the investment universe configuration device 100. , it may be transmitted (push method) to the investment universe configuration device 100 periodically/non-periodically, regardless of the request of the investment universe configuration device 100.

에이전트 소프트웨어(31)는 사용자 단말(30)에 저장된 다양한 파일들 중 자연어 형태의 정보로 변환될 수 있는 파일들을 소스 데이터 적격으로 평가할 수 있을 것이다. 몇몇 실시예들에서, 상기 에이전트 소프트웨어는 소스 데이터 적격으로 평가된 파일을 읽고, 상기 파일에 포함된 정보를 텍스트 형태의 사전 정의된 포맷의 정보로 변환한 후 투자 유니버스 구성 장치(100)에 송신할 수 있다. 이 경우, 에이전트 소프트웨어(31)는 소스 데이터의 분석에 소요되는 투자 유니버스 구성 장치(100)의 연산 부하를 절감시켜줄 수 있을 것이다.The agent software 31 may evaluate files that can be converted into information in natural language format among various files stored in the user terminal 30 as source data. In some embodiments, the agent software reads a file evaluated as source data, converts the information contained in the file into information in a predefined format in text form, and then transmits it to the investment universe construction device 100. You can. In this case, the agent software 31 may reduce the computational load of the investment universe construction device 100 required for analysis of source data.

상기 소스 데이터 적격의 파일은 텍스트 기반의 파일에 한정되지 않는다. 상술한 바와 같이, 정보 변환 기술을 이용하여 텍스트 정보를 추출할 수 있는 모든 타입의 파일이 상기 소스 데이터 적격의 파일이 될 수 있다. 예를 들어, 에이전트 소프트웨어(31)는 STT(Speech To Text) 모듈을 포함할 수 있고, 상기 STT 모듈을 이용하여 동영상 파일 또는 음성 파일의 음성을 텍스트로 변환한 후, 상기 사전 정의된 포맷의 투자 유니버스 구성 장치 송신용 정보를 생성할 수도 있을 것이다.The source data eligible files are not limited to text-based files. As described above, any type of file from which text information can be extracted using information conversion technology can be a file eligible for the source data. For example, the agent software 31 may include a STT (Speech To Text) module, convert the voice of a video file or audio file into text using the STT module, and then invest in the predefined format. It may be possible to generate information for transmission to a universe configuration device.

몇몇 실시예에서, 사용자 단말(30)의 특정 디렉토리가 소스 데이터 탐색 대상으로 지정될 수 있다. 이 때, 각 디렉토리 별 가중치가 지정될 수 있으며, 각 디렉토리 별 소스 데이터 타입도 함께 지정될 수 있을 것이다. 에이전트 소프트웨어(31)는 소스 데이터 탐색 대상에 대한 정보를 수신하고, 수신된 정보에 따라 소스 데이터 탐색 로직을 수행할 수 있다. 이러한 실시예는 도 28을 참조하여 자세히 후술될 것이다.In some embodiments, a specific directory of the user terminal 30 may be designated as a source data search target. At this time, a weight for each directory may be specified, and a source data type for each directory may also be specified. The agent software 31 may receive information about the source data search target and perform source data search logic according to the received information. This embodiment will be described in detail later with reference to FIG. 28.

도 4에 도시된 바와 같이, 투자 유니버스 구성 장치(100)는 트레이딩 소스 데이터 저장 장치로부터의 소스 데이터 자동 수집(40), 트레이딩 시스템으로부터의 소스 데이터 자동 수집(41) 및 사용자 단말로부터의 소스 데이터 자동 수집(42)을 병행할 수도 있을 것이다. 이 때, 투자 유니버스 구성 장치(100)는 각각의 자동 수집 채널(40, 41, 42)으로부터 수집되는 소스 데이터의 건수 비율, 건수 상한치 또는 스코어링 가중치 등에 대한 소스 데이터 수집 설정 정보를 참조하여 소스 데이터 자동 수집을 수행할 수 있을 것이다.As shown in Figure 4, the investment universe construction device 100 automatically collects source data from a trading source data storage device (40), automatically collects source data from a trading system (41), and automatically collects source data from a user terminal. Collection (42) could also be done in parallel. At this time, the investment universe configuration device 100 automatically collects the source data by referring to the source data collection setting information for the number ratio, upper limit value, or scoring weight of the source data collected from each automatic collection channel 40, 41, and 42. You will be able to perform collection.

지금까지 도 1 내지 도 4를 참조하여, 몇몇 실시예들에 따른 트레이딩 지원 시스템의 구성 및 동작을 설명하였다. 도 1 내지 도 4에는 트레이딩 시스템(20)과 투자 유니버스 구성 장치(100)가 물리적으로 분리된 별개의 장치인 것으로 도시되어 있으나, 필요에 따라 트레이딩 시스템(20)의 일부 모듈로서 투자 유니버스 구성 장치(200)가 구현될 수도 있음은 물론이다.So far, with reference to FIGS. 1 to 4 , the configuration and operation of the trading support system according to some embodiments have been described. 1 to 4 show that the trading system 20 and the investment universe configuration device 100 are physically separate and separate devices, but if necessary, the investment universe configuration device ( 200) can of course be implemented.

토픽의 자동 결정Automatic determination of topics

이하, 본 게시의 다른 실시예에 따른 정보 처리 방법을 설명한다. 상기 정보 처리 방법은 소스 데이터를 수집하고, 수집된 소스 데이터의 내용을 분석하여 토픽을 자동으로 결정하는 동작을 포함한다. 본 실시예에 따른 정보 처리 방법은 도 1 내지 도 4를 참조하여 설명한 트레이딩 지원 시스템에 의하여 수행되는 것일 수 있으나, 그 용도가 투자 유니버스의 자동 생성으로 한정되지는 않는다.Hereinafter, an information processing method according to another embodiment of this bulletin will be described. The information processing method includes collecting source data, analyzing the contents of the collected source data, and automatically determining a topic. The information processing method according to this embodiment may be performed by the trading support system described with reference to FIGS. 1 to 4, but its use is not limited to the automatic creation of an investment universe.

본 실시예에 따른 정보 처리 방법은 도 1 내지 도 4의 투자 유니버스 구성 장치로 예시되는 컴퓨팅 장치에 의하여 수행될 수 있다. 본 실시예에 따른 컨텐츠 공동 편집 방법은 복수의 컴퓨팅 장치들에 의하여 나뉘어 수행될 수 있다. 이하, 본 실시예에 따른 정보 처리 방법을 설명함에 있어서, 각각의 동작의 주체에 대한 기재가 생략될 수 있으며, 이 경우 상기 동작의 주체는 컴퓨팅 장치인 것으로 이해될 수 있을 것이다.The information processing method according to this embodiment may be performed by a computing device exemplified by the investment universe construction device of FIGS. 1 to 4. The content joint editing method according to this embodiment may be performed separately by a plurality of computing devices. Hereinafter, in describing the information processing method according to this embodiment, description of the subject of each operation may be omitted, and in this case, it will be understood that the subject of the operation is a computing device.

또한, 도 1 내지 도 4를 참조하여 설명된 실시예를 통하여 이해될 수 있는 기술적 사상은, 특별한 언급이 없더라도 본 실시예에 따른 정보 처리 방법에 당연히 적용될 수 있다. 따라서, 도 1 내지 도 4를 참조하여 설명된 사항은 본 실시예를 통하여 중복 설명하지 않기로 한다. 이하, 도 5를 기초로 하되, 도 6 내지 도 12를 더 참조하여 본 실시예에 따른 정보 처리 방법을 설명한다.In addition, technical ideas that can be understood through the embodiments described with reference to FIGS. 1 to 4 can naturally be applied to the information processing method according to the present embodiment even if no special mention is made. Accordingly, matters described with reference to FIGS. 1 to 4 will not be repeatedly explained throughout this embodiment. Hereinafter, the information processing method according to this embodiment will be described based on FIG. 5 but with further reference to FIGS. 6 to 12.

단계 S100에서, 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터가 수집된다. 상기 소스 데이터가 다양한 채널을 통하여 수집될 수 있는 점과, 동영상, 문서 등 서로 다른 형식의 소스 데이터가 분석 가능한 본문 텍스트로 변환되는 과정 등에 대하여는 도 1 내지 도 4를 참조한 설명을 참조한다. 이하, 문서 데이터 형태의 소스 데이터가 수집된 상황을 가정하여 설명한다. 상술한 바와 같이, 소스 데이터의 수집은 기 지정된 소스 데이터 수집 주기에 기반하여 주기적으로 수행될 수 있다.In step S100, source data stored in one or more external devices connected to the computing device through a network is collected. Refer to the explanation with reference to FIGS. 1 to 4 for the fact that the source data can be collected through various channels and the process by which source data in different formats, such as videos and documents, are converted into text that can be analyzed. Hereinafter, the description will be made assuming a situation in which source data in the form of document data is collected. As described above, collection of source data may be performed periodically based on a pre-designated source data collection cycle.

상기 수집된 소스 데이터들이 축적되고, 클러스터링이 수행되어야 한다는 판정이 내려지면, 단계 S200에서 축적된 소스 데이터가 클러스터링 된다. 이 때, 상기 문서 데이터의 본문 텍스트를 이용하여 상기 문서 데이터의 내용을 표현하는 특징 데이터가 생성되며, 상기 특징 데이터를 이용하여 각각의 문서 데이터가 클러스터링 될 수 있다. 상기 클러스터링 과정을 도 6을 참조하여 자세히 설명한다. 상술한 바와 같이, 클러스터링은 기 지정된 클러스터링 주기에 기반하여 주기적으로 수행될 수 있으며 상기 클러스터링 주기는 상기 소스 데이터 수집 주기와 같거나 더 길게 지정된 것일 수 있다.If the collected source data is accumulated and it is determined that clustering should be performed, the accumulated source data is clustered in step S200. At this time, feature data expressing the content of the document data is generated using the body text of the document data, and each document data can be clustered using the feature data. The clustering process will be described in detail with reference to FIG. 6. As described above, clustering may be performed periodically based on a pre-designated clustering cycle, and the clustering cycle may be the same as or longer than the source data collection cycle.

단계 S201에서, 수집된 본문 텍스트로부터 노이즈가 제거된다. 노이즈 제거 기준은 소스 데이터의 타입 별로 서로 다르게 지정될 수 있다. 상기 노이즈는 해당 타입의 소스 데이터에서 빈번하게 발견되는 단어 또는 표현을 포함하며, 이러한 노이즈의 제거를 통해 각각의 소스 데이터에서 특징적으로 언급하고 있는 내용이 정확하게 분석될 수 있을 것이다.In step S201, noise is removed from the collected body text. Noise removal criteria may be specified differently for each type of source data. The noise includes words or expressions frequently found in the corresponding type of source data, and through removal of this noise, the content characteristically mentioned in each source data can be accurately analyzed.

상술한 바와 같이, 소스 데이터의 타입은 특허, 논문, 뉴스, 공시자료 등의 공식 간행 텍스트와, SNS, 비디오/오디오 변환 텍스트 등 비공식 간행 텍스트로 구분될 수 있다. 예시적으로, 특허 문헌에 대하여는 "방법", "장치", "시스템", "공정", "물질", "화합물", "효과" 및 "실시예"가 불용어로서 노이즈 제거될 수 있다. 또한, 예시적으로, 뉴스에 대하여는, "광고", "기자", "기사" 및 언론사 명칭이 불용어로서 노이즈 제거될 수 있다.As described above, the type of source data can be divided into officially published text such as patents, papers, news, and public information, and unofficial published text such as SNS and video/audio conversion text. Illustratively, for patent documents, “method,” “apparatus,” “system,” “process,” “material,” “compound,” “effect,” and “embodiment” may be noise removed as stop words. Additionally, as an example, for news, “advertisement,” “reporter,” “article,” and media company names may be noise removed as stop words.

단계 S202에서, 노이즈 제거 후의 본문 텍스트가 토큰화(tokenizing)된다. 상기 토큰화는 본문 텍스트를 복수의 토큰 단위로 구분하는 것이며, 상기 각각의 토큰은 명사(noun) 또는 명사구(noun phrase)로 한정될 수 있다. 토큰을 명사 또는 명사구로 한정함으로써, 상기 토큰으로부터 추출된 특징 데이터(feature data)가 각 소스 데이터의 내용을 보다 변별력 있게 표현하게 될 것이다.In step S202, the body text after noise removal is tokenized. The tokenization divides the body text into a plurality of token units, and each token may be limited to a noun or noun phrase. By limiting tokens to nouns or noun phrases, feature data extracted from the token will express the content of each source data more distinctively.

토큰화 과정은, 상기 본문 텍스트를 공백을 기준으로 단편화 하는 동작, 상기 단편화에 의하여 제1 명사 및 상기 제1 명사에 바로 인접한 제2 명사가 추출된 경우, 상기 제1 명사 및 상기 제2 명사를 복합 명사(compound noun) 추정 모델에 입력 하는 동작, 상기 복합 명사 추정 모델의 출력 값을 이용하여 상기 제1 명사 및 상기 제2 명사의 연결이 복합 명사를 구성하는지 여부를 결정하는 동작 및 상기 복합 명사가 하나의 토큰을 구성하도록 상기 토큰화를 수행하는 동작을 포함할 수 있다.The tokenization process is an operation of fragmenting the body text based on spaces. When a first noun and a second noun immediately adjacent to the first noun are extracted by the fragmentation, the first noun and the second noun are extracted. An operation of inputting a compound noun estimation model, an operation of determining whether a connection between the first noun and the second noun constitutes a compound noun using an output value of the compound noun estimation model, and the compound noun may include an operation of performing the tokenization to form one token.

상기 복합 명사 추정 모델은 각각의 소스 데이터 타입 별로 생성된 것일 수 있다. 예를 들어, 특허 문서를 위한 복합 명사 추정 모델과, 뉴스 문서를 위한 복합 명사 추정 모델이 개별적으로 마련될 수 있다. 복합 명사 추정의 정확도를 높이기 위해, 세분화된 복합 명사 추정 모델이 마련될 수도 있을 것이다. 예를 들어, 소프트웨어 분야 특허 문서를 위한 복합 명사 추정 모델, 반도체 분야 특허 문서를 위한 복합 명사 추정 모델, 디스플레이 분야 특허 문서를 위한 복합 명사 추정 모델 등 특허 문헌의 기술 분야 마다 개별적인 복합 명사 추정 모델이 마련될 수도 있을 것이다.The compound noun estimation model may be created for each source data type. For example, a compound noun estimation model for a patent document and a compound noun estimation model for a news document may be prepared separately. In order to increase the accuracy of compound noun estimation, a detailed compound noun estimation model may be prepared. For example, individual compound noun estimation models are prepared for each technical field of patent documents, such as a compound noun estimation model for patent documents in the software field, a compound noun estimation model for patent documents in the semiconductor field, and a compound noun estimation model for patent documents in the display field. It could be.

복합 명사는 공백을 기준으로 서로 분리되어 있는 명사들로 구성된다. 이 때, 상술한 바와 같이 서로 분리된 명사들이 복합 명사를 구성하는 것이어서 하나의 토큰으로서 식별되어야 하는지 여부가 기계 학습 또는 통계적 방법론에 기반하여 추정되는 것이다. 복수의 단어로 구성된 복합 명사의 사용 비중이 낮지 않으므로, 복합 명사 추정 모델을 기반으로 복합 명사를 단일 토큰으로 처리하는 것은 토큰으로부터 추출된 특징 데이터가 각 소스 데이터의 내용을 보다 변별력 있게 표현하는데 기여하게 될 것이다.Compound nouns are made up of nouns that are separated from each other by spaces. At this time, as described above, since separate nouns constitute a compound noun, whether they should be identified as a single token is estimated based on machine learning or statistical methodology. Since the proportion of use of compound nouns composed of multiple words is not low, processing compound nouns as single tokens based on the compound noun estimation model allows feature data extracted from tokens to contribute to expressing the contents of each source data more discriminatively. It will be.

단계 S203에서, 토큰화에 따라 추출된 토큰이 특징 데이터로 변환된다. 상기 특징 데이터는 BoW(Bag of Words), TF-IDF, BM25와 같은 희소 표현(sparse representation)에 기반하여 변환되거나, Word2Vec, Doc2Vec와 같은 밀집 표현(dense representation)에 기반하여 변환될 수 있다. 몇몇 실시예에서, 특징 데이터로의 변환 방식은 각각의 소스 데이터 타입 별로 사전 지정된 것일 수 있다. 즉, 특허 문서의 특징 변환 방식과, 뉴스 문서의 특징 변환 방식이 서로 다를 수 있다.In step S203, the tokens extracted according to tokenization are converted into feature data. The feature data may be converted based on a sparse representation such as Bag of Words (BoW), TF-IDF, or BM25, or may be converted based on a dense representation such as Word2Vec or Doc2Vec. In some embodiments, the conversion method to feature data may be pre-specified for each source data type. In other words, the feature conversion method of a patent document and the feature conversion method of a news document may be different.

소스 데이터를 특징 데이터로 변환하는 동작(S201 내지 S203)은 축적된 각각의 소스 데이터 별로 반복 수행될 수 있다(S204, S205). 축적된 모든 소스 데이터에 대하여 특징 데이터 변환이 완료되면, 단계 S206에서 각 소스 데이터의 특징 데이터를 이용한 클러스터링이 수행된다. 상기 클러스터링은 k-means, spectral, DBSCAN, HDBSCAN 등의 알려진 클러스터링 알고리즘을 이용하여 수행될 수 있을 것이다.The operation of converting source data into feature data (S201 to S203) may be repeatedly performed for each accumulated source data (S204, S205). When feature data conversion is completed for all accumulated source data, clustering using feature data of each source data is performed in step S206. The clustering may be performed using known clustering algorithms such as k-means, spectral, DBSCAN, and HDBSCAN.

단계 S300에서, 상기 클러스터링의 결과 형성된 각 클러스터가 평가된다. 본 게시에서 각각의 클러스터가 평가된다는 것은, 각각의 클러스터의 중요도를 평가하는 것으로 이해될 수 있다. 또한, 상기 중요도는 축적된 전체가 소스 데이터가 의미하는 현 시점의 포괄적인 상황 정보와의 관련성을 의미할 수 있다.In step S300, each cluster formed as a result of the clustering is evaluated. In this publication, evaluating each cluster can be understood as evaluating the importance of each cluster. Additionally, the importance may refer to the relevance of the accumulated total to the current comprehensive situational information indicated by the source data.

상술한 바와 같이, 클러스터링의 평가는 기 지정된 클러스터링 평가 주기에 기반하여 주기적으로 수행될 수 있으며 상기 클러스터링 평가 주기는 상기 클러스터링 주기와 같거나 더 길게 지정된 것일 수 있다. 상기 클러스터링 평가 주기가 상기 클러스터링 주기보다 더 길게 지정된 것인 경우, 상기 클러스터링 평가는 직전의 클러스터링 평가 이후에 수행된 여러번의 클러스터링 결과들을 이용하여 수행될 수 있을 것이다. 각각의 클러스터가 평가되는 방식에 대하여 도 7을 참조하여 상술한다.As described above, clustering evaluation may be performed periodically based on a pre-designated clustering evaluation cycle, and the clustering evaluation cycle may be the same as or longer than the clustering cycle. If the clustering evaluation cycle is longer than the clustering cycle, the clustering evaluation may be performed using multiple clustering results performed after the previous clustering evaluation. The method by which each cluster is evaluated will be described in detail with reference to FIG. 7.

도 7에 도시된 바와 같이, 하나 이상의 평가 메트릭(assessment metric)이 연산된다. 도 7에는 예시적인 6가지의 메트릭이 순차적으로 연산되는 것으로 도시되어 있으나, 그 연산의 순서가 도 7에 도시된 것으로 한정될 필요는 없으며, 6가지의 메트릭 중 일부만이 연산될 수도 있고, 도 7에 도시된 것 이외의 추가 메트릭이 본 게시에 따른 클러스터 평가의 취지에 따라 연산되고 평가에 반영될 수도 있을 것이다.As shown in Figure 7, one or more assessment metrics are computed. Although FIG. 7 shows six exemplary metrics being calculated sequentially, the order of operations is not necessarily limited to that shown in FIG. 7, and only some of the six metrics may be calculated, and FIG. Additional metrics other than those shown in may be calculated and reflected in the evaluation according to the purpose of the cluster evaluation according to this publication.

아래의 각 메트릭을 연산함에 있어서, 각 소스 데이터 별로 서로 다른 가중치가 적용될 수 있음을 유의한다. 제1 실시예에서, 도 27에 도시된 바와 같이 각 소스 데이터 타입 별 가중치(2004)가 지정될 수 있다. 제2 실시예에서, 도 28에 도시된 바와 같이 소스 데이터가 수집된 사용자 단말의 디렉토리 별 가중치(2008)가 지정될 수도 있다. 제3 실시예에서, 도 29에 도시된 바와 같이 소스 데이터가 수집된 웹 서버 별 가중치(2010)가 지정될 수도 있다. 아래에서 각각의 메트릭에 대하여 설명한다.Please note that when calculating each metric below, different weights may be applied to each source data. In the first embodiment, as shown in FIG. 27, a weight 2004 may be designated for each source data type. In the second embodiment, as shown in FIG. 28, a weight 2008 may be designated for each directory of the user terminal where source data is collected. In the third embodiment, as shown in FIG. 29, a weight 2010 may be designated for each web server from which source data is collected. Each metric is explained below.

클러스터 크기(A)의 연산이 수행된다(S301). 클러스터 크기(A)는 클러스터에 속한 소스 데이터의 개수일 수 있다. 특정 클러스터에 속한 소스 데이터가 많을수록 해당 클러스터의 중요도가 높은 것으로 평가 될 수 있을 것이다. 클러스터에 속한 소스 데이터가 많다는 것은, 그만큼 그 클러스터에 대하여 언급하고 있는 문헌이 많다는 것을 의미하기 때문이다.The calculation of the cluster size (A) is performed (S301). Cluster size (A) may be the number of source data belonging to the cluster. The more source data belonging to a specific cluster, the higher the importance of that cluster can be assessed. This is because the amount of source data belonging to a cluster means that there is a lot of literature mentioning that cluster.

몇몇 실시예에서, 클러스터 크기(A)는 클러스터에 속한 소스 데이터의 개수와, 특징 공간(feature space) 상의 클러스터의 크기를 모두 반영하도록 연산될 수도 있을 것이다. 특정 클러스터에 속한 소스 데이터가 많고, 클러스터의 특징 공간 상 넓이가 넓을 수록 해당 클러스터의 중요도가 높은 것으로 볼 수 있을 것이다. 클러스터에 속한 소스 데이터가 많고 특징 공간에서 그 클러스터가 넓은 영역을 차지하고 있다는 것은, 그만큼 그 클러스터에 대하여 언급하고 있는 문헌이 많으며, 논의되는 내용도 풍부하다는 것을 의미하기 때문이다.In some embodiments, the cluster size (A) may be calculated to reflect both the number of source data belonging to the cluster and the size of the cluster in the feature space. The more source data belonging to a specific cluster, and the wider the feature space of the cluster, the higher the importance of that cluster. This is because the fact that there is a lot of source data belonging to a cluster and that the cluster occupies a large area in the feature space means that there is a lot of literature mentioning the cluster and the content being discussed is abundant.

클러스터 분산도(B)의 연산이 수행된다(S302). 상기 클러스터 분산도(B)는 특징 공간(feature space) 상의 클러스터의 크기를 가리키는 값일 수 있다. 클러스터의 특징 공간 상 넓이가 넓을 수록 해당 클러스터의 중요도가 높은 것으로 평가 될 수 있을 것이다. 특징 공간에서 클러스터가 넓은 영역을 차지하고 있다는 것은, 그만큼 그 클러스터에서 논의되는 내용도 풍부하다는 것을 의미하기 때문이다.The calculation of cluster dispersion (B) is performed (S302). The cluster dispersion (B) may be a value indicating the size of a cluster in feature space. The wider the cluster's feature space, the higher the importance of the cluster. This is because the fact that a cluster occupies a large area in the feature space means that the content discussed in that cluster is also abundant.

클러스터 긍/부정 통계량(C)의 연산이 수행된다(S303). 클러스터 긍/부정 통계량(C)은 클러스터에 속한 각각의 소스 데이터의 토큰에 대하여 감정 분석(sentiment analysis)을 수행한 결과 얻어진 각 소스 데이터의 긍/부정 스코어를 합산한 것으로 이해될 수 있을 것이다. 클러스터 긍/부정 통계량(C)이 높은 긍정도를 가리킬 수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터에 속한 소스 데이터들의 내용이 긍정적이라는 것은, 해당 클러스터가 포괄적으로 가리키고 있는 주제 역시 긍정적으로 평가되고 있는 것을 의미하기 때문이다.The calculation of cluster positive/negative statistics (C) is performed (S303). The cluster positive/negative statistic (C) can be understood as the sum of the positive/negative scores of each source data obtained as a result of performing sentiment analysis on the tokens of each source data belonging to the cluster. The higher the cluster positive/negative statistic (C) indicates, the higher the importance of the cluster can be evaluated. This is because the fact that the content of the source data belonging to a cluster is positive means that the topic comprehensively indicated by the cluster is also evaluated positively.

클러스터 소스 데이터 타입의 다양성(D)의 연산이 수행된다(S304). 클러스터 소스 데이터 타입의 다양성(D)은, 예를 들어 해당 클러스터에 속한 소스 데이터의 타입 분산 값을 의미할 수 있을 것이다. 클러스터 소스 데이터 타입의 다양성(D)이 클수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터의 소스 데이터 타입이 다양하다는 것은, 해당 클러스터가 포괄적으로 가리키고 있는 주제에 대하여 특허, 뉴스, SNS 등 다양한 형식의 문서들이 공개되고 있다는 뜻이기 때문이다.The calculation of the diversity (D) of the cluster source data type is performed (S304). Diversity (D) of cluster source data types may mean, for example, the type distribution value of source data belonging to the corresponding cluster. The greater the diversity (D) of cluster source data types, the higher the importance of the cluster can be evaluated. This is because the variety of source data types in a cluster means that documents in various formats, such as patents, news, and SNS, are being released on the topics comprehensively pointed to by the cluster.

클러스터의 소스 데이터 별 스코어 합산치(E)의 연산이 수행된다(S305). 클러스터의 소스 데이터 별 스코어 합산치(E)는, 해당 클러스터에 포함된 각 소스 데이터의 스코어를 상기 소스 데이터의 타입에 따른 스코어 연산 규칙에 따라 연산하고, 상기 클러스터에 포함된 각 소스 데이터의 스코어를 합산하는 것에 의하여 연산될 수 있다.The calculation of the sum of scores (E) for each source data of the cluster is performed (S305). The total score (E) for each source data of a cluster is calculated by calculating the score of each source data included in the cluster according to the score calculation rule according to the type of the source data, and calculating the score of each source data included in the cluster. It can be calculated by adding up.

상기 스코어 연산 규칙은 소스 데이터 타입 별로 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌의 스코어 연산 규칙은, 패밀리 특허가 많을수록, 도면이 많을수록, 상세한 설명의 길이가 길수록, 청구항이 많을수록, 독립 청구항이 많을수록, 피인용 건수가 많을수록 더 높은 스코어가 연산 되게 정의될 수 있다. 또한, 뉴스 문헌의 스코어 연산 규칙은, 조회 수가 많을수록, 댓글 건수가 많을수록, 긍정도 점수가 높을수록 더 높은 스코어가 연산 되게 정의될 수 있을 것이다.The score calculation rules may be defined differently for each source data type. For example, the score calculation rule for patent documents is defined to calculate a higher score as there are more family patents, more drawings, longer detailed descriptions, more claims, more independent claims, and more citations. You can. Additionally, the score calculation rule for news literature may be defined so that a higher score is calculated as the number of views, the number of comments, and the positivity score are higher.

클러스터의 소스 데이터 별 스코어 합산치(E)가 높을수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터의 소스 데이터 별 스코어 합산치(E)는 특정 클러스터에 소속된 소스 데이터의 양적인 측면 뿐만 아니라 질적인 측면까지도 고려하여 클러스터 평가가 이뤄지게 하는 효과를 제공할 수 있다.The higher the sum of scores (E) for each source data of a cluster, the higher the importance of the cluster can be evaluated. The sum of scores (E) for each source data of a cluster can provide the effect of allowing cluster evaluation to be performed by considering not only the quantitative but also the qualitative aspects of the source data belonging to a specific cluster.

클러스터의 소스 데이터 관련 주체의 다양성(F)의 연산이 수행된다(S306). 클러스터의 소스 데이터 관련 주체의 다양성(F)은, 상기 클러스터에 포함된 각 소스 데이터의 관련 주체를 상기 소스 데이터의 타입에 따른 관련 주체 추출 규칙에 따라 결정하고, 상기 클러스터에 포함된 각 소스 데이터 관련 주체의 다양성 지표를 연산하는 것에 의하여 연산될 수 있다.A calculation of the diversity (F) of subjects related to the source data of the cluster is performed (S306). The diversity (F) of subjects related to the source data of the cluster determines the subjects related to each source data included in the cluster according to the related subject extraction rule according to the type of the source data, and determines the subjects related to each source data included in the cluster. It can be calculated by calculating the diversity index of the subject.

상기 주체 추출 규칙은 소스 데이터 타입 별로 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌의 주체 추출 규칙은 출원인을 해당 소스 데이터의 주체로 결정하는 것으로 정의될 수 있을 것이다. 또한, 뉴스 문헌의 주체 추출 규칙은 개체명 인식(NER; Named-Entity Recognition) 기술을 이용하여 뉴스 문헌에서 추출된 자산 명칭 중에서 상위의 일부 자산 명칭을 해당 소스 데이터의 주체로 결정하는 것으로 정의될 수 있을 것이다.The subject extraction rules may be defined differently for each source data type. For example, a subject extraction rule for a patent document could be defined as determining the applicant as the subject of the corresponding source data. In addition, the subject extraction rule of news documents can be defined as determining some of the top asset names among asset names extracted from news documents as the subject of the source data using Named-Entity Recognition (NER) technology. There will be.

클러스터의 소스 데이터 관련 주체의 다양성(F)이 높을 수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터의 소스 데이터 관련 주체가 다양하다는 것은, 해당 클러스터가 포괄적으로 가리키고 있는 주제에 대하여, 다양한 주체들이 관련 문서들을 공개하고 있거나, 다양한 주체들에 의한 활동이 공개되고 있다는 뜻이기 때문이다.The higher the diversity (F) of subjects related to the source data of a cluster, the higher the importance of the cluster can be evaluated. This is because the fact that there are various subjects related to the source data of a cluster means that various subjects are disclosing related documents or activities by various subjects are being disclosed regarding the topic comprehensively indicated by the cluster.

클러스터 평가에 필요한 메트릭의 연산이 마무리되면, 단계 S307에서 하나 이상의 메트릭을 이용하여 평가 스코어 또는 평가 등급이 연산된다. 또한, 각 클러스터에 대한 메트릭 연산 및 그에 기반한 평가 스코어 또는 평가 등급의 연산은 각각의 클러스터에 대하여 반복하여 수행될 것이다(S308, S309).When the calculation of the metrics required for cluster evaluation is completed, an evaluation score or evaluation grade is calculated using one or more metrics in step S307. Additionally, the metric calculation for each cluster and the calculation of the evaluation score or evaluation grade based thereon will be repeatedly performed for each cluster (S308, S309).

다시 도 5로 돌아와서 설명한다. 단계 S400에서, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부가 선정된다. 이 때, 각 클러스터에 부여된 평가 스코어 또는 평가 등급을 기준으로 상위의 클러스터가 선정될 수 있다. 선정되는 클러스터의 개수는 기 지정된 고정 개수이거나, 클러스터의 전체 개수 중 기 지정된 비율에 대응되는 개수일 수 있다.Let's return to Figure 5 again for explanation. In step S400, some of the plurality of clusters formed as a result of the clustering are selected using the results of the evaluation. At this time, a higher cluster may be selected based on the evaluation score or evaluation grade assigned to each cluster. The number of clusters selected may be a pre-specified fixed number or a number corresponding to a pre-specified ratio among the total number of clusters.

단계 S500에서, 상기 선정된 클러스터에 대응되는 토픽(topic)이 결정된다. 선정된 클러스터에 대응되는 토픽이 결정되는 방법에 대하여는 도 20을 참조하여 상세히 후술하기로 한다.In step S500, a topic corresponding to the selected cluster is determined. The method by which the topic corresponding to the selected cluster is determined will be described in detail later with reference to FIG. 20.

클러스터의 시간적 변화를 반영한 토픽의 자동 결정Automatic determination of topics that reflect temporal changes in the cluster

지금까지 도 5 내지 도 7을 참조한 설명에서, 수집되어 축적된 소스 데이터에 대하여 클러스터링이 수행되고, 각각의 클러스터에 대한 평가의 결과를 이용하여 일부의 클러스터가 선정되며, 선정된 클러스터에 대응되는 토픽이 결정되는 과정이 게시되었다.In the description referring to FIGS. 5 to 7 so far, clustering is performed on the collected and accumulated source data, some clusters are selected using the results of evaluation for each cluster, and topics corresponding to the selected clusters are selected. The process by which this decision was made has been published.

몇몇 실시예에서, 각각의 클러스터에 대한 평가는 시간적 변화에 대한 평가를 포함할 수 있다. 상기 시간적 변화에 대한 평가는 각 클러스터가 과거의 클러스터링 결과 대비 시간적으로 어떻게 변화하였는지를 평가하는 것으로 이해될 수 있을 것이다. 본 실시예에서는, 당해 클러스터링에서 절대적인 평가 스코어가 높지 않더라도 성장세가 두드러지는 클러스터의 토픽이 출력될 수 있을 것이다.In some embodiments, evaluation of each cluster may include evaluation of temporal changes. The evaluation of the temporal change may be understood as evaluating how each cluster has changed temporally compared to past clustering results. In this embodiment, topics of clusters with notable growth may be output even if the absolute evaluation score in the clustering is not high.

토픽을 자동 결정하는 정보 처리 방법이 투자 유니버스를 자동 생성하는 방법에 적용되는 경우, 투자 유니버스 자동 결정 환경 설정 화면에서 성장 토픽 관련 자산을 우선 편입하는 옵션이 선택되면 클러스터에 대한 평가에 시간적 변화에 대한 평가가 포함될 것이다. 반면에, 투자 유니버스 자동 결정 환경 설정 화면에서 우세 토픽 관련 자산을 우선 편입하는 옵션이 선택되면 클러스터에 대한 평가에 시간적 변화에 대한 평가가 포함되지 않거나, 시간적 변화에 대한 평가가 포함되더라도 그 가중치가 낮게 조정될 것이다. 도 27 내지 도 29에 도시된 편입 자산의 타입을 선택하는 옵션(2006)을 참조한다.If the information processing method that automatically determines the topic is applied to the method of automatically generating the investment universe, and the option to first incorporate assets related to growth topics is selected in the investment universe automatic determination preferences screen, the evaluation of the cluster will be subject to changes in time. Evaluation will be included. On the other hand, if the option to preferentially include assets related to dominant topics is selected in the investment universe automatic determination configuration screen, the evaluation of the cluster will not include evaluation of temporal changes, or if evaluation of temporal changes is included, its weight will be low. It will be adjusted. See Options for Selecting Type of Incorporated Asset (2006) shown in Figures 27-29.

이하, 도 8 내지 도 19를 참조하여 클러스터의 시간적 변화 평가를 포함하는 정보 처리 방법을 설명하기로 한다. 도 5 내지 도 7을 참조하여 설명된 실시예를 통하여 이해될 수 있는 기술적 사상은, 특별한 언급이 없더라도 본 실시예에 따른 정보 처리 방법에 당연히 적용될 수 있다. 먼저 도 8을 참조하여 설명한다.Hereinafter, an information processing method including evaluation of temporal changes in clusters will be described with reference to FIGS. 8 to 19. Technical ideas that can be understood through the embodiments described with reference to FIGS. 5 to 7 can naturally be applied to the information processing method according to the present embodiment even if no special mention is made. First, it will be described with reference to FIG. 8.

단계 S100 및 S160에서, 소스 데이터의 주기적인 수집 및 수집된 소스 데이터의 축적이 수행된다.In steps S100 and S160, periodic collection of source data and accumulation of the collected source data are performed.

클러스터링 주기가 완성되면(S150), 축적된 소스 데이터에 대한 클러스터링이 수행된다(S200). 클러스터링의 수행 결과는 추후 클러스터 평가에서 참조될 수 있도록 기 지정된 형식으로 가공된 후 저장될 수 있을 것이다(S260). 상기 클러스터링의 수행 결과는 각 클러스터 별 소송 소스 데이터의 식별 정보, 각 클러스터 별 특징 공간 상 형성 위치 및 소속 소스 데이터의 특징 공간 상 위치 정보를 포함할 수 있다.When the clustering cycle is completed (S150), clustering is performed on the accumulated source data (S200). The results of clustering may be processed and stored in a predetermined format so that they can be referenced in future cluster evaluation (S260). The result of the clustering may include identification information of litigation source data for each cluster, formation location on feature space for each cluster, and location information on feature space of source data belonging to each cluster.

클러스터 평가 주기가 완성되면(S250), 최근 수행된 클러스터링의 결과로 형성된 각각의 클러스터 별로 시간적 변화 평가가 수행된다(S310).When the cluster evaluation cycle is completed (S250), temporal change evaluation is performed for each cluster formed as a result of the recently performed clustering (S310).

시간적 변화 평가의 수행 결과 긍정적인 시간적 변화를 보이는 일부의 클러스터가 선정될 것이다(S410). 이 때, 긍정적 시간적 변화의 크기가 큰 순으로 상위의 기 설정 개수 또는 기 설정 비율의 클러스터가 선정될 수 있다. 상기 시간적 변화의 크기는, 도 7을 참조하여 설명한 평가 메트릭이 기준이 될 수 있다.As a result of the temporal change evaluation, some clusters showing positive temporal changes will be selected (S410). At this time, clusters with a higher preset number or preset ratio may be selected in order of the magnitude of positive temporal change. The magnitude of the temporal change may be based on the evaluation metric described with reference to FIG. 7.

예를 들어, 최근 수행된 클러스터링의 결과로 형성된 제1 클러스터의 상기 평가 메트릭에서, 과거의 클러스터링의 결과로 형성되고 상기 제1 클러스터와 동일성이 있는 것으로 평가된 제2 클러스터의 상기 평가 메트릭을 차감한 결과가 상기 시간적 변화의 크기인 것으로 이해될 수 있을 것이다. 상기 차감한 결과가 양의 값이고 그 값이 클수록, 긍정적인 시간적 변화를 보이는 것으로 평가될 것이다.For example, the evaluation metric of a first cluster formed as a result of a recently performed clustering is subtracted from the evaluation metric of a second cluster formed as a result of a past clustering and evaluated as being identical to the first cluster. The result may be understood as the magnitude of the temporal change. If the subtraction result is a positive value and the value is larger, it will be evaluated as showing a positive temporal change.

다음으로, 상기 선정된 클러스터에 대응되는 토픽이 결정되고, 상기 결정된 토픽에 대한 정보가 출력될 수 있다(S500). 상술한 바와 같이 이 때 출력되는 토픽은 성장성이 컸던 토픽을 가리키는 것으로, 예를 들어 성장성이 큰 투자 자산을 자동 결정하기 위해 활용될 수 있을 것이다.Next, a topic corresponding to the selected cluster is determined, and information about the determined topic can be output (S500). As described above, the topic output at this time refers to a topic with high growth potential, and can be used, for example, to automatically determine investment assets with high growth potential.

도 8을 참조하여 설명한 정보 처리 방법에 따르면, 소스 데이터를 수집하는 것은, 기 지정된 소스 데이터 수집 주기 마다 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 것을 포함하고, 수집된 소스 데이터를 클러스터링 하는 것은, 기 지정된 클러스터링 주기 마다 상기 축적된 소스 데이터를 클러스터링 하는 것으로 이해될 수 있을 것이다. 이 때, 상기 클러스터링 주기는 상기 소스 데이터 수집 주기 보다 긴 것일 수 있다.According to the information processing method described with reference to FIG. 8, collecting source data includes collecting new source data that has not been previously collected at each pre-designated source data collection cycle and accumulating the collected source data. , Clustering the collected source data may be understood as clustering the accumulated source data at each predetermined clustering cycle. At this time, the clustering period may be longer than the source data collection period.

도 9를 참조하여, 시간적 변화 평가의 수행 과정(S310)을 보다 자세히 설명한다.Referring to FIG. 9, the process of performing temporal change evaluation (S310) will be described in more detail.

단계 S3100에서, 과거의 각 클러스터링 주기 별 클러스터링 결과 데이터가 로딩된다. 이 때 로딩 되는 클러스터링 결과 데이터의 건수는 사전 설정될 수 있다. 예를 들어, 직전 2회의 클러스터링 결과 데이터를 참조하여 시간적 변화 평가가 수행되는 것으로 설정될 수 있을 것이다. 예를 들어, 매주 클러스터링이 수행되는 설정 상황에서, 마지막 클러스터링이 8월 셋째주라면, 8월 첫째주의 클러스터링 결과 데이터와 8월 둘째주의 클러스터링 결과 데이터가 로딩될 수 있을 것이다.In step S3100, clustering result data for each past clustering cycle is loaded. At this time, the number of clustering result data loaded can be preset. For example, it may be set that temporal change evaluation is performed by referring to the clustering result data of the two previous rounds. For example, in a setting where clustering is performed every week, if the last clustering was the third week of August, the clustering result data of the first week of August and the clustering result data of the second week of August may be loaded.

단계 S3102에서, 최근 클러스터링의 결과로 형성된 각 클러스터와 대응되는 과거 클러스터가 식별된다. 즉, 최근 클러스터링의 결과로 형성된 각 클러스터와 실질적으로 동일한 과거 클러스터 사이의 동일성 매칭이 수행된다.In step S3102, past clusters corresponding to each cluster formed as a result of recent clustering are identified. That is, identity matching is performed between each cluster formed as a result of recent clustering and substantially identical past clusters.

각각의 클러스터링의 결과로 형성되는 클러스터에는 다른 회차에도 그대로 통용될 수 있는 고유의 식별자가 부여되기 어려우므로, 상기 동일성 매칭은 특징 공간 상에서 매칭 대상인 2개의 클러스터(평가 대상인 최근의 클러스터, 비교 대상인 과거의 클러스터)가 얼마나 유사한지를 평가하는 것에 의하여 수행된다. 이하, 동일성 매칭의 기준 관련하여 제5 내지 제9 실시예를 설명한다.Since it is difficult to assign a unique identifier that can be used in other rounds to the cluster formed as a result of each clustering, the identity matching is performed on two clusters to be matched in the feature space (a recent cluster to be evaluated and a past cluster to be compared). This is done by evaluating how similar the clusters are. Hereinafter, fifth to ninth embodiments will be described in relation to the criteria for identity matching.

제5 실시예에서, 각 클러스터의 특징 공간 상 대표점의 유클리드 거리(Euclidean distance)를 기준으로 상기 동일성 매칭이 수행될 수 있다. 예를 들어, 평가 대상인 제1 클러스터의 대표점과 과거 클러스터링의 결과 형성된 각각의 과거 클러스터의 대표점 사이의 유클리드 거리들이 연산되고, 가장 짧은 유클리드 거리를 보이는 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.In the fifth embodiment, the identity matching may be performed based on the Euclidean distance of the representative point in the feature space of each cluster. For example, the Euclidean distances between the representative point of the first cluster to be evaluated and the representative point of each past cluster formed as a result of past clustering are calculated, and the past cluster showing the shortest Euclidean distance is the identity matching cluster of the first cluster. can be decided.

제5-1 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 거리 중심점일 수 있다. 도 10 내지 도 12를 참조하여 자세히 설명한다. 도 10은 2020년 8월 첫째주 클러스터링 결과(3110)이고, 그 결과 3개의 클러스터(3111, 3112, 3113)가 특징 공간 상에서 형성된다. 도 11은 평가 대상인 2020년 8월 둘째주의 클러스터링 결과(3120)를 도시한다. 클러스터링 결과 3개의 클러스터(3121, 3122, 3123)가 특징 공간 상에서 형성된다.In the 5-1 embodiment, the representative point of the cluster may be the distance center point of the cluster area. This will be described in detail with reference to FIGS. 10 to 12. Figure 10 shows the clustering result (3110) for the first week of August 2020, and as a result, three clusters (3111, 3112, and 3113) are formed in the feature space. Figure 11 shows the clustering result (3120) of the second week of August 2020, which is the subject of evaluation. As a result of clustering, three clusters (3121, 3122, 3123) are formed in the feature space.

도 12는 평가 대상 클러스터의 대표점과 과거 클러스터링의 클러스터의 대표점 사이의 유클리드 거리들을 도시한다. 이해를 돕기 위해 가장 인접한 3개의 유클리드 거리들(d1, d2, d3) 만이 도시되어 있다. 평가 대상 클러스터(3121)와 가장 짧은 유클리드 거리(d1)를 보이는 과거 클러스터(3111)가 동일성 매칭되고, 평가 대상 클러스터(3122)와 가장 짧은 유클리드 거리(d2)를 보이는 과거 클러스터(3112)가 동일성 매칭되며, 평가 대상 클러스터(3123)와 가장 짧은 유클리드 거리(d1)를 보이는 과거 클러스터(3113)가 동일성 매칭될 것이다.Figure 12 shows Euclidean distances between representative points of clusters to be evaluated and representative points of clusters of past clustering. To aid understanding, only the three closest Euclidean distances (d1, d2, d3) are shown. The past cluster (3111) showing the shortest Euclidean distance (d1) with the evaluation target cluster (3121) is matched for identity, and the past cluster (3112) showing the shortest Euclidean distance (d2) with the evaluation target cluster (3122) is matched for identity. The evaluation target cluster (3123) and the past cluster (3113) showing the shortest Euclidean distance (d1) will be matched for identity.

제5-2 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 무게 중심점일 수도 있다. 상기 무게 중심점은 각각의 소스 데이터의 특징 공간상 분포를 고려하는 중심점인 것으로 이해될 수 있을 것이다. 상기 무게 중심점을 연산함에 있어서, 각각의 소스 데이터가 동일한 무게를 가지는 것으로 처리될 수도 있고, 도 7의 단계 S305에서 설명한 소스 데이터 별 스코어만큼의 무게를 가지는 것으로 처리될 수도 있을 것이다.In the 5-2 embodiment, the representative point of the cluster may be the center of gravity of the cluster area. The center of gravity may be understood as a central point that considers the distribution of feature space of each source data. In calculating the center of gravity, each source data may be treated as having the same weight, or may be treated as having a weight equal to the score for each source data described in step S305 of FIG. 7.

제5 실시예에 따르면, 클러스터링의 결과와 관계없이, 평가 대상 클러스터와 과거 클러스터링의 클러스터 사이의 객관적인 유사도가 추출되는 효과를 얻는다. 제5 실시예는, 동일성이 인정되어야 하는 과거와 현재의 클러스터라면 특징 공간 상에서 그 대표점의 이동이 크지 않을 것인 점에 기인한 실시예이다.According to the fifth embodiment, the effect of extracting objective similarity between the cluster to be evaluated and the cluster of past clustering is obtained, regardless of the clustering result. The fifth embodiment is an embodiment based on the fact that if it is a past and present cluster for which identity must be recognized, the movement of the representative point in the feature space will not be large.

제6 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 크기를 기준으로 상기 동일성 매칭이 수행될 수 있다. 즉, 평가 대상인 제1 클러스터와 과거 클러스터링의 결과 형성된 각각의 과거 클러스터가 서로 겹치는 영역의 크기가 연산되고, 겹치는 영역이 가장 큰 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.In the sixth embodiment, the identity matching may be performed based on the size of the area where the evaluation target cluster and the cluster from past clustering overlap. That is, the size of the overlapping area between the first cluster to be evaluated and each past cluster formed as a result of past clustering is calculated, and the past cluster with the largest overlapping area may be determined as the identity matching cluster of the first cluster.

제7 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 소스 데이터 개수를 기준으로 상기 동일성 매칭이 수행될 수도 있다. 즉, 평가 대상인 제1 클러스터와 과거 클러스터링의 결과 형성된 각각의 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 개수가 가장 많은 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.In the seventh embodiment, the identity matching may be performed based on the number of source data in the area where the cluster to be evaluated and the cluster of past clustering overlap. That is, the past cluster with the largest number of source data located in an area where the first cluster to be evaluated and each past cluster formed as a result of past clustering overlap with each other may be determined as the identity matching cluster of the first cluster.

제8 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역에 위치한 소스 데이터의 스코어(도 7의 단계 S305 참조)의 합산치를 기준으로 상기 동일성 매칭이 수행될 수도 있다. 즉, 평가 대상인 제1 클러스터와 과거 클러스터링의 결과 형성된 각각의 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 스코어 합산치가 가장 큰 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.In the eighth embodiment, the identity matching may be performed based on the sum of the scores of source data (see step S305 of FIG. 7) located in an area where the evaluation target cluster and the cluster of past clustering overlap. That is, the past cluster with the largest combined score of the source data located in the overlapping area between the first cluster that is the evaluation target and each past cluster formed as a result of past clustering may be determined as the identity matching cluster of the first cluster.

상술한 제5 내지 제8 실시예는, 특징 공간 상에서 매칭 대상인 2개의 클러스터(평가 대상인 최근의 클러스터, 비교 대상인 과거의 클러스터)가 얼마나 유사한지를 평가함으로써, 평가 대상인 최근의 클러스터와 동일한 것으로 추정되는 과거의 클러스터를 찾는 방법을 제시한다. 제5 내지 제8 실시예는 각각의 클러스터링의 결과로 형성되는 클러스터에는 다른 회차에도 그대로 통용될 수 있는 고유의 식별자가 부여되기 어려운 점으로 인하여 필요한 것인데, 본 게시의 다른 몇몇 실시예에서는 클러스터링 결과에 따라 형성되는 각각의 클러스터에 대하여 클러스터에 대응되는 토픽을 결정하고, 이렇게 결정된 토픽을 상기 클러스터의 식별자로서 활용함으로써, 평가 대상 클러스터와 동일한 과거의 클러스터를 정확하게 찾아낼 수 있다. 이러한 실시예에 대하여 도 13 내지 도 19를 참조하여 설명한다.The above-described fifth to eighth embodiments evaluate how similar the two matching clusters (the recent cluster to be evaluated and the past cluster to be compared) are in the feature space, thereby determining the past cluster that is estimated to be the same as the recent cluster to be evaluated. A method for finding clusters is presented. The fifth to eighth embodiments are necessary because it is difficult to assign a unique identifier that can be used in other rounds to the cluster formed as a result of each clustering, but in some other embodiments of this publication, the clustering result By determining a topic corresponding to the cluster for each cluster formed accordingly and using the determined topic as an identifier for the cluster, a past cluster identical to the cluster to be evaluated can be accurately found. This embodiment will be described with reference to FIGS. 13 to 19.

도 5 내지 도 7을 참조하여 설명된 실시예를 통하여 이해될 수 있는 기술적 사상은, 특별한 언급이 없더라도 도 13 내지 도 19를 참조한 본 실시예에 따른 정보 처리 방법에 당연히 적용될 수 있다. 먼저 도 13을 참조하여 설명한다.Technical ideas that can be understood through the embodiments described with reference to FIGS. 5 to 7 can naturally be applied to the information processing method according to the present embodiments with reference to FIGS. 13 to 19, even if no special mention is made. First, it will be described with reference to FIG. 13.

단계 S100 및 S160에서, 소스 데이터의 주기적인 수집 및 수집된 소스 데이터의 축적이 수행된다.In steps S100 and S160, periodic collection of source data and accumulation of the collected source data are performed.

클러스터링 주기가 완성되면(S150), 축적된 소스 데이터에 대한 클러스터링이 수행된다(S200). 클러스터링의 수행 결과는 추후 클러스터 평가에서 참조될 수 있도록 기 지정된 형식으로 가공된 후 저장될 수 있을 것이다(S260-1). 도 13에 도시된 실시예에서는, 도 8에 도시된 실시예와는 달리 상기 클러스터링의 수행 결과에 각 클러스터 별 소송 소스 데이터의 식별 정보, 각 클러스터 별 특징 공간 상 형성 위치 및 소속 소스 데이터의 특징 공간 상 위치 정보뿐만 아니라, 각 클러스터 별 토픽 정보가 더 포함될 수 있다. 상기 토픽 정보는 하나 이상의 키워드 셋에 대한 정보를 가리킨다. 몇몇 실시예에서, 상기 토픽 정보가 복수의 키워드의 셋인 경우, 상기 토픽 정보는 각 키워드 별 가중치 정보를 더 포함할 수 있다.When the clustering cycle is completed (S150), clustering is performed on the accumulated source data (S200). The results of clustering may be processed and stored in a predetermined format so that they can be referenced in future cluster evaluation (S260-1). In the embodiment shown in FIG. 13, unlike the embodiment shown in FIG. 8, the clustering result includes identification information of litigation source data for each cluster, formation position on the feature space for each cluster, and feature space of the source data belonging to each cluster. In addition to location information, topic information for each cluster may be further included. The topic information indicates information about one or more keyword sets. In some embodiments, when the topic information is a set of multiple keywords, the topic information may further include weight information for each keyword.

상술한 바와 같이, 클러스터링의 결과가 저장될 때 각 클러스터의 토픽 정보도 포함되어야 하므로, 소스 데이터에 대한 클러스터링(S200)이 수행되면 곧 이어 각각의 클러스터에 대응되는 토픽이 결정되는 것이다(S500-1). 클러스터에 대응되는 토픽이 결정되는 과정에 대하여는 도 20을 참조하여 상세히 후술할 것이다.As described above, when the clustering results are stored, the topic information of each cluster must also be included, so once clustering (S200) is performed on the source data, the topic corresponding to each cluster is determined immediately (S500-1) ). The process of determining the topic corresponding to the cluster will be described in detail later with reference to FIG. 20.

클러스터 평가 주기가 완성되면(S250), 최근 수행된 클러스터링의 결과로 형성된 각각의 클러스터 별로 시간적 변화 평가가 수행된다(S320). 관련하여 도 14 내지 도 19를 참조하여 설명한다.When the cluster evaluation cycle is completed (S250), temporal change evaluation is performed for each cluster formed as a result of the recently performed clustering (S320). This will be described with reference to FIGS. 14 to 19.

상술한 바와 같이, 토픽을 클러스터의 식별자로서 활용함으로써, 평가 대상 클러스터와 동일한 과거의 클러스터를 정확하게 찾아낼 수 있는 바, 평가 대상 클러스터와 과거의 클러스터 간 동일성 매칭은 각 클러스터의 토픽 간 동일성을 판정하는 것으로 간소화될 수 있다.As described above, by using the topic as an identifier of the cluster, it is possible to accurately find past clusters that are identical to the evaluation target cluster. Identity matching between the evaluation target cluster and past clusters determines the identity between the topics of each cluster. It can be simplified as:

토픽 간 동일성을 판정하는 것은, 토픽을 구성하는 키워드 셋의 일치 비율이 높을 수록 토픽 간 동일성이 높은 것으로 판정하는 것을 포함할 수 있다. 상기 키워드 셋의 일치 비율은 토픽의 각 키워드 별 가중치를 고려하여 연산 될 수 있다. 예를 들어, 평가 대상 클러스터의 제1 토픽과 과거 클러스터의 제2 토픽 모두 2개의 키워드 셋으로 구성되는 경우, 2개의 키워드 중 하나만 일치하더라도 높은 가중치를 가지는 키워드가 일치하는 것이 토픽 간 동일성이 높은 것으로 판정될 것이다.Determining the identity between topics may include determining that the higher the match rate of the keyword sets constituting the topic, the higher the identity between the topics. The match rate of the keyword set can be calculated by considering the weight of each keyword of the topic. For example, if the first topic of the cluster to be evaluated and the second topic of the past cluster both consist of two sets of keywords, even if only one of the two keywords matches, matching a keyword with a high weight indicates high identity between topics. will be judged.

도 14는 2020년 8월 셋째 주의 클러스터링 결과(3130)로서 3개의 클러스터(3131, 3132, 3133)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 15는 2020년 8월 넷째 주의 클러스터링 결과(3140)로서 3개의 클러스터(3141, 3142, 3143)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 16은 2020년 8월 넷째 주의 클러스터링 결과(3140)를 2020년 8월 셋째 주의 클러스터링 결과와 대비하여 도시한다.Figure 14 shows that three clusters (3131, 3132, 3133) were formed as a result of clustering (3130) in the third week of August 2020, and the topics of each cluster were determined to be AI, VR, and IoT. Figure 15 shows that three clusters (3141, 3142, 3143) were formed as a result of clustering (3140) for the fourth week of August 2020, and the topics of each cluster were determined to be AI, VR, and IoT. Figure 16 shows the clustering results 3140 of the fourth week of August 2020 in comparison with the clustering results of the third week of August 2020.

단계 S320에서 시간적 변화 평가가 수행됨에 있어, 몇몇 실시예들이 제시된다. 이와 관련하여, 제9 실시예 내지 제 13 실시예를 설명한다.In performing temporal change evaluation in step S320, several embodiments are presented. In this regard, the ninth to thirteenth embodiments will be described.

제9 실시예에서, 각 클러스터의 특징 공간 상 대표점의 유클리드 거리(Euclidean distance)를 기준으로 상기 시간적 변화 평가가 수행될 수 있다. 도 16에 도시된 상황에서, 토픽 AI의 클러스터의 대표점이 1주일 사이에 가장 멀리 이동한 것을 알 수 있다. 이 경우, 2020년 8월 넷째주에 가장 변화가 큰 토픽은 AI인 것으로 결정될 수 있을 것이다.In the ninth embodiment, the temporal change evaluation may be performed based on the Euclidean distance of the representative point in the feature space of each cluster. In the situation shown in Figure 16, it can be seen that the representative point of the topic AI cluster has moved the farthest in one week. In this case, it can be determined that the topic with the greatest change in the fourth week of August 2020 is AI.

제9-1 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 거리 중심점일 수 있다. In the 9-1 embodiment, the representative point of the cluster may be the distance center point of the cluster area.

제9-2 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 무게 중심점일 수도 있다. 상기 무게 중심점은 각각의 소스 데이터의 특징 공간상 분포를 고려하는 중심점인 것으로 이해될 수 있을 것이다. 상기 무게 중심점을 연산함에 있어서, 각각의 소스 데이터가 동일한 무게를 가지는 것으로 처리될 수도 있고, 도 7의 단계 S305에서 설명한 소스 데이터 별 스코어만큼의 무게를 가지는 것으로 처리될 수도 있을 것이다.In the 9-2 embodiment, the representative point of the cluster may be the center of gravity of the cluster area. The center of gravity may be understood as a central point that considers the distribution of feature space of each source data. In calculating the center of gravity, each source data may be treated as having the same weight, or may be treated as having a weight equal to the score for each source data described in step S305 of FIG. 7.

제10 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 크기를 기준으로 상기 시간적 변화 평가가 수행될 수 있다. 즉, 특정 토픽의 평가 대상 클러스터와 과거 클러스터가 서로 겹치는 영역의 크기가 연산되고, 겹치는 영역이 작을수록 시간적 변화가 큰 것으로 평가될 수 있는 것이다.In the tenth embodiment, the temporal change evaluation may be performed based on the size of the area where the evaluation target cluster and the cluster of past clustering overlap. In other words, the size of the area where the evaluation target cluster of a specific topic overlaps with the past cluster is calculated, and the smaller the overlapping area, the greater the temporal change can be evaluated.

도 17 내지 도 19를 참조하여 제10 실시예를 설명한다.A tenth embodiment will be described with reference to FIGS. 17 to 19.

도 17은 2020년 9월 첫째 주의 클러스터링 결과(3150)로서 3개의 클러스터(3151, 3152, 3153)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 18은 2020년 9월 둘째 주의 클러스터링 결과(3160)로서 3개의 클러스터(3161, 3162, 3163)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 19는 2020년 9월 둘째 주의 클러스터링 결과(3160)를 2020년 9월 첫째 주의 클러스터링 결과와 대비하여 도시한다.Figure 17 shows that three clusters (3151, 3152, 3153) were formed as a result of clustering (3150) in the first week of September 2020, and the topics of each cluster were determined to be AI, VR, and IoT. Figure 18 shows that three clusters (3161, 3162, 3163) were formed as a result of clustering (3160) in the second week of September 2020, and the topics of each cluster were determined to be AI, VR, and IoT. Figure 19 shows the clustering results (3160) of the second week of September 2020 in comparison with the clustering results of the first week of September 2020.

도 19에 도시된 바와 같이, 특징 공간 상에서 2020년 9월 둘째 주의 클러스터링 결과에 따른 클러스터와, 2020년 9월 첫째 주의 클러스터링 결과에 따른 클러스터 사이에 겹치는 영역이 가장 작은 토픽은 AI인 것을 알 수 있다. 따라서, 이 경우 시간적 변화가 가장 큰 토픽은 AI로 결정될 수 있을 것이다.As shown in Figure 19, in the feature space, it can be seen that the topic with the smallest overlap between the clusters according to the clustering results of the second week of September 2020 and the clusters according to the clustering results of the first week of September 2020 is AI. . Therefore, in this case, the topic with the greatest temporal change may be determined to be AI.

제11 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 소스 데이터 개수를 기준으로 상기 시간적 변화 평가가 수행될 수도 있다. 즉, 특정 토픽의 평가 대상 클러스터와 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 개수가 연산되고, 서로 겹치는 영역에 위치한 소스 데이터의 개수가 적을수록 시간적 변화가 큰 것으로 평가될 수 있는 것이다.In the 11th embodiment, the temporal change evaluation may be performed based on the number of source data in the area where the evaluation target cluster and the cluster of past clustering overlap. In other words, the number of source data located in the overlapping area between the evaluation target cluster of a specific topic and the past cluster is calculated, and the smaller the number of source data located in the overlapping area, the greater the temporal change can be evaluated.

제12 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역에 위치한 소스 데이터의 스코어(도 7의 단계 S305 참조)의 합산치를 기준으로 상기 시간적 변화 평가가 수행될 수도 있다. 즉, 특정 토픽의 평가 대상 클러스터와 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 스코어 합산치가 연산되고, 연산된 합산치가 작을수록 시간적 변화가 큰 것으로 평가될 수 있는 것이다.In the twelfth embodiment, the temporal change evaluation may be performed based on the sum of the scores of source data (see step S305 of FIG. 7) located in an area where the evaluation target cluster and the cluster of past clustering overlap. In other words, the sum of the scores of the source data located in the area where the evaluation target cluster of a specific topic and the past cluster overlap are calculated, and the smaller the calculated sum, the greater the temporal change can be evaluated.

제13 실시예에서, 도 7을 참조하여 설명한 평가 메트릭을 기준으로 하여 상기 시간적 변화 평가가 수행될 수도 있다. 예를 들어, 최근 수행된 클러스터링의 결과로 형성된 제1 토픽의 제1 클러스터의 평가 메트릭에서, 과거의 클러스터링의 결과로 형성되고 상기 제1 토픽의 제2 클러스터의 평가 메트릭을 차감한 결과가 상기 시간적 변화의 크기인 것으로 이해될 수 있을 것이다.In a 13th embodiment, the temporal change evaluation may be performed based on the evaluation metric described with reference to FIG. 7. For example, the result of subtracting the evaluation metric of the second cluster of the first topic and formed as a result of past clustering from the evaluation metric of the first cluster of the first topic formed as a result of recently performed clustering is the temporal It can be understood as the size of change.

다시 도 13으로 돌아와 설명한다. 단계 S420에서, 시간적 변화 평가의 수행 결과 큰 시간적 변화를 보이는 일부의 클러스터가 선정된다. 이 때, 시간적 변화의 크기가 큰 순으로 상위의 기 설정 개수 또는 기 설정 비율의 클러스터가 선정될 수 있다. 상기 차감한 결과가 양의 값이고 그 값이 클수록, 긍정적인 시간적 변화를 보이는 것으로 평가될 것이다.Let's return to FIG. 13 again for explanation. In step S420, some clusters showing large temporal changes as a result of performing temporal change evaluation are selected. At this time, clusters with a higher preset number or preset ratio may be selected in order of the magnitude of temporal change. If the subtraction result is a positive value and the value is larger, it will be evaluated as showing a positive temporal change.

도 13 내지 도 19를 참조하여 설명한 실시예에 따르면, 토픽을 기준으로 현재와 과거의 클러스터가 정확하게 연결될 수 있는 점을 이용하여 시간적 변화가 큰 토픽을 찾아낼 수 있는 효과를 얻는다. 요컨대, 도 8 내지 도 12를 참조하여 설명한 실시예에서는 긍정적인 방향의 시간적 변화를 가지는 성장형 클러스터를 선정하고, 선정된 클러스터의 토픽을 성장형 토픽으로 자동 선정할 수 있었다면, 도 13 내지 도 19를 참조하여 설명한 실시예는 변화가 큰 토픽을 자동 선정할 수 있는 것이다.According to the embodiment described with reference to FIGS. 13 to 19, the effect of finding a topic with a large temporal change is obtained by taking advantage of the fact that the present and past clusters can be accurately connected based on the topic. In short, in the embodiment described with reference to FIGS. 8 to 12, if a growth cluster with a positive temporal change was selected and the topic of the selected cluster was automatically selected as a growth topic, see FIGS. 13 to 19. The described embodiment is capable of automatically selecting topics with large changes.

다음으로, 상기 선정된 클러스터를 가지는 토픽에 대한 정보가 출력될 것이다(S420). 상술한 바와 같이 이 때 출력되는 토픽은 변동성이 컸던 토픽을 가리키는 것으로, 예를 들어 변동성이 큰 투자 자산을 자동 결정하기 위해 활용될 수 있을 것이다.Next, information about the topic having the selected cluster will be output (S420). As described above, the topic output at this time refers to a topic with high volatility, and can be used, for example, to automatically determine investment assets with high volatility.

이하, 도 20을 참조하여, 도 5, 도 8 또는 도 13을 참조하여 설명한 클러스터 대응 토픽의 결정 관련 동작을 상세하게 설명한다. 도 20에 도시된 동작은 도 5의 S500 단계와 도 8의 S500 단계에 대응되는 것으로 이해될 수 있을 것이다. 또한, 도 13의 S500-1 단계는 도 20을 참조하여 설명될 S500 단계를 클러스터링 결과 형성된 모든 클러스터들을 대상으로 반복 수행하는 것으로 이해될 수 있을 것이다.Hereinafter, with reference to FIG. 20, operations related to determining a cluster-corresponding topic described with reference to FIG. 5, FIG. 8, or FIG. 13 will be described in detail. The operation shown in FIG. 20 may be understood as corresponding to step S500 of FIG. 5 and step S500 of FIG. 8. Additionally, step S500-1 of FIG. 13 may be understood as repeatedly performing step S500, which will be described with reference to FIG. 20, on all clusters formed as a result of clustering.

단계 S5000에서, 클러스터에 속한 각 소스 데이터가 토큰화 된다. 상기 토큰화의 과정은 도 6을 참조하여 설명한 동작이 동일하게 적용될 수 있다.In step S5000, each source data belonging to the cluster is tokenized. The tokenization process may be identical to the operation described with reference to FIG. 6 .

단계 S5002에서, 토큰화의 결과 얻어진 클러스터 내 전체 토큰 중 일부가 주요 키워드로서 추출된다. 이 때, 토큰 각각에 대하여 산출된 중요도가 상기 주요 키워드의 추출 기준일 수 있다. 토큰 각각의 중요도가 산출될 때 TF-IDF, LDA 등의 키워드 가중치 연산 알고리즘이 이용될 수 있다. 예를 들어, 토큰의 중요도를 기준으로 기 지정된 개수의 상위 토큰이 상기 주요 키워드로서 추출되거나, 기 지정된 비율에 대응되는 개수의 상위 토큰이 상기 주요 키워드로서 추출될 수 있을 것이다.In step S5002, some of the total tokens in the cluster obtained as a result of tokenization are extracted as main keywords. At this time, the importance calculated for each token may be a standard for extracting the main keyword. When calculating the importance of each token, keyword weight calculation algorithms such as TF-IDF and LDA can be used. For example, based on the importance of tokens, a predetermined number of top tokens may be extracted as the main keyword, or a number of top tokens corresponding to a predetermined ratio may be extracted as the main keyword.

몇몇 실시예에서는 단계 S5002의 수행 결과 추출된 주요 키워드의 셋이 토픽으로서 결정될 수 있다. 한편 다른 몇몇 실시예에서는 단계 S5002의 수행 결과 추출된 주요 키워드 셋에 대하여 추가 동작이 수행되고, 그 결과를 이용하여 클러스터의 최종 토픽이 결정될 수도 있다. 따라서, 단계 S5002의 수행 이후에 추가적으로 수행될 수 있는 동작들을 설명하기로 한다.In some embodiments, a set of main keywords extracted as a result of performing step S5002 may be determined as a topic. Meanwhile, in some other embodiments, an additional operation is performed on the main keyword set extracted as a result of step S5002, and the final topic of the cluster may be determined using the result. Therefore, operations that can be additionally performed after performing step S5002 will be described.

단계 S5004에서, 과거의 클러스터링 결과를 이용하여 상기 주요 키워드 각각의 중요도가 조정될 수 있다. 토픽 결정의 대상인 제1 클러스터와 동일성 매칭된 과거의 제2 클러스터의 토픽을 참고하여 상기 주요 키워드 각각의 중요도가 조정될 수 있을 것이다.In step S5004, the importance of each of the main keywords may be adjusted using past clustering results. The importance of each of the main keywords may be adjusted by referring to the topic of the past second cluster that was identically matched with the first cluster that is the subject of topic determination.

예를 들어, 상기 제1 클러스터의 주요 키워드 중에서 상기 제2 클러스터의 토픽에 포함되었던 주요 키워드는 그 중요도가 상향 조정될 수 있다. 과거의 클러스터링 결과에 따른 제2 클러스터와 최근의 클러스터링 결과에 따른 제1 클러스터가 서로 동일성이 인정되는 것이라면, 제2 클러스터의 토픽과 제1 클러스터의 토픽 역시 서로 동일성이 인정될 가능성이 높은 것으로 볼 수 있을 것이다. 따라서, 이러한 점을 고려하여, 상술한 바와 같이 주요 키워드 각각의 중요도가 조정되는 것으로 이해될 수 있을 것이다. 물론, 이러한 방식에 따르더라도 토픽 결정 대상인 클러스터에서 새롭게 등장하는 토큰의 중요도가 매우 높게 연산 된다면, 그 토큰은 상술한 중요도 조정에도 불구하고 토픽의 키워드 셋에 포함되게 될 것이다.For example, among the main keywords of the first cluster, the importance of the main keyword included in the topic of the second cluster may be adjusted upward. If the second cluster according to the past clustering results and the first cluster according to the recent clustering results are acknowledged to be identical to each other, it can be seen that there is a high possibility that the topics of the second cluster and the topics of the first cluster are also acknowledged to be identical to each other. There will be. Therefore, taking this into consideration, it can be understood that the importance of each major keyword is adjusted as described above. Of course, even according to this method, if the importance of a newly appearing token in the cluster subject to topic determination is calculated to be very high, the token will be included in the topic's keyword set despite the importance adjustment described above.

몇몇 실시예에서는 단계 S5004의 수행 결과 추출된 주요 키워드의 셋이 토픽으로서 결정될 수 있다. 즉, 조정된 중요도를 기준으로 기 지정된 개수의 상위 주요 키워드가 토픽의 키워드 셋에 포함되거나, 기 지정된 비율에 대응되는 개수의 상위 토큰이 토픽의 키워드 셋에 포함될 수 있을 것이다.In some embodiments, a set of main keywords extracted as a result of performing step S5004 may be determined as a topic. That is, based on the adjusted importance, a predetermined number of top major keywords may be included in the topic's keyword set, or a number of top tokens corresponding to a predetermined ratio may be included in the topic's keyword set.

다른 몇몇 실시예에서는 추가 동작이 더 수행되고 더 수행되는 추가 동작의 그 결과가 토픽으로서 최종 결정될 수도 있는 바, 아래에서 더 수행되는 추가 동작에 대하여 설명한다.In some other embodiments, additional operations may be further performed and the results of the additional operations may be finally determined as a topic, and the additional operations will be described below.

단계 S5006에서, 상기 주요 키워드 각각의 상호 유사도가 연산되고, 상호 유사도가 낮은 주요 키워드 중 중요도가 낮은 주요 키워드는 노이즈 필터링 될 수 있다. 단계 S5006은, 상호 연관 관계가 높지 않은 키워드들이 하나의 클러스터의 토픽으로서 제시되는 것을 방지하기 위한 동작으로 이해될 수 있을 것이다.In step S5006, the mutual similarity of each of the main keywords is calculated, and the main keywords with low importance among the main keywords with low mutual similarity may be noise filtered. Step S5006 may be understood as an operation to prevent keywords that are not highly correlated from being presented as topics of one cluster.

제1 주요 키워드와 제2 주요 키워드 사이의 상호 유사도가 연산되는 예시적인 방식을 설명한다. 토픽 결정 대상인 클러스터의 모든 소스 데이터들에서 상기 제1 주요 키워드와 상기 제2 주요 키워드 사이의 상호 연관 관계가 표현된 횟수가 높을수록 상기 상호 유사도가 높게 연산될 수 있다. 예를 들어, 토픽 결정 대상인 클러스터에 소속된 어떤 특허 문헌에 '제1 주요 키워드와 제2 주요 키워드는 인과 관계가 있는 것으로 볼 수 있다'는 문장이 포함된 경우, 상기 제1 주요 키워드와 상기 제2 키워드 사이의 상호 연관 관계가 1회 표현된 것으로 볼 수 있을 것이다. An exemplary method in which the mutual similarity between the first main keyword and the second main keyword is calculated will be described. The higher the number of times the correlation between the first main keyword and the second main keyword is expressed in all source data of the cluster that is the subject of topic determination, the higher the mutual similarity can be calculated. For example, if a patent document belonging to a cluster subject to topic determination includes the sentence 'The first main keyword and the second main keyword can be viewed as having a causal relationship,' the first main keyword and the second main keyword can be viewed as having a causal relationship. 2 The interrelated relationship between keywords can be seen as expressed once.

단계 S5008에서는, 단계 S5006의 노이즈 필터링을 통과한 주요 키워드들 중에서 중요도를 기준으로 기 지정된 개수의 상위 주요 키워드가 토픽의 키워드 셋에 포함되거나, 기 지정된 비율에 대응되는 개수의 상위 토큰이 토픽의 키워드 셋에 포함될 수 있다.In step S5008, among the main keywords that passed the noise filtering in step S5006, a predetermined number of top main keywords based on importance are included in the keyword set of the topic, or a number of top tokens corresponding to a predetermined ratio are included in the keyword of the topic. It can be included in three.

도 20을 참조하여 설명된 토픽 결정 동작에서, 토픽을 구성하는 주요 키워드는 고정된 개수를 가지거나, 클러스터의 전체 토큰 개수에 비례하는 개수를 가지거나, 클러스터의 크기에 비례하는 개수를 가질 수 있다. 상기 클러스터의 크기는 도 7의 S301을 참조하여 설명한 평가 메트릭을 의미하는 것으로 이해될 수 있을 것이다.In the topic determination operation described with reference to FIG. 20, the main keywords constituting the topic may have a fixed number, a number proportional to the total number of tokens in the cluster, or a number proportional to the size of the cluster. . The size of the cluster may be understood to mean the evaluation metric described with reference to S301 of FIG. 7.

토픽을 구성하는 주요 키워드가 고정된 개수를 가지는 경우, 토픽 정보를 이용하는 후속의 정보 처리 동작의 연산 부하가 감소하는 효과를 얻을 수 있다. 토픽을 구성하는 주요 키워드가 클러스터의 전체 토큰 개수에 비례하는 개수를 가지는 경우, 클러스터에 다양한 대상이 언급되고 있는 상황을 최대한 반영하여 중요하게 언급되고 있는 다양한 대상으로 최대한 토픽으로서 현출하는 효과를 얻을 수 있다. 토픽을 구성하는 주요 키워드가 클러스터의 크기에 비례하는 개수를 가지는 경우, 클러스터에 다양한 소스 데이터가 포함된 상황을 최대한 반영하여 많은 정보량을 최대한 현출하는 효과를 얻을 수 있다.When the number of main keywords constituting a topic is fixed, the computational load of subsequent information processing operations using topic information can be reduced. If the main keywords that make up the topic have a number proportional to the total number of tokens in the cluster, it is possible to achieve the effect of making the various objects that are mentioned as important as possible stand out as a topic by reflecting the situation in which various objects are mentioned in the cluster as much as possible. there is. If the number of main keywords that make up a topic is proportional to the size of the cluster, the effect of making a large amount of information stand out as much as possible can be achieved by maximizing the situation in which the cluster contains various source data.

투자 유니버스의 자동 결정Automatic determination of investment universe

지금까지 도 5 내지 도 20을 참조하여, 수집된 소스 데이터에 대한 분석을 통해 최근 수집된 소스 데이터들이 표현하는 토픽을 자동 결정하는 방법들을 설명하였다. 이렇게 자동으로 결정된 토픽은 다양한 후속 정보 처리 방법에 입력됨으로써, 가치 있는 후속 정보의 현출을 도울 수 있을 것이다. 그 중 일예로, 상기 토픽에 대응하는 자산을 자동으로 결정하고, 이를 통해 투자 유니버스의 자동 생성이 가능하다. 이하, 도 21 내지 도 29를 참조하여 투자 유니버스의 자동 결정 방법을 설명한다.So far, with reference to FIGS. 5 to 20 , methods for automatically determining topics expressed by recently collected source data through analysis of collected source data have been described. These automatically determined topics can be input into various follow-up information processing methods, helping to reveal valuable follow-up information. As an example, it is possible to automatically determine assets corresponding to the above topic and automatically create an investment universe. Hereinafter, a method for automatically determining an investment universe will be described with reference to FIGS. 21 to 29.

도 21은 도 5, 도 8 또는 도 13의 방법을 통하여 결정된 토픽을 이용하여 투자 유니버스를 자동으로 생성하는 방법의 순서도이다.FIG. 21 is a flowchart of a method for automatically generating an investment universe using the topic determined through the method of FIG. 5, FIG. 8, or FIG. 13.

단계 S600에서, 결정된 토픽에 대응되는 자산이 결정된다. 이 때, 상기 결정된 자산의 중요도가 함께 결정될 수 있다. 상기 자산의 중요도는 토픽의 기반이 된 클러스터의 평가 스코어 또는 평가 등급에 기반하여 결정될 수 있다. 즉, 클러스터의 평가 스코어 또는 등급이 높을수록 그 클러스터의 토픽에 대응된 자산의 중요도도 높게 결정되며, 중요도가 높게 결정된 자산은 투자 유니버스 내에서도 비중이 높게 결정될 수 있는 것이다.In step S600, assets corresponding to the determined topic are determined. At this time, the importance of the determined asset may be determined together. The importance of the asset may be determined based on the evaluation score or evaluation grade of the cluster on which the topic is based. In other words, the higher the evaluation score or rating of a cluster, the higher the importance of the assets corresponding to the topic of the cluster are determined, and assets determined to be highly important can be determined to have a high proportion within the investment universe.

토픽에 대응되는 자산이 결정되는 과정에 대하여 도 22를 참조하여 보다 자세히 설명한다.The process by which assets corresponding to topics are determined will be described in more detail with reference to FIG. 22.

단계 S6000에서, 토픽의 유사 키워드들이 결정된다. 상기 유사 키워드는 사전 데이터에서 획득된 유의어, Word2Vec 알고리즘을 이용하여 획득된 유사 의미의 키워드 등을 포함할 수 있다.In step S6000, similar keywords of the topic are determined. The similar keywords may include synonyms obtained from dictionary data, keywords with similar meanings obtained using the Word2Vec algorithm, etc.

단계 S6002에서, 상기 토픽에 포함된 키워드 셋 및 상기 유사 키워드들을 모두 포함하는 키워드 셋이 구성된다.In step S6002, a keyword set including both the keyword set included in the topic and the similar keywords is constructed.

단계 S6004에서, 상기 키워드 셋을 이용하여 토픽에 대응되는 자산이 조회된다. 토픽에 속한 주요 키워드 셋 및 그 유사 키워드들을 모두 이용하여 토픽에 대응되는 자산이 결정되므로, 토픽에 대응되는 소수의 자산이 정확하게 결정될 수 있을 것이다.In step S6004, assets corresponding to the topic are searched using the keyword set. Since the assets corresponding to the topic are determined using all of the main keyword sets belonging to the topic and their similar keywords, a small number of assets corresponding to the topic can be accurately determined.

토픽에 대응되는 자산이 결정되는 과정과 관련하여, 도 22를 참조한 설명 이외에도 본 출원인에 의하여 출원된 한국특허공개공보 제2020-0065736호의 기재가 참조될 수 있을 것이다.Regarding the process of determining the asset corresponding to the topic, in addition to the explanation referring to FIG. 22, the description in Korean Patent Publication No. 2020-0065736 filed by the present applicant may be referred to.

다시 도 21으로 돌아와서 설명한다. 단계 S700에서, 기존의 투자 유니버스에 편입된 자산과 단계 S600에서 결정된 자산을 이용하여 투자 유니버스가 자동 생성된다. 상기 투자 유니버스에 대한 정보는 각각의 자산에 대한 식별 정보 및 그 비중을 포함할 수 있다.Let's return to FIG. 21 again for explanation. In step S700, an investment universe is automatically created using the assets incorporated into the existing investment universe and the assets determined in step S600. Information about the investment universe may include identification information for each asset and its proportion.

상술한 바와 같이, 새로운 토픽의 결정은 주기적으로 반복하여 수행될 수 있고, 새로운 토픽의 결정에 따른 자산의 투자 유니버스 편입 결정 또한 반복될 수 있다. 따라서, 투자 유니버스에 편입된 자산은 그 자산에 대응되는 토픽이 지속적으로 발생하고 그에 따라 지속적으로 편입 결정이 이뤄지지 않는 이상, 투자 유니버스에서 제외되어야 할 것이다. 이를 위해, 투자 유니버스에 편입된 자산의 비중에는 에이징(aging) 개념이 적용될 수 있다. 즉, 투자 유니버스에 포함된 자산의 비중은 시간의 흐름에 따라 자동으로 감소될 수 있다. 그리고, 기준치 미만의 비중을 가지는 자산은 투자 유니버스에서 자동 제외될 수 있다.As described above, the determination of a new topic may be repeated periodically, and the decision to incorporate an asset into the investment universe according to the determination of a new topic may also be repeated. Therefore, assets incorporated into the investment universe should be excluded from the investment universe unless topics corresponding to those assets continue to arise and decisions to be included are continuously made accordingly. To this end, the concept of aging can be applied to the proportion of assets included in the investment universe. In other words, the proportion of assets included in the investment universe can automatically decrease over time. Additionally, assets with a weight below the standard can be automatically excluded from the investment universe.

본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법을 도 23을 참조하여 설명한다. 본 실시예에 따른 방법 역시 컴퓨팅 장치에 의하여 수행될 수 있으며, 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치에 의하여 일부 동작이 나뉘어 수행될 수 있다. 또한, 상술한 실시예들에서 설명된 기술적 사상은 당연히 본 실시예에도 적용될 수 있다.A method of automatically generating an investment universe according to another embodiment of this publication will be described with reference to FIG. 23. The method according to this embodiment may also be performed by a computing device, and some operations may be performed separately by the first computing device and the second computing device. Additionally, the technical ideas described in the above-described embodiments can naturally be applied to the present embodiment.

본 실시예에 따른 방법은 소스 데이터를 수집하고(S100), 수집된 소스 데이터를 클러스터링 하며(S200), 클러스터링 결과에 따른 각 클러스터에 대한 평가를 수행하고(S300), 평가의 결과에 기반하여 전체 클러스터 중 일부를 선정하는 것(S400)까지는 상술한 몇몇 실시예들과 유사하나, 선정된 클러스터에 대응되는 자산을 바로 결정하는 것(S550)에서 상술한 몇몇 실시예들과 차별화된다. 단계 S700에서는, 단계 S550에서 결정된 자산을 이용한 투자 유니버스 자동 생성 동작이 수행된다.The method according to this embodiment collects source data (S100), clusters the collected source data (S200), performs evaluation on each cluster according to the clustering results (S300), and based on the results of the evaluation, Selecting some of the clusters (S400) is similar to the above-described embodiments, but is different from the above-described embodiments in directly determining the assets corresponding to the selected clusters (S550). In step S700, an operation of automatically generating an investment universe using the asset determined in step S550 is performed.

상술한 몇몇 실시예들에서는, 선정된 클러스터에 대응되는 토픽이 결정되고 상기 결정된 토픽에 대응되는 자산이 결정되나, 본 실시예에서는 선정된 클러스터에 대응되는 자산이 바로 결정된다. 이하, 도 24를 참조하여 단계 S550를 상세히 설명한다.In some of the above-described embodiments, the topic corresponding to the selected cluster is determined and the asset corresponding to the determined topic is determined, but in this embodiment, the asset corresponding to the selected cluster is directly determined. Hereinafter, step S550 will be described in detail with reference to FIG. 24.

단계 S5500에서, 상기 선정된 클러스터에 속한 각 소스 데이터 별로 그 영향력이 연산된다. 이 때, 소스 데이터의 타입 별로 그 영향력의 연산 방식이 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌의 영향력 연산 규칙은, 패밀리 특허가 많을수록, 도면이 많을수록, 상세한 설명의 길이가 길수록, 청구항이 많을수록, 독립 청구항이 많을수록, 피인용 건수가 많을수록 더 높은 영향력이 연산 되게 정의될 수 있다. 또한, 뉴스 문헌의 스코어 연산 규칙은, 조회 수가 많을수록, 댓글 건수가 많을수록, 긍정도 점수가 높을수록 더 높은 영향력이 연산 되게 정의될 수 있을 것이다.In step S5500, the influence is calculated for each source data belonging to the selected cluster. At this time, the influence calculation method may be defined differently for each type of source data. For example, the influence calculation rule of patent literature is defined to calculate a higher influence as there are more family patents, more drawings, longer detailed descriptions, more claims, more independent claims, and more citations. You can. Additionally, the score calculation rule for news literature may be defined so that the greater the number of views, the greater the number of comments, and the higher the positivity score, the higher the influence is calculated.

단계 S5500에서 연산된 소스 데이터의 영향력은, 소스 데이터의 타입에 따른 가중치에 따라 조정될 수도 있다. 예를 들어, 도 27의 소스 데이터 타입 별 가중치(2004)가 환경 설정 사항의 하나로서 지정된 경우, 높은 가중치가 지정된 타입의 소스 데이터의 영향력은 영향력 연산의 결과 대비 더 높게 조정되고, 낮은 가중치가 지정된 타입의 소스 데이터의 영향력은 영향력 연산의 결과 대비 더 낮게 조정될 수 있을 것이다. 이로써, 투자 유니버스 편입 자산 결정에 영향을 미치는 정도가 소스 데이터 타입 별로 서로 달라질 수 있다.The influence of the source data calculated in step S5500 may be adjusted according to a weight according to the type of source data. For example, when the weight (2004) for each source data type in FIG. 27 is specified as one of the environmental settings, the influence of the source data of the type with a high weight is adjusted to be higher compared to the result of the influence operation, and the influence of the source data with the type with a low weight is adjusted to be higher than the result of the influence operation. The influence of the type's source data may be adjusted to be lower than the result of the influence calculation. As a result, the degree of influence on the decision to include assets in the investment universe may vary depending on the source data type.

단계 S5502에서, 상기 선정된 클러스터에 속한 각 소스 데이터 별로 관련 자산이 추출된다. 이 때, 소스 데이터의 타입 별로 관련 자산의 추출 방식이 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌 타입의 소스 데이터의 관련 자산은 출원인 또는 특허권자일 수 있다. 또한 뉴스 타입의 소스 데이터의 관련 자산은 뉴스의 본문 텍스트에서 NER을 통하여 추출된 자산 명칭 중 IF-IDF 알고리즘 등을 통하여 연산된 키워드 중요도가 가장 높은 것일 수 있다. 또한, SNS, 블로그, IR 공시 자료 타입의 소스 데이터의 관련 자산은 문서를 공개한 기업일 수 있다.In step S5502, related assets are extracted for each source data belonging to the selected cluster. At this time, the extraction method of related assets may be defined differently for each type of source data. For example, the relevant asset for source data of a patent document type may be the applicant or patentee. Additionally, the related asset of the news type source data may be the one with the highest keyword importance calculated through the IF-IDF algorithm, etc. among the asset names extracted through NER from the body text of the news. Additionally, the relevant asset of source data of SNS, blog, and IR disclosure data types may be the company that disclosed the document.

또한, 단계 S5502에서 상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 영향력이 상기 소스 데이터의 영향력을 이용하여 설정된다. 이 때, 상기 관련 자산의 기 등록된 기본 가중치가 상기 소스 데이터의 영향력을 이용하여 조정됨으로써, 상기 자산의 영향력이 결정될 수 있다. 이를 통하여, 현실을 반영한 각 자산의 중요도가 클러스터 대응 자산 결정 과정에 반영되도록 할 수 있는 것이다. 물론, 상기 기본 가중치가 높은 자산이라도 소스 데이터의 영향력이 매우 낮다면 클러스터 대응 자산에서 탈락될 수 있을 것이며, 상기 기본 가중치가 낮은 자산이라도 소스 데이터의 영향력이 매우 높다면 클러스터 대응 자산에서 선정될 수 있을 것이다.Additionally, in step S5502, the influence of related assets extracted from each source data of the cluster is set using the influence of the source data. At this time, the influence of the asset can be determined by adjusting the previously registered basic weight of the related asset using the influence of the source data. Through this, the importance of each asset that reflects reality can be reflected in the cluster response asset decision process. Of course, even assets with a high basic weight may be excluded from the cluster corresponding assets if the influence of the source data is very low, and even assets with a low basic weight may be selected from the cluster corresponding assets if the influence of the source data is very high. will be.

다음의 상황을 가정하여 설명한다. 코로나 19의 전세계적인 확산 상황 관련하여 코로나 19 백신과 관련된 클러스터가 중요 클러스터로서 선정되었고, 상기 선정된 클러스터에 기본 가중치가 매우 낮았던 A사의 코로나 19 백신 관련된 특허 문헌들이 다수 포함되었으며, 상기 특허 문헌들의 영향력이 대부분 높게 연산되었다면, 상기 선정된 클러스터에 기본 가중치가 매우 높았던 B사의 코로나 19 백신 관련 뉴스로서 영향력이 낮은 것이 소수 포함되었더라도, 상기 선정된 클러스터에 대응되는 자산은 B사가 아닌 A사가 될 수 있을 것이다. 그 결과, A사의 주식이 투자 유니버스에 신규 편입될 수 있을 것이다.This will be explained assuming the following situation. In relation to the global spread of COVID-19, a cluster related to the COVID-19 vaccine was selected as an important cluster, and the selected cluster included many patent documents related to Company A's COVID-19 vaccine, which had a very low basic weight, and the influence of the patent documents If most of these were calculated highly, even if the selected cluster included a small number of low-impact news related to the COVID-19 vaccine of company B, which had a very high basic weight, the asset corresponding to the selected cluster could be company A, not company B. . As a result, Company A's stocks may be newly incorporated into the investment universe.

단계 S5504에서, 선정된 클러스터에서 추출된 전체 관련 자산 중, 그 영향력을 기준으로 선정된 일부가 상기 선정된 클러스터의 대응 자산으로서 결정될 것이다. 상기 선정된 클러스터의 크기(도 7의 S301 참조하여 설명한 사항 참조)가 클수록 상기 선정되는 자산의 개수가 증가될 수도 있고, 상술된 클러스터 평가의 스코어 또는 등급이 높을수록 상기 선정되는 자산의 개수가 증가될 수도 있을 것이며, 상기 선정된 클러스터의 크기, 평가 스코어 또는 평가 등급과 무관하게, 자산의 영향력 만을 기준으로 그 자산이 상기 선정된 클러스터의 대응 자산으로서 결정될 수도 있을 것이다. 예를 들어, 자산의 영향력 값이 기준치를 넘으면 그 자산은 무조건 상기 선정된 클러스터의 대응 자산으로서 결정될 수 있을 것이다.In step S5504, among all related assets extracted from the selected cluster, a portion selected based on its influence will be determined as the corresponding asset of the selected cluster. The larger the size of the selected cluster (see the details described with reference to S301 in FIG. 7), the greater the number of assets selected, and the higher the score or grade of the cluster evaluation described above, the greater the number of assets selected. It may be possible, and the asset may be determined as the corresponding asset of the selected cluster based only on the influence of the asset, regardless of the size, evaluation score, or evaluation grade of the selected cluster. For example, if the influence value of an asset exceeds the standard value, the asset may be unconditionally determined as the corresponding asset of the selected cluster.

본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법을 도 25를 참조하여 설명한다. 본 실시예에 따른 방법 역시 컴퓨팅 장치에 의하여 수행될 수 있으며, 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치에 의하여 일부 동작이 나뉘어 수행될 수 있다. 또한, 상술한 실시예들에서 설명된 기술적 사상은 당연히 본 실시예에도 적용될 수 있다.A method of automatically generating an investment universe according to another embodiment of this publication will be described with reference to FIG. 25. The method according to this embodiment may also be performed by a computing device, and some operations may be performed separately by the first computing device and the second computing device. Additionally, the technical ideas described in the above-described embodiments can naturally be applied to the present embodiment.

본 실시예에 따른 방법은 소스 데이터를 수집하고(S100), 수집된 소스 데이터를 클러스터링 하며(S200), 클러스터링 결과에 따른 각 클러스터에 대한 평가를 수행하고(S300), 평가의 결과에 기반하여 전체 클러스터 중 일부를 선정하는 것(S400)까지는 상술한 몇몇 실시예들과 유사하다.The method according to this embodiment collects source data (S100), clusters the collected source data (S200), performs evaluation on each cluster according to the clustering results (S300), and based on the results of the evaluation, Selecting some of the clusters (S400) is similar to some of the above-described embodiments.

도 23을 참조하여 설명한 실시예와 본 실시예에 따른 방법을 비교하여 설명한다. 도 23을 참조하여 설명한 실시예에서는 선정된 클러스터에 대응되는 자산을 바로 결정한 바 있다(S550), 반면에 본 실시예에서는 선정된 클러스터의 자산 매칭 비율이 기준치 이상인 경우(S460)에 한하여 선정된 클러스터에 대응되는 자산이 바로 결정되고, 선정된 클러스터의 자산 매칭 비율이 기준치 미만인 경우(S460)에는 도 5 및 도 21을 참조하여 설명한 바와 같이, 선정된 클러스터에 대응되는 토픽이 결정되고(S500), 결정된 토픽에 대응되는 자산이 결정되게 된다(S600).The embodiment described with reference to FIG. 23 will be compared and explained with the method according to this embodiment. In the embodiment described with reference to FIG. 23, the asset corresponding to the selected cluster was immediately determined (S550). On the other hand, in this embodiment, the selected cluster was determined only when the asset matching ratio of the selected cluster was greater than the standard value (S460). The asset corresponding to is determined immediately, and if the asset matching ratio of the selected cluster is less than the standard value (S460), as described with reference to FIGS. 5 and 21, the topic corresponding to the selected cluster is determined (S500), The asset corresponding to the determined topic is determined (S600).

선정된 클러스터의 자산 매칭 비율이란, 클러스터의 소스 데이터들 중에서 관련 자산이 추출되는 비율을 가리킨다. 이미 설명한 바와 같이, 소스 데이터의 타입 별로 관련 자산의 추출 방식이 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌 타입의 소스 데이터의 관련 자산은 출원인 또는 특허권자일 수 있다. 또한 뉴스 타입의 소스 데이터의 관련 자산은 뉴스의 본문 텍스트에서 NER을 통하여 추출된 자산 명칭 중 IF-IDF 알고리즘 등을 통하여 연산된 키워드 중요도가 가장 높은 것일 수 있다. 또한, SNS, 블로그, IR 공시 자료 타입의 소스 데이터의 관련 자산은 문서를 공개한 기업일 수 있다. 클러스터의 소스 데이터들 중에서 위의 방법에 의하여 관련 자산이 추출되고, 그 관련 자산이 기 등록된 관련 자산 리스트에 포함된 것이면 그 소스 데이터의 관련 자산 추출은 성공한 것으로 판단될 것이다. 즉, 상기 자산 매칭 비율이란, 클러스터의 소스 데이터들 중에서 관련 자산 추출이 성공한 소스 데이터의 비율을 가리킨다.The asset matching ratio of the selected cluster refers to the rate at which related assets are extracted from the cluster's source data. As already explained, the extraction method of related assets may be defined differently for each type of source data. For example, the relevant asset for source data of a patent document type may be the applicant or patentee. Additionally, the related asset of the news type source data may be the one with the highest keyword importance calculated through the IF-IDF algorithm, etc. among the asset names extracted through NER from the body text of the news. Additionally, the relevant asset of source data of SNS, blog, and IR disclosure data types may be the company that disclosed the document. If a related asset is extracted from the source data of the cluster using the above method, and the related asset is included in the list of previously registered related assets, the extraction of the related asset from the source data will be judged to be successful. In other words, the asset matching ratio refers to the ratio of source data from which relevant assets have been successfully extracted among the source data of the cluster.

상기 자산 매칭 비율이 낮은 경우, 선정된 클러스터에 대응되는 관련 자산을 바로 추출하는 것 보다는, 선정된 클러스터에 대응되는 토픽을 먼저 결정하고, 상기 결정된 토픽에 대응되는 자산을 상기 선정된 클러스터에 대응되는 관련 자산으로서 결정하는 것이, 관련 자산 결정의 정확도를 높일 수 있을 것이다.When the asset matching ratio is low, rather than directly extracting related assets corresponding to the selected cluster, the topic corresponding to the selected cluster is first determined, and the assets corresponding to the determined topic are matched to the selected cluster. Determining it as a relevant asset will increase the accuracy of determining the relevant asset.

본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법을 도 26을 참조하여 설명한다. 본 실시예에 따른 방법 역시 컴퓨팅 장치에 의하여 수행될 수 있으며, 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치에 의하여 일부 동작이 나뉘어 수행될 수 있다. 또한, 상술한 실시예들에서 설명된 기술적 사상은 당연히 본 실시예에도 적용될 수 있다.A method of automatically generating an investment universe according to another embodiment of this publication will be described with reference to FIG. 26. The method according to this embodiment may also be performed by a computing device, and some operations may be performed separately by the first computing device and the second computing device. Additionally, the technical ideas described in the above-described embodiments can naturally be applied to the present embodiment.

단계 S10에서 투자 유니버스 구성 설정이 세팅된다. 상기 투자 유니버스 구성 설정의 세팅을 위해, 환경 설정 화면이 제공될 수 있다. 이와 관련하여 도 27 내지 도 29를 참조하여 설명한다.In step S10 the investment universe configuration settings are set. For setting the investment universe configuration settings, an environment settings screen may be provided. This will be described with reference to FIGS. 27 to 29.

도 27에 도시된 바와 같이, 예시적인 환경 설정 화면은, 분석 대상 소스 데이터의 위치를 선택하는 화면(2002), 소스 데이터 타입 별 가중치를 입력하는 화면(2004) 및 편입 자산의 타입을 선택하는 화면(2006)을 포함할 수 있다. 각각의 화면에 대한 사용자 입력이 투자 유니버스 자동 생성 과정에 어떠한 영향을 미치는지는 이미 설명한 바 있으므로, 관련된 중복 설명은 생략하기로 한다.As shown in FIG. 27, an exemplary environment setting screen includes a screen for selecting the location of source data to be analyzed (2002), a screen for entering weights for each source data type (2004), and a screen for selecting the type of incorporated asset. (2006) may be included. Since we have already explained how user input on each screen affects the automatic investment universe creation process, we will omit related redundant explanations.

도 27에 도시된 투자 유니버스 구성 설정을 해설한다. 도 27의 설정은, 특허, 논문, 뉴스 등의 공개 데이터와, 트레이딩 시스템의 공시 자료, 증권사 리포트, 거래 정보 등의 정보를 소스 데이터로서 분석할 것인 점, 소스 데이터 타입은 특허 40%, 논문 20%, 뉴스 20%, SNS 12%, 공시자료 8%의 순서인 점, 현재 평가 스코어가 큰 클러스터가 아닌, 성장세가 큰 클러스터에 대응되는 자산을 투자 유니버스에 편입하는 점을 가리킨다.The investment universe configuration settings shown in Figure 27 will be explained. The setting in Figure 27 analyzes public data such as patents, papers, and news, as well as information such as publicly announced data from trading systems, securities company reports, and transaction information, as source data. The source data type is 40% patent and 40% paper. The order is 20%, news 20%, SNS 12%, and public data 8%. This indicates that assets corresponding to clusters with high growth, rather than clusters with large current evaluation scores, are incorporated into the investment universe.

도 28에 도시된 투자 유니버스 구성 설정을 해설한다. 도 28의 설정은 사용자 단말의 지정된 디렉토리에 저장된 자료 만을 분석하고, 그 결과를 이용하여 투자 유니버스를 자동 생성하는 것을 가리킨다. 또한, 지정된 두개의 디렉토리의 소스 데이터 간의 가중치는 40% 대 60%로 지정되었고, 현재 평가 스코어가 큰 클러스터가 아닌, 성장세가 큰 클러스터에 대응되는 자산을 투자 유니버스에 편입하는 점을 가리킨다.The investment universe configuration settings shown in Figure 28 will be explained. The setting in Figure 28 indicates that only data stored in the designated directory of the user terminal is analyzed and an investment universe is automatically created using the results. In addition, the weight between the source data of the two specified directories was set at 40% vs. 60%, indicating that assets corresponding to clusters with high growth, rather than clusters with high current evaluation scores, are incorporated into the investment universe.

도 29에 도시된 투자 유니버스 구성 설정을 해설한다. 도 29의 설정은 지정된 4개의 웹 사이트(www.naver.com, www.daum.net, www.nytimes.com, www.bloomberg.com)에 공개되는 자료 만을 분석하고, 그 결과를 이용하여 투자 유니버스를 자동 생성하는 것을 가리킨다. 또한, 지정된 4개의 웹 사이트의 소스 데이터 간의 가중치는 30%, 20%, 20%, 30%로 지정되었고, 현재 평가 스코어가 큰 클러스터가 아닌, 성장세가 큰 클러스터에 대응되는 자산을 투자 유니버스에 편입하는 점을 가리킨다.The investment universe configuration settings shown in Figure 29 will be explained. The setting in Figure 29 analyzes only data published on four designated websites (www.naver.com, www.daum.net, www.nytimes.com, www.bloomberg.com) and uses the results to create an investment universe. refers to automatic creation of . In addition, the weight between the source data of the four designated websites was set to 30%, 20%, 20%, and 30%, and assets corresponding to clusters with large growth, rather than clusters with large current evaluation scores, were incorporated into the investment universe. It points to the point that

다시 도 26으로 돌아와서 설명한다.Let's return to Figure 26 again for explanation.

단계 S20에서, 투자 유니버스가 자동으로 구성된다. 이 때, 상기 투자 유니버스 구성 설정이 반영될 것이다. 단계 S20은 이미 수차례 상술된 바 있는 단계 S100, S200, S300, S400, S550, S700의 순차적 수행으로 도시되어 있다. 단계 S20은, 상술된 투자 유니버스 자동 생성 관련 다양한 실시예들로 대체될 수 있음은 물론이다.In step S20, an investment universe is automatically constructed. At this time, the investment universe configuration settings will be reflected. Step S20 is shown as a sequential performance of steps S100, S200, S300, S400, S550, and S700, which have already been described in detail several times. Of course, step S20 can be replaced with various embodiments related to the automatic creation of the investment universe described above.

단계 S30에서, 생성된 투자 유니버스의 각 자산 별 포함 이유가 표시될 수 있다. 본 게시의 실시예들에서 생성되는 투자 유니버스는 컴퓨팅 장치에 의하여 자동 생성되는 것이고, 각 자산의 편입 사유가 다량의 소스 데이터의 본문 내용을 분석한 결과인 바, 투자자 입장에서는 투자 유니버스의 각 자산 및 그 비중이 결정된 근거가 궁금할 수 있다. 따라서, 투자 유니버스의 자동 생성 이유에 대한 정보가 투자자의 단말 장치의 요청에 응답하여 송신될 수 있는 것이다.In step S30, the reason for inclusion for each asset in the generated investment universe may be displayed. The investment universe created in the embodiments of this publication is automatically created by a computing device, and the reason for inclusion of each asset is the result of analyzing the content of a large amount of source data, so from the investor's perspective, each asset in the investment universe and You may be curious about the basis on which that proportion was determined. Accordingly, information on the reason for automatic creation of the investment universe can be transmitted in response to a request from the investor's terminal device.

상기 투자 유니버스 자동 생성 이유에 대한 정보는 상기 투자 유니버스의 구성 자산 및 그 비중에 대한 정보와 함께 송신될 수 있을 것이다. 상기 투자 유니버스 구성 이유에 대한 정보는, 각 자산 선정의 결과 및 자산 선정의 이유가 된 선정된 클러스터에 대한 상세 정보를 포함할 수 있다. 상기 선정된 클러스터에 대한 상세 정보는 클러스터에 속한 소스 데이터의 양적인 정보, 소스 데이터 타입 별 비중 및 클러스터의 시간적 변화에 대한 정보 중 적어도 하나를 포함할 수 있다. 상기 투자 유니버스 자동 생성 이유에 대한 정보는 자동으로 생성된 ETF의 상품 설명서에 포함될 수 있을 것이다.Information on the reason for automatically generating the investment universe may be transmitted along with information on the constituent assets of the investment universe and their proportions. The information on the reason for forming the investment universe may include the results of selecting each asset and detailed information on the selected cluster that was the reason for asset selection. The detailed information on the selected cluster may include at least one of quantitative information on source data belonging to the cluster, proportion of each source data type, and information on temporal changes in the cluster. Information on the reason for automatically generating the investment universe may be included in the product description of the automatically created ETF.

다음으로, 투자자의 투자 관련 의사 결정을 돕기 위해, 단계 S40에서는 직전에 생성된 투자 유니버스와의 대비 정보가 더 표시될 수 있을 것이다. 이미 설명한 바와 같이, 투자 유니버스의 편입 자산에 대한 정보는 주기적으로 반복하여 출력될 수 있고, 상기 편입 자산을 이용한 투자 유니버스의 업데이트가 이뤄질 수 있다. 상기 대비 정보는, 상기 투자 유니버스의 업데이트에 따른 편입 자산의 비중 변동, 신규 편입, 기존 편입 자산의 제외 등의 정보를 포함할 수 있을 것이다.Next, in order to help investors make investment-related decisions, additional comparison information with the investment universe created just before may be displayed in step S40. As already described, information on assets included in the investment universe can be output repeatedly and periodically, and the investment universe using the included assets can be updated. The comparative information may include information such as changes in the proportion of incorporated assets, new inclusions, and exclusion of existing incorporated assets according to the update of the investment universe.

컴퓨터 프로그램 및 컴퓨팅 장치computer programs and computing devices

지금까지 도 1 내지 도 29를 참조하여 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The technical idea of the present invention described so far with reference to FIGS. 1 to 29 can be implemented as computer-readable code on a computer-readable medium. The computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disk, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk). You can. The computer program recorded on the computer-readable recording medium can be transmitted to another computing device through a network such as the Internet and installed on the other computing device, and thus can be used on the other computing device.

이하, 본 발명의 몇몇 실시예들에 따른 예시적인 컴퓨팅 장치의 하드웨어 구성을 도 30을 참조하여 설명하기로 한다.Hereinafter, the hardware configuration of an exemplary computing device according to some embodiments of the present invention will be described with reference to FIG. 30.

도 30은 본 발명의 다양한 실시예에서 컴퓨팅 장치를 구현할 수 있는 예시적인 하드웨어 구성도이다. 본 실시예에 따른 컴퓨팅 장치(2000)는 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)를 저장하는 스토리지(1300)를 포함할 수 있다. 도 30에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 30에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.30 is an exemplary hardware configuration diagram that can implement a computing device in various embodiments of the present invention. The computing device 2000 according to this embodiment includes one or more processors 1100, a system bus 1600, a communication interface 1200, and a memory that loads a computer program 1500 executed by the processor 1100. It may include (1400) and a storage (1300) for storing a computer program (1500). In Figure 30, only components related to the embodiment of the present invention are shown. Accordingly, a person skilled in the art to which the present invention pertains can see that other general-purpose components other than those shown in FIG. 30 may be further included.

컴퓨팅 장치(2000)는, 예를 들어 도 1 내지 도 4를 참조하여 설명한 투자 유니버스 구성 장치(100) 또는 트레이딩 시스템(20)의 하드웨어 구현 결과일 수 있다. 또한, 컴퓨팅 장치(2000)는 투자 유니버스 구성 장치(100)의 동작을 수행하는 모듈이 내장된 트레이딩 시스템(20)의 하드웨어 구현 결과일 수도 있다. 이 때, 상기 투자 유니버스 구성 장치(100)의 동작을 수행하는 모듈은 컨테이너로서 구현될 수 있다.The computing device 2000 may be, for example, a hardware implementation result of the investment universe construction device 100 or the trading system 20 described with reference to FIGS. 1 to 4 . Additionally, the computing device 2000 may be the result of hardware implementation of the trading system 20 with a built-in module that performs the operation of the investment universe construction device 100. At this time, the module that performs the operation of the investment universe construction device 100 may be implemented as a container.

프로세서(1100)는 컴퓨팅 장치(2000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(1100)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(2000)는 둘 이상의 프로세서를 구비할 수 있다.The processor 1100 controls the overall operation of each component of the computing device 2000. The processor 1100 includes at least one of a Central Processing Unit (CPU), Micro Processor Unit (MPU), Micro Controller Unit (MCU), Graphic Processing Unit (GPU), or any type of processor well known in the art of the present invention. It can be configured to include. Additionally, the processor 1100 may perform operations on at least one application or program to execute methods/operations according to various embodiments of the present invention. Computing device 2000 may include two or more processors.

메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 프로그램(190)을 로드(load) 할 수 있다. 메모리(1400)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다. 시스템 버스(1600)는 컴퓨팅 장치(1000)의 구성 요소 간 통신 기능을 제공한다.The memory 1400 stores various data, commands and/or information. The memory 1400 may load one or more programs 190 from the storage 1300 to execute methods/operations according to various embodiments of the present invention. An example of the memory 1400 may be RAM, but is not limited thereto. The system bus 1600 provides communication functions between components of the computing device 1000.

시스템 버스(1600)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다. 통신 인터페이스(1200)는 컴퓨팅 장치(2000)의 유무선 인터넷 통신을 지원한다. 통신 인터페이스(1200)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1200)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다. 스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 스토리지(1300)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.The system bus 1600 may be implemented as various types of buses, such as an address bus, a data bus, and a control bus. The communication interface 1200 supports wired and wireless Internet communication of the computing device 2000. The communication interface 1200 may support various communication methods other than Internet communication. To this end, the communication interface 1200 may be configured to include a communication module well known in the technical field of the present invention. Storage 1300 may non-temporarily store one or more computer programs 1500. The storage 1300 may include non-volatile memory such as flash memory, a hard disk, a removable disk, or any type of computer-readable recording medium well known in the art to which the present invention pertains.

컴퓨터 프로그램(1500)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.The computer program 1500 may include one or more instructions implementing methods/operations according to various embodiments of the present invention. When the computer program 1500 is loaded into the memory 1400, the processor 1100 can perform methods/operations according to various embodiments of the present invention by executing the one or more instructions.

예시적인 컴퓨터 프로그램(1500)은 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 인스트럭션과, 상기 수집된 소스 데이터를 클러스터링 하는 인스트럭션과, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 인스트럭션과, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 인스트럭션과, 상기 선정된 클러스터에 대응되는 토픽(topic)을 결정하는 인스트럭션을 포함할 수 있다. The exemplary computer program 1500 includes instructions for collecting source data stored in one or more external devices, instructions for clustering the collected source data, instructions for evaluating each cluster formed as a result of the clustering, and a result of the evaluation. It may include an instruction for selecting some of the plurality of clusters formed as a result of the clustering using , and an instruction for determining a topic corresponding to the selected cluster.

다른 예시적인 컴퓨터 프로그램(1500)은 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하되, 기 지정된 소스 데이터 수집 주기 마다 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 인스트럭션과, 기 지정된 클러스터링 주기 마다, 상기 축적된 소스 데이터를 클러스터링 하고, 상기 클러스터링의 결과 형성된 각 클러스터의 토픽을 결정하는 인스트럭션과, 기 지정된 클러스터링 평가 주기 마다, 각 토픽의 클러스터에 대하여 시간적 변화 평가를 수행하는 인스트럭션과, 상기 토픽의 클러스터의 상기 시간적 변화 평가에 따른 변화량을 기준으로 다이나믹 토픽을 선정하는 인스트럭션과, 상기 선정된 다이나믹 토픽에 대한 정보를 출력하는 인스트럭션을 포함할 수 있다.Another exemplary computer program 1500 includes instructions for collecting source data stored in one or more external devices, collecting new source data that has not been previously collected at each predetermined source data collection cycle, and accumulating the collected source data. And, at each pre-designated clustering cycle, an instruction for clustering the accumulated source data and determining a topic of each cluster formed as a result of the clustering, and at each pre-designated clustering evaluation cycle, performing temporal change evaluation on the cluster of each topic. It may include an instruction to select a dynamic topic based on the change amount according to the temporal change evaluation of the cluster of the topic, and an instruction to output information about the selected dynamic topic.

다른 예시적인 컴퓨터 프로그램(1500)은 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 인스트럭션과, 상기 수집된 소스 데이터를 클러스터링 하는 인스트럭션과, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 인스트럭션과, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 인스트럭션과, 상기 선정된 클러스터에 대응되는 자산을 자동 결정하는 인스트럭션을 포함할 수 있다. 이때, 상기 클러스터에 대응되는 자산을 자동 결정하는 인스트럭션은, 상기 클러스터의 각 소스 데이터에 대하여 영향력을 연산하는 인스트럭션과, 상기 클러스터의 각 소스 데이터에서 관련 자산을 추출하는 인스트럭션과, 상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 가중치를 상기 소스 데이터의 영향력을 이용하여 설정하는 인스트럭션과, 상기 가중치를 기준으로, 상기 클러스터에서 추출된 모든 관련 자산 중 일부를 상기 클러스터에 대응되는 자산으로서 선정하는 인스트럭션을 포함할 수 있다.Another exemplary computer program 1500 includes instructions for collecting source data stored in one or more external devices, instructions for clustering the collected source data, instructions for evaluating each cluster formed as a result of the clustering, and instructions for evaluating each cluster. It may include an instruction for selecting some of the plurality of clusters formed as a result of the clustering using the results, and an instruction for automatically determining an asset corresponding to the selected cluster. At this time, the instruction for automatically determining the asset corresponding to the cluster includes an instruction for calculating influence for each source data of the cluster, an instruction for extracting related assets from each source data of the cluster, and each source of the cluster. An instruction for setting the weight of related assets extracted from data using the influence of the source data, and an instruction for selecting some of all related assets extracted from the cluster as assets corresponding to the cluster based on the weight. It can be included.

이상 첨부된 도면을 참조하여 본 명세서의 실시예들을 설명하였지만, 본 명세서의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서의 실시예들이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present specification have been described above with reference to the attached drawings, those skilled in the art will understand that the embodiments of the present specification can be modified to other specific details without changing the technical idea or essential features. It is understandable that it can be implemented in any form. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. The scope of protection of the present invention shall be interpreted in accordance with the claims below, and all technical ideas within the equivalent scope shall be construed as being included in the scope of rights of the technical ideas defined by the present invention.

Claims (9)

컴퓨팅 장치에 의해 수행되는 방법에 있어서,
복수의 소스 데이터를 수집하는 단계;
상기 수집된 복수의 소스 데이터를 클러스터링하는 단계;
상기 클러스터링의 결과 형성된 복수의 클러스터에 포함된 소스 데이터의 타입 속성값에 기초하여, 상기 복수의 클러스터 각각을 평가하는 단계; 및
상기 평가의 결과를 이용하여, 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함하는,
토픽 선정 방법.
In a method performed by a computing device,
collecting multiple source data;
Clustering the collected plurality of source data;
evaluating each of the plurality of clusters based on type attribute values of source data included in the plurality of clusters formed as a result of the clustering; and
Comprising the step of selecting some of the plurality of clusters using the results of the evaluation,
How to select topics.
제1 항에 있어서,
상기 평가하는 단계는,
상기 복수의 클러스터 각각에 포함된 소스 데이터의 타입의 다양성 지표를 연산하는 단계; 및
상기 소스 데이터의 타입의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하는,
토픽 선정 방법.
According to claim 1,
The evaluation step is,
calculating a diversity index of the type of source data included in each of the plurality of clusters; and
Comprising the step of evaluating the cluster more positively as the diversity index of the type of the source data increases,
How to select topics.
제1 항에 있어서,
상기 평가하는 단계는,
상기 복수의 클러스터 각각에 포함된 각 소스 데이터의 스코어를 소스 데이터의 타입에 따른 스코어 연산 규칙에 기초하여 연산하는 단계;
상기 복수의 클러스터 각각에 포함된 각 소스 데이터의 스코어를 합산하는 단계; 및
상기 스코어의 합산치가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하는,
토픽 선정 방법.
According to claim 1,
The evaluation step is,
calculating a score of each source data included in each of the plurality of clusters based on a score calculation rule according to the type of source data;
adding up the scores of each source data included in each of the plurality of clusters; and
Comprising the step of evaluating the cluster more positively as the sum of the scores increases,
How to select topics.
제1 항에 있어서,
상기 평가하는 단계는,
상기 복수의 클러스터 각각에 포함된 소스 데이터의 관련 주체를 소스 데이터의 타입에 따른 관련 주체 추출 규칙에 기초하여 결정하는 단계;
상기 복수의 클러스터 각각에 포함된 소스 데이터의 주체의 다양성 지표를 연산하는 단계; 및
상기 소스 데이터의 주체의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하는,
토픽 선정 방법.
According to claim 1,
The evaluation step is,
determining a related subject of source data included in each of the plurality of clusters based on a related subject extraction rule according to the type of source data;
calculating a diversity index of subjects of source data included in each of the plurality of clusters; and
Comprising a step of positively evaluating the cluster as the diversity index of the subject of the source data is higher,
How to select topics.
제1 항에 있어서,
상기 클러스터링하는 단계는,
상기 수집된 복수의 소스 데이터 각각의 타입에 기초하여, 기 지정된 불용어를 제거하는 단계를 포함하는,
토픽 선정 방법.
According to claim 1,
The clustering step is,
Comprising the step of removing pre-designated stop words based on each type of the collected plurality of source data,
How to select topics.
제1 항에 있어서,
상기 선정하는 단계는,
상기 클러스터링의 결과의 시간적 변화에 기초하여, 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함하는,
토픽 선정 방법.
According to claim 1,
The selection step is,
Comprising the step of selecting some of the plurality of clusters based on temporal changes in the results of the clustering,
How to select topics.
제1 항에 있어서,
상기 선정된 클러스터에 대응되는 토픽을 결정하는 단계를 더 포함하는,
토픽 선정 방법.
According to claim 1,
Further comprising the step of determining a topic corresponding to the selected cluster,
How to select topics.
제7 항에 있어서,
상기 토픽을 결정하는 단계는,
중요도를 기준으로 상기 선정된 클러스터에 대응되는 토픽에 포함될 주요 키워드를 선정하는 단계를 포함하는,
토픽 선정 방법.
According to clause 7,
The step of determining the topic is,
Including the step of selecting key keywords to be included in the topic corresponding to the selected cluster based on importance,
How to select topics.
제7 항에 있어서,
상기 결정된 토픽에 대응되는 자산을 결정하는 단계; 및
상기 결정된 자산을 포함하도록 구성된 투자 유니버스에 대한 정보를 제공하는 단계를 더 포함하는,
토픽 선정 방법.
According to clause 7,
determining assets corresponding to the determined topic; and
Further comprising providing information about an investment universe configured to include the determined assets,
How to select topics.
KR1020210079978A 2020-09-15 2021-06-21 Automated data processing method for topic adoption KR102477893B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210079978A KR102477893B1 (en) 2020-09-15 2021-06-21 Automated data processing method for topic adoption

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200118076A KR102269425B1 (en) 2020-09-15 2020-09-15 Automated data processing method for topic adoption
KR1020210079978A KR102477893B1 (en) 2020-09-15 2021-06-21 Automated data processing method for topic adoption

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020200118076A Division KR102269425B1 (en) 2020-09-15 2020-09-15 Automated data processing method for topic adoption

Publications (2)

Publication Number Publication Date
KR20220036324A true KR20220036324A (en) 2022-03-22
KR102477893B1 KR102477893B1 (en) 2022-12-15

Family

ID=76629358

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200118076A KR102269425B1 (en) 2020-09-15 2020-09-15 Automated data processing method for topic adoption
KR1020210079978A KR102477893B1 (en) 2020-09-15 2021-06-21 Automated data processing method for topic adoption

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020200118076A KR102269425B1 (en) 2020-09-15 2020-09-15 Automated data processing method for topic adoption

Country Status (1)

Country Link
KR (2) KR102269425B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102444460B1 (en) * 2021-08-30 2022-09-19 주식회사 초메디신 Method of providing chatbot service for symptom and disease matching based on ai

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044795A1 (en) * 1998-08-31 2001-11-22 Andrew L. Cohen Method and system for summarizing topics of documents browsed by a user
US20030033333A1 (en) * 2001-05-11 2003-02-13 Fujitsu Limited Hot topic extraction apparatus and method, storage medium therefor
KR20200000789A (en) * 2018-06-25 2020-01-03 주식회사 딥서치 Method for constructing an investment portfolio, providing an investment portfolio service, and apparatus supporting the same
KR20200065736A (en) 2018-11-30 2020-06-09 주식회사 딥서치 Method for determining target company to be invested regarding a topic of interest and apparatus thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044795A1 (en) * 1998-08-31 2001-11-22 Andrew L. Cohen Method and system for summarizing topics of documents browsed by a user
US20030033333A1 (en) * 2001-05-11 2003-02-13 Fujitsu Limited Hot topic extraction apparatus and method, storage medium therefor
KR20200000789A (en) * 2018-06-25 2020-01-03 주식회사 딥서치 Method for constructing an investment portfolio, providing an investment portfolio service, and apparatus supporting the same
KR20200065736A (en) 2018-11-30 2020-06-09 주식회사 딥서치 Method for determining target company to be invested regarding a topic of interest and apparatus thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
강성진, 군집화 기법과 문서 순위를 이용한 한국어 트윗 상의 토픽 추출, 서울대학교 대학원 석사학위논문, 2013.08. 1부. *
진설아 외 3인, 트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구, 정보관리학회지 제30권 제1호, 2013, 285-302페이지. *

Also Published As

Publication number Publication date
KR102477893B1 (en) 2022-12-15
KR102269425B1 (en) 2021-06-25

Similar Documents

Publication Publication Date Title
US10853360B2 (en) Searchable index
US20150379018A1 (en) Computer-generated sentiment-based knowledge base
US20130325877A1 (en) Uses Of Root Cause Analysis, Systems And Methods
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
CN101313330A (en) Selecting high quality reviews for display
US11263523B1 (en) System and method for organizational health analysis
KR102252188B1 (en) Product recommendation system and method reflecting user purchasing criterion
US10417338B2 (en) External resource identification
KR20210047229A (en) Recommendation System and METHOD Reflecting Purchase Criteria and Product Reviews Sentiment Analysis
KR102207104B1 (en) Method for determining target company to be invested regarding a topic of interest and apparatus thereof
Hossain et al. Machine learning based class level prediction of restaurant reviews
CN110597978A (en) Article abstract generation method and system, electronic equipment and readable storage medium
Wang et al. Investor attention, market liquidity and stock return: a new perspective
KR20210033294A (en) Automatic manufacturing apparatus for reports, and control method thereof
KR102477893B1 (en) Automated data processing method for topic adoption
WO2015030112A1 (en) Document sorting system, document sorting method, and document sorting program
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
KR20130089699A (en) Method, search server and computer readable recording medium for determining ranking of stock-collection with stock exchange information
KR20230092847A (en) Method for determining target company to be invested regarding a topic of interest and apparatus thereof
US20140067812A1 (en) Systems and methods for ranking document clusters
Háva et al. Supervised two-step feature extraction for structured representation of text data
CN115062135B (en) Patent screening method and electronic equipment
CN112487132A (en) Keyword determination method and related equipment
KR20190094541A (en) Advertisement recommendation apparatus and method based on comments
KR102215259B1 (en) Method of analyzing relationships of words or documents by subject and device implementing the same

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant