KR20220097170A - Method and device for analyzing health care big-data using text rank - Google Patents

Method and device for analyzing health care big-data using text rank Download PDF

Info

Publication number
KR20220097170A
KR20220097170A KR1020210116462A KR20210116462A KR20220097170A KR 20220097170 A KR20220097170 A KR 20220097170A KR 1020210116462 A KR1020210116462 A KR 1020210116462A KR 20210116462 A KR20210116462 A KR 20210116462A KR 20220097170 A KR20220097170 A KR 20220097170A
Authority
KR
South Korea
Prior art keywords
keywords
big data
frequency
health care
extracting
Prior art date
Application number
KR1020210116462A
Other languages
Korean (ko)
Inventor
이수경
정상원
김홍기
남세진
김신실
Original Assignee
계명대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 계명대학교 산학협력단 filed Critical 계명대학교 산학협력단
Publication of KR20220097170A publication Critical patent/KR20220097170A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method and device for analyzing health care big data using a text rank. The method includes: a step of extracting abstracts of a plurality of pieces of health care big data stored in a database; a step of extracting a plurality of keywords from the abstracts; a step of clustering a part of keywords by calculating a frequency for each of the plurality of keywords; and a step of calculating a trend section according to a frequency and similarity of the clustered keywords.

Description

텍스트랭크 기반 헬스 케어 빅데이터 분석 방법 및 장치 {METHOD AND DEVICE FOR ANALYZING HEALTH CARE BIG-DATA USING TEXT RANK}TextRank-based healthcare big data analysis method and device {METHOD AND DEVICE FOR ANALYZING HEALTH CARE BIG-DATA USING TEXT RANK}

개시된 기술은 데이터베이스에 저장된 헬스 케어 빅데이터를 텍스트랭크 알고리즘으로 분석하여 주요 키워드와 트랜드 구간을 추출하는 방법 및 장치에 관한 것이다.The disclosed technology relates to a method and apparatus for extracting main keywords and trend sections by analyzing big data stored in a database with a textrank algorithm.

사회 연결망 분석이란 사회 연결망 데이터를 활용하여 사회 구조를 분석하는 하나의 방식이다. 기술의 발전에 더불어 사회의 객체들 사이의 관계는 더욱 복잡해지고, 정교하게 변화하였다. 이러한 관계들을 통해 특정 네트워크의 구조나 개인 간의 상호관계 등을 파악하는 것을 목표로 한다. 주로 수치화, 통계화, 그래프 기반 시각화 등을 이용하여 일련의 과정을 통해 발견된 어떤 형태나 패턴을 분석함으로써 사회구조, 연결망, 관계성, 그룹 또는 개인의 속성을 파악하는 것이 가능하다.Social network analysis is a method of analyzing social structure using social network data. With the development of technology, the relationships between social objects have become more complex and sophisticated. Through these relationships, we aim to understand the structure of a specific network or the interrelationships between individuals. It is possible to identify social structures, networks, relationships, and attributes of groups or individuals by analyzing any form or pattern discovered through a series of processes using mainly digitization, statistics, and graph-based visualization.

한편, 다수의 논문을 저장하는 데이터베이스를 분석하는 과정에서도 이러한 사회 연결망 분석 방식이 이용되고 있다. 논문에 포함된 주요 키워드, 요약 등을 추출하고 특정 키워드의 빈도수나 유사도, 다수 키워드 사이의 관계를 분석하여 논문에 나타내는 핵심 키워드나 논문 간의 관계 등을 파악할 수 있다.On the other hand, such a social network analysis method is also used in the process of analyzing a database storing a large number of papers. By extracting the main keywords and summaries included in the thesis, and analyzing the frequency or similarity of specific keywords, and the relationship between multiple keywords, it is possible to understand the key keywords in the thesis or the relationship between the thesis.

한국 등록특허 제10-1663454호Korean Patent Registration No. 10-1663454

개시된 기술은 데이터베이스에 저장된 헬스 케어 빅데이터를 텍스트랭크 알고리즘으로 분석하여 주요 키워드와 트랜드 구간을 추출하는 방법 및 장치를 제공하는데 있다.The disclosed technology provides a method and apparatus for extracting major keywords and trend sections by analyzing big data for healthcare stored in a database with a textrank algorithm.

상기의 기술적 과제를 이루기 위하여 개시된 기술의 제 1 측면은 데이터베이스에 저장된 복수의 헬스 케어 빅데이터들의 초록을 추출하는 단계, 상기 초록에서 복수개의 키워드를 추출하는 단계, 상기 복수의 키워드 각각에 대한 빈도수를 계산하여 일부의 키워드끼리 클러스터링하는 단계 및 클러스터링된 키워드의 빈도수 및 유사도에 따라 트랜드 구간을 산출하는 단계를 포함하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 방법을 제공하는데 있다.A first aspect of the disclosed technology to achieve the above technical task is to extract the abstract of a plurality of health care big data stored in a database, extract a plurality of keywords from the abstract, and calculate the frequency of each of the plurality of keywords. An object of the present invention is to provide a textrank-based healthcare big data analysis method comprising the steps of calculating and clustering some keywords and calculating a trend section according to the frequency and similarity of the clustered keywords.

상기의 기술적 과제를 이루기 위하여 개시된 기술의 제 2 측면은 복수의 헬스 케어 빅데이터들을 저장하는 저장장치 및 상기 헬스 케어 빅데이터들의 초록을 추출하고 상기 초록에 포함된 복수개의 키워드를 추출하고 상기 복수의 키워드 각각에 대한 빈도수를 계산하여 일부의 키워드를 클러스터링하고 키워드의 빈도수 및 유사도에 따라 트랜드 구간을 산출하는 프로세서를 포함하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 장치를 제공하는데 있다.A second aspect of the disclosed technology to achieve the above technical task is a storage device for storing a plurality of health care big data, extracting the abstract of the health care big data, extracting a plurality of keywords included in the abstract, and extracting the plurality of An object of the present invention is to provide a textrank-based health care big data analysis device including a processor for clustering some keywords by calculating the frequency of each keyword and calculating a trend section according to the frequency and similarity of the keywords.

개시된 기술의 실시 예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다. Embodiments of the disclosed technology may have effects including the following advantages. However, since it does not mean that the embodiments of the disclosed technology should include all of them, it should not be understood that the scope of the disclosed technology is limited thereby.

개시된 기술의 일 실시예에 따르면 텍스트랭크 기반 사회 연결망 분석 방법 및 장치는 헬스 케어 빅데이터 간의 유사도를 정량적으로 파악하는 효과가 있다.According to an embodiment of the disclosed technology, a textrank-based social network analysis method and apparatus has an effect of quantitatively determining the similarity between health care big data.

또한, 헬스 케어 빅데이터에 포함된 키워드에 대한 트랜드 구간을 설정하여 구간 별로 키워드의 유사도 및 키워드 간의 관계를 분석하는 효과가 있다.In addition, by setting a trend section for the keywords included in the health care big data, there is an effect of analyzing the similarity of the keywords and the relationship between the keywords for each section.

도 1은 개시된 기술의 일 실시예에 따른 사회 연결망 분석 시스템을 나타낸 도면이다.
도 2는 개시된 기술의 일 실시예에 따라 키워드를 클러스터링하는 것을 나타낸 도면이다.
1 is a diagram illustrating a social network analysis system according to an embodiment of the disclosed technology.
2 is a diagram illustrating clustering of keywords according to an embodiment of the disclosed technology.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention.

제 1 , 제 2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B may be used to describe various components, but the components are not limited by the above terms, and only for the purpose of distinguishing one component from other components. used only as For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component. and/or includes a combination of a plurality of related listed items or any of a plurality of related listed items.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 한다. 그리고 "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.In terms of terms used herein, the singular expression is to be understood as including the plural expression unless the context clearly dictates otherwise. And terms such as "comprising" mean that the specified feature, number, step, operation, component, part, or a combination thereof exists, but one or more other features or number, step operation component, part It should be understood as not excluding the possibility of the presence or addition of or combinations thereof.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. Prior to a detailed description of the drawings, it is intended to clarify that the classification of the constituent parts in the present specification is merely a division according to the main function each constituent unit is responsible for. That is, two or more components to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.

그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다. 따라서, 본 명세서를 통해 설명되는 각 구성부들의 존재 여부는 기능적으로 해석되어야 할 것이다.In addition, each of the constituent units to be described below may additionally perform some or all of the functions of other constituent units in addition to the main function it is responsible for. Of course, it can also be performed by being dedicated to it. Accordingly, the existence or non-existence of each component described through the present specification should be interpreted functionally.

도 1은 개시된 기술의 일 실시예에 따른 사회 연결망 분석 시스템을 나타낸 도면이다. 도 1을 참조하면 시스템(100)은 분석장치(110) 및 데이터베이스(120)로 구성되며 사용자가 분석장치(110)를 이용하여 데이터베이스(120)에 저장된 헬스 케어 빅데이터들 중 일부를 검색할 수 있다. 헬스 케어 빅데이터는 헬스 케어에 관련된 논문이나 뉴스, 기사(Article)를 포함한다. 분석장치(110)는 사용자가 이용하는 PC나 노트북과 같은 단말기일 수 있으며 사용자의 검색어에 매칭되는 복수의 헬스 케어 빅데이터들을 검색할 수 있다. 사용자가 입력하는 검색어는 키워드 중 하나로 이용할 수도 있고 단순히 검색단계에서만 이용할 수도 있다.1 is a diagram illustrating a social network analysis system according to an embodiment of the disclosed technology. Referring to FIG. 1 , the system 100 is composed of an analysis device 110 and a database 120 , and a user can search for some of the health care big data stored in the database 120 using the analysis device 110 . have. Health care big data includes articles, news, and articles related to health care. The analysis device 110 may be a terminal such as a PC or a laptop computer used by the user, and may search for a plurality of health care big data matching the user's search term. The search term entered by the user may be used as one of the keywords or may be used only in the search stage.

데이터베이스(120)는 분석장치 내부에 탑재된 저장공간일 수도 있고 별도로 마련된 저장장치일 수도 있다. 데이터베이스(120)는 다수의 논문 저자들이 각자의 논문을 업로드할 수 있다. 뉴스나 기사 또한 마찬가지로 업로드할 수 있다. 데이터베이스(120)는 업로드되는 헬스 케어 빅데이터들을 추후 검색이 용이하도록 업로드 날짜나 주요 키워드 등의 메타데이터를 생성하여 함께 저장할 수 있다. 데이터베이스는 자체적으로 헬스 케어 빅데이터의 내용을 검색하여 키워드를 메타데이터로 입력할 수도 있고 헬스 케어 빅데이터의 저자로부터 입력되는 정보에 따라 메타데이터를 저장할 수도 있다.The database 120 may be a storage space mounted inside the analysis device or a storage device provided separately. In the database 120 , a plurality of thesis authors may upload their thesis. News and articles can be uploaded as well. The database 120 may generate and store the uploaded health care big data together with metadata such as an upload date or major keywords to facilitate later search. The database may search the contents of healthcare big data by itself and input keywords as metadata, or may store metadata according to information input from the author of healthcare big data.

분석장치는 사용자의 검색어에 매칭되는 복수의 헬스 케어 빅데이터들을 검색하면 초록을 추출할 수 있다. 초록 영역을 추출하는 것은 기계적인 방법으로 처리될 수 있다. 예컨대, 작성된 문서의 양식에서 앞부분만 추출하거나 뒷부분만 추출할 수 있다. 또는‘Abstract’라고 명시된 문단만 추출할 수도 있다. The analysis device may extract the abstract by searching for a plurality of health care big data matching the user's search term. Extracting the green area can be handled in a mechanical way. For example, it is possible to extract only the front part or only the back part from the form of the prepared document. Alternatively, only the paragraphs marked ‘Abstract’ can be extracted.

한편, 분석장치는 추출된 초록에서 키워드를 추출한다. 분석장치는 초록 내에서 자주 사용되는 단어나 서로 유사한 의미를 갖는 용어를 추출할 수 있다. 키워드는 문서 저장 시 데이터베이스가 생성한 메타데이터를 참고하여 키워드를 추출할 수 있다. 또는 헬스 케어 빅데이터에 포함된 모든 단어를 계산한 뒤 가장 많이 사용된 단어를 키워드로 추출할 수도 있다. Meanwhile, the analysis device extracts keywords from the extracted abstract. The analysis device can extract frequently used words or terms with similar meanings in the abstract. Keywords can be extracted by referring to the metadata generated by the database when the document is saved. Alternatively, after calculating all the words included in the healthcare big data, the most used words can be extracted as keywords.

한편, 키워드를 추출함에 있어서 분석장치는 텍스트랭크(TextRank) 알고리즘을 각 문서마다 적용하여 키워드를 보다 효율적으로 추출할 수 있다. 텍스트랭크 알고리즘은 유사도를 비교하여 문장과 단어 사이에 가중치를 매긴 뒤 하나의 문서에서 많은 빈도수를 갖는 단어나 문장 등을 추출하는 알고리즘이다. 주로 문서 집합을 요약하는 용도로 이용되고 있으나 문서의 요약 보다는 문서를 대표하는 키워드나 핵심 용어 등을 파악하는데 더 직관적이다. 따라서, 검색된 헬스 케어 빅데이터의 초록에 대하여 텍스트랭크 알고리즘을 적용하는 것으로 최소 빈도수 이상의 키워드들을 단시간에 추출할 수 있다.Meanwhile, in extracting the keyword, the analysis apparatus may more efficiently extract the keyword by applying the TextRank algorithm to each document. The TextRank algorithm is an algorithm that compares similarities, assigns weights between sentences and words, and then extracts words or sentences with a high frequency from a single document. It is mainly used to summarize a set of documents, but it is more intuitive to identify keywords or key terms representing documents rather than summarizing documents. Therefore, by applying the TextRank algorithm to the searched abstract of health care big data, keywords with a minimum frequency or higher can be extracted in a short time.

이와 같이 키워드를 추출하면 분석장치는 각 키워드에 대한 빈도수를 계산하여 일부의 키워드끼리 클러스터링할 수 있다. 키워드의 빈도수는 초록 내에서 키워드의 등장 횟수일 수 있다. 그리고 일부 키워드를 클러스터링하는 것은 서로 유사한 의미를 갖거나 특정 용어를 대체하는 용도로 다른 용어가 사용되는 경우 서로 유사한 것으로 판단하여 클러스터링할 수 있다. 일 실시예로, ‘약물’이나 ‘약품’과 같은 키워드의 경우 서로 유사한 의미를 갖는 키워드이므로 같은 그룹으로 클러스터링할 수 있다. 반면, ‘인삼’이나 ‘벌침’과 같은 키워드 간에는 서로 대체하는 용도의 키워드가 아니고 유사도 또한 없으므로 각각 별개로 클러스터링할 수 있다.When keywords are extracted in this way, the analysis apparatus can cluster some keywords by calculating the frequency of each keyword. The frequency of the keyword may be the number of appearances of the keyword in the abstract. In addition, when some keywords have similar meanings or other terms are used to replace specific terms, clustering may be performed by determining that they are similar to each other. As an embodiment, keywords such as 'drug' or 'drug' may be clustered into the same group since they have similar meanings. On the other hand, keywords such as 'ginseng' and 'beolchim' are not used to replace each other and there is no similarity, so they can be clustered separately.

한편, 키워드를 유사도에 따라 클러스터링하면 분석장치는 키워드의 빈도수 및 유사도에 따라 트랜드 구간을 산출할 수 있다. 트랜드 구간은 시간대 별로 나뉠 수 있으며 특정 키워드가 시간대 별로 점진적으로 등장횟수가 증가하거나 감소하는 등의 추세를 파악할 수 있다. 따라서 사용자는 자신이 검색한 논문들에 사용된 키워드가 주로 어느 구간에서 자주 사용되고 어떻게 변화하는지 또는 시간적 흐름에 따라 연구 동향이 어떻게 변화하는지 등을 파악할 수 있다.Meanwhile, when keywords are clustered according to the degree of similarity, the analysis apparatus may calculate a trend section according to the frequency and similarity of the keywords. The trend section can be divided by time period, and a trend such as a gradual increase or decrease in the number of appearances of a specific keyword can be identified for each time period. Therefore, the user can understand how keywords used in the articles they search for are frequently used in which section and how they change, or how research trends change over time.

도 2는 개시된 기술의 일 실시예에 따라 키워드를 클러스터링하는 것을 나타낸 도면이다. 도 2와 같이 시간대 별로 복수개의 트랜드 구간이 설정될 수 있다. 여기에서 각 트랜드 구간에 포함되는 년도의 개수는 정해진 것이 아니라 해당 트랜드 구간에 포함된 키워드의 빈도수와 유사도에 따라 결정될 수 있다. 가령, 트랜드 구간1(Phase 1)의 경우 1964년부터 1978년까지 14년을 포함하지만 트랜드 구간4(Phase 4)는 1996년부터 2002년까지 6년만 포함될 수 있다. 즉, 모든 트랜드 구간이 동일한 수의 년도를 포함하는 것은 아니다.2 is a diagram illustrating clustering of keywords according to an embodiment of the disclosed technology. As shown in FIG. 2 , a plurality of trend sections may be set for each time zone. Here, the number of years included in each trend section is not determined, but may be determined according to the frequency and similarity of keywords included in the trend section. For example, trend section 1 (Phase 1) may include 14 years from 1964 to 1978, but trend section 4 (Phase 4) may include only 6 years from 1996 to 2002. That is, not all trend intervals include the same number of years.

한편, 구간별 빈도를 기준으로 키워드의 유사도에 대한 변화는 아래의 수학식 1에 따라 계산할 수 있다.On the other hand, the change in the similarity of the keyword based on the frequency for each section can be calculated according to Equation 1 below.

Figure pat00001
Figure pat00001

여기에서

Figure pat00002
Figure pat00003
는 키워드 빈도수를 의미하고,
Figure pat00004
Figure pat00005
는 각각 S와 T의 K번째 값을 의미한다. 가령 A년도의 S값이 {17, 21, 9, 3, 0, ...}이고, T값이 {61, 101, 59, 22, 4, ...}라면 유사도
Figure pat00006
는 (17+21+9+6+0+...)/(61+101+59+22+4+...)이 될 수 있다. 계산 결과, 키워드 사이의 유사도가 완벽하게 일치하는 경우에는 1.0의 값으로 나타날 수 있다. 그리고 키워드가 1년 이내에 비슷한 빈도로 나타나는 경우에는 유사성 값이 높게 나타날 수 있다.From here
Figure pat00002
Wow
Figure pat00003
is the keyword frequency,
Figure pat00004
Wow
Figure pat00005
denotes the Kth value of S and T, respectively. For example, if the S value of year A is {17, 21, 9, 3, 0, ...} and the T value is {61, 101, 59, 22, 4, ...}, the similarity
Figure pat00006
can be (17+21+9+6+0+...)/(61+101+59+22+4+...). As a result of the calculation, if the similarity between keywords perfectly matches, a value of 1.0 may appear. And when keywords appear with a similar frequency within one year, the similarity value may appear high.

한편, 각 트랜드 구간마다 키워드의 빈도수 및 유사도의 증가세 또는 감소세가 서로 다르게 나타날 수 있다. 예컨대, 트랜드 구간1에서는 키워드의 유사도에 대한 증가 폭이 크게 변화하지는 않았으나 트랜드 구간5에서는 유의미한 수준의 증가세를 나타낼 수 있다. 이는 초기에는 특정 키워드가 논문 상에서 자주 언급되지 않았거나 언급되더라도 정해진 몇 가지의 키워드로만 언급되는 수준이었으나 연구 횟수가 증가하고 연구자들 사이에서 보다 폭넓은 연구가 진행됨에 따라 키워드에 대한 언급이 증가하고, 키워드와 유관한 용어들의 사용 또한 증가하였기 때문이다. 사용자는 이와 같이 키워드가 사용되는 시간대를 트랜드 구간으로 나누어 파악함으로써 현재의 헬스 케어 연구 동향이나 앞으로의 헬스 케어 연구 방향이나 체계 등을 파악할 수 있다.Meanwhile, the increase or decrease in the frequency and similarity of keywords may appear differently for each trend section. For example, in the trend section 1, the increase in the similarity of keywords did not change significantly, but in the trend section 5, a significant level of increase could be exhibited. In the beginning, certain keywords were not mentioned frequently in the thesis or even if they were mentioned, only a few keywords were mentioned. This is because the use of keywords and related terms has also increased. The user can grasp the current health care research trend or the future health care research direction or system by dividing the time period in which the keyword is used in this way into trend sections.

개시된 기술의 일 실시예에 따른 텍스트랭크 기반 헬스 케어 빅데이터 분석 방법 및 장치는 이해를 돕기 위하여 도면에 도시된 실시 예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 개시된 기술의 진정한 기술적 보호범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.TextRank-based healthcare big data analysis method and apparatus according to an embodiment of the disclosed technology has been described with reference to the embodiment shown in the drawings to help understanding, but this is only an example, and those of ordinary skill in the art It will be appreciated that various modifications and equivalent other embodiments are possible therefrom. Accordingly, the true technical protection scope of the disclosed technology should be defined by the appended claims.

Claims (5)

분석장치가 데이터베이스에 저장된 복수의 헬스 케어 빅데이터들의 초록(Abstract)을 추출하는 단계;
상기 분석장치가 상기 초록에서 복수개의 키워드를 추출하는 단계;
상기 분석장치가 상기 복수의 키워드 각각에 대한 빈도수를 계산하여 일부의 키워드끼리 클러스터링하는 단계; 및
상기 분석장치가 클러스터링 된 키워드의 빈도수 및 유사도에 따라 트랜드 구간을 산출하는 단계;를 포함하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 방법.
extracting, by an analysis device, an abstract of a plurality of health care big data stored in a database;
extracting, by the analysis device, a plurality of keywords from the abstract;
clustering, by the analysis device, the number of frequencies for each of the plurality of keywords; and
A textrank-based healthcare big data analysis method comprising; calculating, by the analysis device, a trend section according to the frequency and similarity of clustered keywords.
제 1 항에 있어서,
상기 분석장치는 텍스트랭크(TextRank) 알고리즘을 이용하여 상기 복수개의 키워드를 추출하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 방법.
The method of claim 1,
The analysis apparatus uses a TextRank algorithm to extract the plurality of keywords based on a TextRank-based healthcare big data analysis method.
제 1 항에 있어서,
상기 분석장치는 추출된 복수개의 키워드들 중 특정 키워드의 빈도수와 상기 특정 키워드와 유사한 적어도 하나의 키워드의 빈도수를 계산하여 클러스터링하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 방법.
The method of claim 1,
The analysis apparatus calculates and clusters the frequency of a specific keyword among the extracted plurality of keywords and the frequency of at least one keyword similar to the specific keyword, and clusters the text rank-based healthcare big data analysis method.
제 1 항에 있어서,
상기 분석장치는 클러스터링 된 키워드의 유사도 변화를 이하의 수학식 1에 따라 계산하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 방법.
[수학식 1]
Figure pat00007


(여기에서
Figure pat00008
Figure pat00009
는 키워드 빈도수를 의미하고,
Figure pat00010
Figure pat00011
는 각각 S와 T의 K번째 값을 의미함.)
The method of claim 1,
The analysis device is a text rank-based healthcare big data analysis method for calculating the similarity change of the clustered keyword according to Equation 1 below.
[Equation 1]
Figure pat00007


(From here
Figure pat00008
Wow
Figure pat00009
is the keyword frequency,
Figure pat00010
Wow
Figure pat00011
denotes the Kth value of S and T, respectively.)
복수의 헬스 케어 빅데이터들을 저장하는 저장장치; 및
상기 헬스 케어 빅데이터들의 초록을 추출하고 텍스트랭크 알고리즘을 이용하여 상기 초록에 포함된 복수개의 키워드를 추출하고 상기 복수의 키워드 각각에 대한 빈도수를 계산하여 일부의 키워드를 클러스터링하고 키워드의 빈도수 및 유사도에 따라 트랜드 구간을 산출하는 프로세서;를 포함하는 텍스트랭크 기반 헬스 케어 빅데이터 분석 장치.
a storage device for storing a plurality of health care big data; and
Extracting the abstract of the healthcare big data, extracting a plurality of keywords included in the abstract using a textrank algorithm, calculating the frequency for each of the plurality of keywords, clustering some keywords, and calculating the frequency and similarity of keywords TextRank-based healthcare big data analysis device comprising; a processor that calculates a trend section according to it.
KR1020210116462A 2020-12-30 2021-09-01 Method and device for analyzing health care big-data using text rank KR20220097170A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200187216 2020-12-30
KR1020200187216 2020-12-30

Publications (1)

Publication Number Publication Date
KR20220097170A true KR20220097170A (en) 2022-07-07

Family

ID=82397386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210116462A KR20220097170A (en) 2020-12-30 2021-09-01 Method and device for analyzing health care big-data using text rank

Country Status (1)

Country Link
KR (1) KR20220097170A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101663454B1 (en) 2016-08-03 2016-10-07 주식회사 비욘드테크 Apparatus of sentence similarity calculation using keyword weight and method thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101663454B1 (en) 2016-08-03 2016-10-07 주식회사 비욘드테크 Apparatus of sentence similarity calculation using keyword weight and method thereof

Similar Documents

Publication Publication Date Title
Akter et al. An extractive text summarization technique for Bengali document (s) using K-means clustering algorithm
Hoffart et al. Discovering emerging entities with ambiguous names
Stefanowski et al. Carrot 2 and language properties in web search results clustering
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
WO2017092622A1 (en) Legal provision search method and device
US20090037440A1 (en) Streaming Hierarchical Clustering
US20080205775A1 (en) Online document clustering
CN108197144B (en) Hot topic discovery method based on BTM and Single-pass
Buana et al. Combination of k-nearest neighbor and k-means based on term re-weighting for classify indonesian news
WO2011112236A1 (en) Categorizing products
Wang et al. Targeted disambiguation of ad-hoc, homogeneous sets of named entities
WO2008063973A2 (en) Method and system for high performance data metatagging and data indexing using coprocessors
Sarkar A hybrid approach to extract keyphrases from medical documents
Tabak et al. Comparison of emotion lexicons
CN110019556B (en) Topic news acquisition method, device and equipment thereof
Rumagit et al. Comparison of graph-based and term weighting method for automatic summarization of online news
Mohammadi et al. A fast text similarity measure for large document collections using multireference cosine and genetic algorithm
Evangelista et al. Adaptive and flexible blocking for record linkage tasks
Trieschnigg et al. Hierarchical topic detection in large digital news archives: exploring a sample based approach
US20150052140A1 (en) Information processing apparatus, information processing method, and program
KR20220097170A (en) Method and device for analyzing health care big-data using text rank
Giannakopoulos et al. Content visualization of scientific corpora using an extensible relational database implementation
Borges et al. A classification-based approach for bibliographic metadata deduplication
Pandit et al. A query specific graph based approach to multi-document text summarization: simultaneous cluster and sentence ranking
Jędrzejewski et al. Performance of k-nearest neighbors algorithm in opinion classification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application