KR20160002199A - Issue data extracting method and system using relevant keyword - Google Patents
Issue data extracting method and system using relevant keyword Download PDFInfo
- Publication number
- KR20160002199A KR20160002199A KR1020140081204A KR20140081204A KR20160002199A KR 20160002199 A KR20160002199 A KR 20160002199A KR 1020140081204 A KR1020140081204 A KR 1020140081204A KR 20140081204 A KR20140081204 A KR 20140081204A KR 20160002199 A KR20160002199 A KR 20160002199A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- issue data
- keywords
- exposure frequency
- core
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 이슈 데이터 추출방법 및 시스템에 관한 것으로, 더욱 상세하게는 웹 페이지를 통해 의도하지 않은 핵심 키워드를 추출 후, 핵심 키워드와 가장 연관성이 낮의 연관 키워드를 추출하고, 이를 이용하여 핫 이슈가 될 가능성이 있는 이슈 데이터를 추출하는 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템에 관한 것이다.The present invention relates to an issue data extraction method and system, and more particularly, to a method and system for extracting an issue data, and more particularly, to extract an unintentional keyword from a web page, extract a related keyword having a low relevance to the core keyword, The present invention relates to an artifact data extraction method and system using an associated keyword extracting artifact data that is likely to be extracted.
인터넷을 통해 유통되는 정보의 량이 증가함에 따라, 인터넷을 통해 유통되는 정보를 찾기 위한 다양한 검색방법이 이용되고 있다. As the amount of information distributed through the Internet increases, various search methods for searching information distributed through the Internet are used.
가장 대중화된 키워드 검색방법은 사용자가 입력하는 키워드를 포함하는 웹 페이지나 콘텐츠를 사용자 단말기(예컨대 퍼스널 컴퓨터, 스마트폰 및 노트북 등)로 제공하는 검색방법으로 사용자 입력된 키워드와 매칭되는 검색결과를 선별하고, 선별된 검색 결과물 중 가장 많은 사용자가 선택한 순서에 따라 정렬하거나 스폰서의 광고비 입력 순서에 따라 정렬하여 사용자 단말기로 검색 결과물을 제공하고 있다. The most popular keyword search method is a search method that provides a web page including a keyword input by a user or a content to a user terminal (e.g., personal computer, smart phone, notebook computer, etc.) And arranges them according to the order selected by the largest number of users in the selected search results, or arranges them according to the order of inputting the advertisement expenses of the sponsor, and provides search results to the user terminal.
그러나, 키워드 검색방법은 사용자가 입력한 키워드를 포함하는 모든 인터넷 콘텐츠가 검색되므로 사용자가 입력한 키워드와 동의어를 가지거나 유사한 의미를 갖는 검색 결과물을 검색하지 못할 우려가 있다. 이에 대해, 등록특허 10-0493688(R1)에서는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하고, 연관 키워드들 중 검색 키워드와의 연관성이 높거나 노출 빈도가 높은 연관 키워드를 검색 결과 리스트에 추가하는 "키워드 확장장치 및 방법과 키워드 확장장치를 이용한 검색 시스템"을 제안한 바 있다. 등록특허 10-0493688은 사용자가 직접 입력하는 키워드와 연관된 연관 키워드를 검색에 활용한다는 측면에서, 더 확장된 검색 결과를 제공하고 있다.However, since all the Internet contents including the keyword inputted by the user are searched, the keyword search method may not be able to search the search result having the synonym or similar meaning with the keyword inputted by the user. On the other hand, in the patent document 10-0493688 (R1), a related keyword is extracted for a search keyword input by a user, and a related keyword having a high relevance to the search keyword or a high frequency of exposure among the related keywords is added to the search result list A keyword expansion device and method, and a search system using a keyword expansion device. Patent No. 10-0493688 provides further extended search results in terms of utilizing related keywords associated with keywords directly input by a user in search.
다른 한편, 등록특허 10-1178208(R2)에서는 인터넷 게시물 또는 게시물에 포함되는 색인어를 추가로 연관 검색어로서 추출하여 인터넷을 재 검색 함으로써, 검색 결과물이 누락되지 않도록 하는 "키워드 추출 장치 및 방법"을 제안한 바 있다.On the other hand, in the patent document 10-188020 (R2), a keyword extracting apparatus and method are proposed in which keywords extracted from Internet posts or posts are further extracted as related search terms and the Internet is re-searched so that the search results are not omitted There is a bar.
또한, 등록특허 10-1052631(R3)는 동일 시간대에 발생하는 키워드를 참조하여 키워드와 연관어 사이의 하이어라키 구조를 구축하고 하이어라키 구조를 이용하여 복수의 키워드를 동일 개념의 그룹으로 그루핑하는 "동시발생빈도를 이용한 검색어에 대한 연관어 제공방법 및 이를 이용한 장치"를 제안한 바 있다.In addition, in Patent Reference 10-1052631 (R3), a hierarchical structure between a keyword and an association is established by referring to a keyword occurring in the same time zone, and a "simultaneous occurrence " A method of providing a related word to a query using frequency and a device using the same.
R1, R2 및 R3을 통해 예시한 바와 같이, 종래의 연관어 검색방법은 사용자가 의도한 검색 결과물을 최대한 확보하는데 초점이 맞추어져 있으며, 사용자가 입력한 키워드의 범위와 연관성이 적은 새로운 정보를 찾아내는데 한계를 갖는다.As exemplified through R1, R2 and R3, the conventional associative language search method focuses on maximizing the retrieval result intended by the user and finds new information that is not related to the range of the keyword inputted by the user It has limitations.
본 발명의 목적은 의도된 키워드 입력을 통해 정보를 구하지 않으며, 이슈가 되는 핵심 키워드와 연관성이 가장 낮은 연관 키워드 그룹을 구한 뒤, 이를 이용하여 핫 이슈가 될 가능성이 있는 이슈 데이터를 추출하는 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템을 제공함에 있다.An object of the present invention is to provide a method and an apparatus for searching for a related keyword group that does not obtain information through an input of an intended keyword and which has an association keyword group having the lowest relevance to an issue key keyword, The present invention also provides a method and system for extracting issue data.
위와 같은 목적을 달성하기 위하여, 본 발명의 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출방법은 연관 키워드 추출단계, 정렬 단계 및 이슈 데이터 분류단계를 포함하여 구성될 수 있다.In order to achieve the above object, an artifact data extraction method using an associated keyword according to an embodiment of the present invention may include an association keyword extraction step, an alignment step, and an issue data classification step.
연관 키워드 추출단계는 웹 수집을 통해 웹 페이지에서의 노출 빈도를 참조하여 핵심 키워드를 추출하고, 핵심 키워드와 동반 노출되는 복수의 연관 키워드를 추출하는 단계에 대응하고, 정렬 단계는, 연관 키워드들을 노출 빈도가 낮은 순서에 따라 정렬하는 단계에 대응하며, 이슈 데이터 분류단계는 노출 빈도가 낮은 순서에 따라 정렬된 연관 키워드들 중 적어도 하나를 이슈 데이터로 분류하는 단계에 해당할 수 있다.The related keyword extraction step corresponds to a step of extracting core keywords by referring to the frequency of exposure in the web page through web collection and extracting a plurality of related keywords exposed with the core keyword, And the step of sorting the issue data may correspond to the step of sorting at least one of the related keywords sorted according to the order of the low exposure frequency into the issue data.
위와 같은 목적을 달성하기 위하여, 본 발명의 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템은 핵심 키워드 추출부, 연관 키워드 추출부 및 이슈 데이터 추출부를 포함하여 구성될 수 있다.In order to achieve the above object, an issue data extraction system using an associated keyword according to an embodiment of the present invention may include a core keyword extracting unit, a related keyword extracting unit, and an issue data extracting unit.
핵심 키워드 추출부는 네트워크 접속되는 복수의 웹 페이지에 접속하여 웹 페이지에 분포하는 키워드를 웹 페이지 또는 스트링(String) 단위로 수집하고, 핵심 키워드 추출부는 키워드들 중 노출 빈도가 가장 높은 것부터 사용자 설정된 제1노출 빈도 순위에 대응하는 키워드를 핵심 키워드로 분류하고, 연관 키워드 추출부는 핵심 키워드와 스트링 또는 웹 페이지 단위로 동반 노출되는 연관 키워드를 추출하며, 이슈 데이터 추출부는 연관 키워드 중 노출 빈도가 가장 낮은 노출 빈도 순위부터 사용자 설정된 제2노출 빈도 순위에 대응하는 것을 이슈 데이터로 분류할 수 있다.The core keyword extracting unit accesses a plurality of web pages connected to the network and collects keywords distributed in a web page on a web page or a string basis. The core keyword extracting unit extracts, from among the keywords, And the related keyword extracting unit extracts keywords related to the core keyword and related keywords exposed in association with a string or a web page, and the issue data extracting unit extracts keywords corresponding to the frequency of exposure with the lowest exposure frequency It is possible to classify the items corresponding to the second exposure frequency rank set by the user as the issue data.
본 발명에 따르면 정해진 키워드를 이용하지 않고도 사회적으로 이슈화될 사안과 관련된 핫 이슈 데이터를 추출할 수 있다. 본 발명은 어떤 의도를 가지고 이슈에 접근하는 대신, 웹 공간을 통해 의도하지 않은 핫 이슈를 찾아내는데 이용될 수 있다.According to the present invention, it is possible to extract hot issue data related to a socially-related issue without using a predetermined keyword. The present invention can be used to find unintentional hot issues through the web space instead of accessing the issue with some intention.
도 1은 본 발명의 일 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템에 대한 개념도를 도시한다.
도 2는 종래의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면을 도시한다.
도 3은 실시예에 따른 이슈 데이터 시스템의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면을 도시한다.
도 4는 실시예에 따른 이슈 데이터 시스템이 연관 키워드들 중에서 이슈 데이터를 추출하는 방법에 대한 참조도면을 도시한다.
도 5는 본 발명에 따른 연관 키워드를 이용한 이슈 데이터 추출방법에 따른 흐름도를 도시한다.1 is a conceptual diagram of an issue data extraction system using an associated keyword according to an embodiment of the present invention.
FIG. 2 illustrates a conceptual representation of a related art query extraction method.
FIG. 3 is a conceptual diagram illustrating a method of extracting an associated keyword in an issue data system according to an embodiment of the present invention.
FIG. 4 illustrates a reference diagram of a method for extracting issue data from among associated keywords according to an embodiment of the present invention.
5 is a flowchart illustrating an issue data extraction method using a related keyword according to the present invention.
본 명세서에서 언급되는 사용자 단말기는, 퍼스널 컴퓨터, 노트북, 스마트폰 및 기타 메모리, 프로세서 및 디스플레이장치를 구비하는 다양한 컴퓨팅 장치를 의미할 수 있다.User terminals as referred to herein may refer to a variety of computing devices, including personal computers, notebooks, smart phones, and other memory, processors, and display devices.
본 명세서에서 언급되는 이슈 데이터는 텍스트, 이미지, 동영상 또는 이들이 선택적으로 조합된 형태일 수 있다.The issue data referred to herein may be in the form of text, images, moving images, or an optional combination thereof.
본 명세서에서 언급되는 웹 페이지는 기업이나 사업체의 웹 페이지, 개인 홈페이지, 블로그, 온라인 쇼핑몰, 언론사 웹 페이지, 트위터, 블로그, 페이스북, 및 포털과 같은 다양한 형태의 것을 지칭할 수 있으며, 이 외에도 인터넷을 통해 접근 가능한 콘텐츠를 구비하는 경우에도 웹 페이지라 지칭할 수 있다.
The web page referred to in this specification may refer to various forms such as a web page of a corporation or a business, a personal homepage, a blog, an online shopping mall, a press web page, a Twitter, a blog, a facebook and a portal. Quot; web page " may be referred to as " web page ".
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Note that, in the drawings, the same components are denoted by the same reference symbols as possible. Further, the detailed description of known functions and configurations that may obscure the gist of the present invention will be omitted. For the same reason, some of the components in the drawings are exaggerated, omitted, or schematically illustrated.
도 1은 본 발명의 일 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템에 대한 개념도를 도시한다.1 is a conceptual diagram of an issue data extraction system using an associated keyword according to an embodiment of the present invention.
도 1을 참조하면, 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템(이하, "이슈 데이터 시스템"이라 함)(100)은 핵심 키워드 추출을 위해, 네트워크 접속되는 복수의 웹 페이지를 통해 키워드를 수집할 수 있다. 도 1에서는 페이스 북(Face book), 트위터(Twitter), 포털(Portal) 및 블로그(Blog)를 통해 웹 페이지 단위로 키워드를 수집하거나 콘텐츠 단위로 키워드를 수집할 수 있다. 예시된 웹 페이지 이외에도, 개인 홈페이지, 언론사 웹 페이지, 온라인 마켓 및 기타 다양한 형태의 웹 페이지가 핵심 키워드 추출에 이용될 수 있다.Referring to FIG. 1, an issue data extraction system (hereinafter referred to as "issue data system") 100 using a related keyword according to an embodiment extracts a keyword through a plurality of web pages connected to the network Can be collected. In FIG. 1, keywords can be collected on a per-web page basis or on a per-content basis through a face book, a Twitter, a portal, and a blog. In addition to the illustrated web page, a personal homepage, a media web page, an online marketplace, and various other types of web pages may be used for key keyword extraction.
실시예에 따른 이슈 데이터 시스템(100)은 별도의 검색 키워드를 이용하지 않는 특징이 있다. 실시예에 따른 이슈 데이터 시스템(100)은 이슈 데이터 시스템(100)을 관리하는 사용자로부터 별도의 검색어를 제공받지 않으며, 기준기간 동안(예컨대 수 일(日) 내지 수 년(年)) 정해진 그룹의 웹 페이지를 통해 검색어를 획득하여 핵심 키워드를 추출하거나, 랜덤하게 선택되는 웹 페이지에서 수집된 키워드를 이용하여 핵심 키워드를 추출할 수 있다.The
이때, 이슈 데이터 시스템(100)은 기준기간 동안 수집된 키워드를 토대로 핵심 키워드를 추출할 수 있는데, 이는 사회적인 이슈라는 것이 일정기간 동안만 유효한 경우가 많은데 따른다. 이슈 데이터 시스템(100)이 오래된 과거부터 현재까지의 키워드 전체를 대상으로 핵심 키워드를 추출하는 경우, 과거의 대형 이슈인 사건에 대한 검색결과가 핵심 키워드 선택에 영향을 끼칠 수 있는데 이러한 과거 이슈에 대한 영향을 최소화하기 위해, 이슈 데이터 시스템(100)은 기준기간 동안의 검색 결과를 이용하여 핵심 키워드를 추출할 수 있다.At this time, the
이슈 데이터 시스템(100)은 웹 페이지로부터 수집한 키워드의 노출 빈도를 참조하여 하나 또는 둘 이상의 핵심 키워드를 추출할 수 있다. 이때, 이슈 데이터 는 사용자가 이슈 데이터 시스템(100)에 별도의 검색 키워드를 입력하지 않는 상태에서 자동으로 추출될 수 있다.The
핵심 키워드가 추출되면, 이슈 데이터 시스템(100)은 각 웹 페이지에서 핵심 키워드를 포함하는 스트링(String) 또는 문단에서 연관 키워드를 추출할 수 있다. 여기서, 스트링은 하나의 문장 또는 문구를 의미할 수 있으며, 통상 핵심 키워드를 포함하는 스트링은 핵심 키워드와 관련이 있는 내용으로 구성되는 바, 핵심 키워드를 포함하는 스트링에서 연관 검색어를 추출하는 경우, 연관 검색어는 핵심 키워드와 높은 연관성을 갖는 것으로 판단할 수 있다.When the core keyword is extracted, the
실시예에 따른 이슈 데이터 시스템(100)은 핵심 키워드를 추출한 후, 아래의 방법에 따라 연관 검색어를 추출할 수 있다.The
1) 핵심 키워드를 추출한 웹 페이지(이하, 제1페이지라 함) 또는 핵심 키워드를 추출한 웹 페이지의 스트링에서 연관 검색어를 추출하는 방법.1) A method of extracting related keywords from a web page extracted from a core keyword (hereinafter referred to as a first page) or a string of a web page extracted from a core keyword.
2) 핵심 키워드를 추출 후, 제1페이지를 제외한 타 페이지(이하, 제2페이지라 함)에서 연관 검색어를 추출하는 방법.2) extracting the related keyword from another page (hereinafter referred to as the second page) excluding the first page after extracting the core keyword.
3) 핵심 키워드를 추출 후, 제1페이지 및 제2페이지에서 연관 검색어를 추출하는 방법.(제1페이지에서 추출하는 연관 검색어는 핵심 키워드를 포함하는 스트링 또는 문단에서 추출하고, 제2페이지에서는 핵심 키워드를 검색 키워드로 하여 추출할 수 있다.)3) A method of extracting related keywords from the first page and the second page after extracting the core keyword. (The related keyword extracted from the first page is extracted from a string or paragraph including the core keyword, Keywords can be extracted as search keywords.)
1)의 연관 키워드 추출 방법은 핵심 키워드와 관련성이 보장되는 연관 키워드를 추출하는데 유용하고,1) is useful for extracting related keywords that are related to core keywords,
2)의 연관 키워드 추출 방법은 핵심 키워드를 포함하는 스트링이나 웹 페이지를 회피함으로써, 제1페이지와 관련되지 않은 새로운 이슈를 찾는데 유용하며,2) is useful for finding new issues that are not related to the first page by avoiding a string or web page containing a keyword,
3)의 연관 키워드 추출방법은 핵심 키워드와의 연관성을 유지하면서 새로운 이슈를 찾기 위해 절충된 연관 키워드 추출방법에 대응할 수 있다. 3) can cope with a compromised related keyword extraction method to find a new issue while maintaining association with the core keyword.
이슈 데이터 시스템(100)은 연관 키워드를 하나 또는 복수 개 추출할 수 있으며, 추출된 연관 키워드를 노출 빈도가 낮은 순서에 따라 정렬할 수 있다. The
이는 본 실시예에서 매우 중요한 개념으로, 통상의 키워드 검색이나 연관 검색이 노출 빈도가 높은 순서에 따라 정렬되는 반면, 실시예에 따른 이슈 데이터 시스템(100)은 노출 빈도가 낮은 순서에 따라 연관 키워드를 정렬하고, 이를 통해 이슈를 찾아낸다는데 그 특징이 있다. 종래의 연관 검색어 추출방법과 실시예에 따른 이슈 데이터 시스템(100)의 연관 검색어 추출 방법은 도 2와 도 3을 함께 참조하여 설명하도록 한다.This is a very important concept in the present embodiment, in which the normal keyword search or the related search is arranged in the order of high exposure frequency, whereas the
먼저, 도 2는 종래의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면으로서, 도 2에 도시된 바와 같이, 종래의 연관 검색어 추출 방법은 검색 키워드(11)를 사용자가 검색창(10)에 입력하고, 검색창(10)에 입력된 검색 키워드와 연관된 연관 키워드를 사용자에게 제시하는 것을 알 수 있다.FIG. 2 is a conceptual representation of a conventional related term extraction method. As shown in FIG. 2, in the conventional related term extraction method, a user inputs a
예컨대, 검색 키워드(11)가 "카드유출"인 경우 종래의 검색 시스템은 검색 키워드(카드유출)(11)과 동반 노출되는 노출 빈도가 높은 연관 검색어로서 "재발급", "국민카드", "2차 유출", '2차 피해", "개인정보" 및 "카드번호"와 같은 연관 검색어를 추출하여 사용자에게 제공한다. 이러한 연관 검색어는 검색 키워드와 동반 노출되는 노출 빈도가 높을 것이 요구되는데, 이는 사용자가 원하는 검색 키워드를 확장하는 개념인데 따른다.For example, when the
다음으로, 도 3은 실시예에 따른 이슈 데이터 시스템(100)의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면으로서, 도 3을 참조하면, 이슈 데이터 시스템(100)은 핵심 키워드(카드유출)와의 동반 노출 빈도가 가장 낮은 연관 키워드를 중심으로 정렬하는 것을 볼 수 있다. Referring to FIG. 3, the
도 3에서, 이슈 데이터 시스템(100)은 "카드유출"이라는 핵심 키워드를 통해 추출한 연관 키워드들 중 노출 빈도 또는 핵심 키워드와의 동반 노출 빈도(스트링 내에서의 동반 노출 빈도 또는 문단 내에서의 동반 노출 빈도)가 가장 낮은 "재보선", "배후" 및 "김의원"과 같은 연관 검색어를 중심으로 정렬하고, 이들 연관 키워드를 핵심 키워드와 조합하여 "카드유출-배후", "카드유출-재보선" 및 "카드유출-김의원"과 같은 키워드 셋을 형성할 수 있다. 상기한 키워드 셋은 도 2를 통해 예시된 "국민카드-개인정보", "국민카드-카드번호"와 같은 연관 키워드와는 달리 가장 노출 빈도가 낮은 경우에 속하므로, 아직 세상에 널리 알려지지 않은 이슈거나, 사실 확인이 요구되는 이슈일 가능성이 크고, 이러한 이슈는 현재까지 대중적인 내용을 포함하지 않기에, 핫 이슈(Hot issue)로서의 역할이 기대된다고 볼 수 있다.In FIG. 3, the
도 3에서, S1 영역은 실시예에 따른 이슈 데이터 시스템(100)이 연관 검색어를 노출 빈도가 낮은 순서에 따라 정렬하여 이슈 데이터를 추출한 것을 예시하는 반면, S2 영역은 종래의 연관 검색어가 정렬되는 것을 예시하여 종래의 연관 검색어 추출방법과 실시예에 따른 이슈 데이터 시스템(100)의 연관 검색어 추출방법이 대비되도록 나타내고 있다.In FIG. 3, the S1 region illustrates that the
S2 영역에 도시된 종래의 연관 검색어 추출방법에 따르면, 핵심 키워드로서 "카드유출"이 추출되었다고 가정할 때, "국민카드", "카드번호" 및 "개인정보"와 같은 키워드가 연관 키워드로서 추출되는데, 이러한 연관 검색어는 사실 핵심 키워드(카드유출)에 대한 새로운 이슈를 유발하기 어려운 것들이며, 기존의 이슈가 유지될 뿐 새로운 이슈를 유도하기 어려운 측면이 있다. According to the conventional related keyword extraction method shown in the S2 area, when it is assumed that "card outflow" is extracted as a core keyword, keywords such as " However, these related search terms are difficult to induce new issues on core keywords (card outflow), and it is difficult to induce new issues as existing issues are maintained.
반면, S1 영역에 도시된 실시예에 따른 연관 검색어 추출방법에 따르면, 핵심 검색어가 "카드유출"일 때, 이에 연관되는 연관 검색어가 "재보선", "배후" 및 "김의원"과 같으므로, 핵심 검색어(카드유출)와 연동될 때, 파괴적인 이슈를 창출할 가능성이 크며 이슈 연관성이 높다고 할 수 있다. 이처럼, 실시예에 따른 이슈 데이터 시스템(100)은 사용자가 어떠한 이슈를 찾기 위해, 검색어를 조합하거나 찾을 필요가 없으면서도 훗날 핫 이슈화될 정보를 자동으로 추출할 수 있다는 점에서, 기존의 연관 검색어 추출방법과 차별될 수 있다.On the other hand, according to the related term retrieval method according to the embodiment shown in the S1 region, when the core retrieval word is "card outflow ", the related retrieval words associated with it are the same as" retransmission ", " When interworking with a search term (card outflow), there is a high possibility of creating destructive issues and high relevance of issues. In this way, the
도 1에서, 실시예에 따른 이슈 데이터 시스템(100)은 웹 페이지에서 핵심 키워드를 추출 후, 핵심 키워드를 포함하는 스트링이나 문단 또는 콘텐츠에서 연관 키워드를 추출한다고 언급한 바 있다. 이슈 데이터 시스템(100)이 연관 키워드를 추출할 때, 노출 빈도의 순서에 따라 이슈 데이터를 최종 결정할 수 있다. 이는 도 4를 함께 참조하여 설명하도록 한다.In FIG. 1, the
도 4는 실시예에 따른 이슈 데이터 시스템이 연관 키워드들 중에서 이슈 데이터를 추출하는 방법에 대한 참조도면을 도시한다.FIG. 4 illustrates a reference diagram of a method for extracting issue data from among associated keywords according to an embodiment of the present invention.
도 4를 참조하면, 실시예에 따른 이슈 데이터 시스템(100)은 핵심 키워드(11)에 대한 연관 키워드가 노출되는 노출 빈도가 가장 낮은 것(A1)부터 높은 것(An)의 순서에 따라 정렬하며, 정렬된 연관 키워드(A1 ∼ An) 중 사용자 설정된 순위, 또는 비율에 따라 최종적으로 이슈 데이터가 선택될 수 있다.
Referring to FIG. 4, the
예컨대, 이슈 데이터 시스템(100)을 제어하는 사용자가 있고, 해당 사용자가 노출 빈도가 가장 낮은 것(A1)부터 세 번째 순위에 대응하는 것(A3) 까지를 이슈 데이터로 설정한다고 가정하면, 이슈 데이터는 A1 ∼ A3이 해당될 수 있다. For example, assuming that there is a user who controls the
다른 한편, 이슈 데이터 시스템(100)은 사용자 설정된 비율에 따라 이슈 데이터를 선택할 수도 있다. 예컨대, A1 ∼ An 중 노출 빈도가 0.1% 이하와 같은 조건에 따라 이슈 데이터를 선택할 수도 있으며, 이 경우, 이슈 데이터는 복수 개가 선택될 수 있다. On the other hand, the
바람직하게는, 이슈 데이터 시스템(100)은 핵심 키워드 추출부(110), 연관 키워드 추출부(120), 이슈 데이터 추출부(130), 부가정보 추출부(140) 및 데이터베이스(150)를 포함하여 구성될 수 있다. Preferably, the
핵심 키워드 추출부(110)는 페이스 북(Face book), 트위터(Twitter), 포털(Portal) 및 블로그(Blog)를 통해 웹 페이지 단위로 키워드를 수집하거나 콘텐츠 단위로 키워드를 수집할 수 있다. 예시된 웹 페이지 이외에도, 개인 홈페이지, 언론사 홈페이지, 개인 홈페이지, 온라인 마켓 및 기타 다양한 형태의 웹 페이지가 핵심 키워드 추출에 이용될 수 있다. 한편, 핵심 키워드 추출부(110)는 별도의 검색 키워드를 요구하지 않는다. 별도의 검색 키워드를 요구하는 대신, 핵심 키워드 추출부(110)는 웹 페이지를 통해 다양한 정보를 웹 스크롤링하며, 웹 스크롤링된 정보를 구성하는 키워드를 수집하고, 수집된 키워드들의 노출 빈도를 참조하여 현재 이슈가 되는 핵심 키워드를 판단할 수 있다. 이때, 핵심 키워드 추출부(110)는 노출 순위 또는 노출 비율에 따라 핵심 키워드를 추출할 수 있으며, 노출 순위는 가장 노출 빈도가 높은 것부터 이슈 데이터 시스템(100)을 관리하는 사용자가 설정한 노출 순위에 따라 결정되거나, 사용자 설정된 노출 비율에 따라 결정될 수 있다. 다만 한정하지는 않는다. The core
연관 키워드 추출부(120)는 핵심 키워드 추출부(110)에서 추출된 핵심 키워드를 이용하여 연관 키워드를 추출할 수 있다. 연관 키워드 추출부(120)는 핵심 키워드를 포함하는 스트링, 문단 또는 웹 콘텐츠에서 연관 키워드를 추출할 수 있다. 연관 키워드 추출부(120)는 핵심 키워드와 동일한 스트링에서 노출되는 연관 키워드, 핵심 키워드를 포함하는 문단에서 함께 노출되는 연관 키워드 또는 핵심 키워드를 포함하는 스트링이나 콘텐츠를 제외한 타 스트링이나 콘텐츠에서 추출될 수도 있다. The related
이슈 데이터 추출부(130)는 연관 키워드 추출부(120)에서 추출된 연관 키워드들 중 노출 빈도가 가장 낮은 노출 빈도 순위부터 사용자 설정된 노출 빈도 순위에 대응하는 연관 키워드를 이슈 데이터로 추출할 수 있다. 또는 이슈 데이터 추출부(130)는 사용자 설정된 노출 빈도에 따라 이슈 데이터를 추출할 수도 있다. 예컨대, 이슈 데이터 추출부(130)는 핵심 키워드와의 동반 노출 빈도가 0.1% 이하인 연관 키워드를 이슈 데이터로 선택할 수 있다.The issue
부가정보 추출부(140)는 이슈 데이터를 검색 키워드로 하여 웹 페이지에 대해 재 검색을 수행하며, 이를 통해, 이슈 데이터와 관련된 텍스트, 동영상 및 이미지와 같은 부가정보를 추출할 수 있다.The additional
부가정보 추출부(140)는 이슈 데이터와 관련된 이미지를 위주로 검색하게 되는데, 이를 통해 텍스트 검색 기반의 이슈 데이터에 이미지 정보를 부가하여 멀티미디어 정보의 형태로 구현하기 위한 것이다. 멀티미디어 정보로 구현된 이슈 데이터는 텍스트와 이미지(예컨대, 사진)로 구성될 수 있는데, 이 경우, 멀티미디어 정보로 구현된 이슈 데이터는 핫 이슈를 필요로 하는 업종(뉴스 미디어, 방송, 및 출판)의 종사자들이 핫 이슈를 쉽게 찾아 이용할 수 있도록 한다.The additional
데이터베이스(150)는 핵심 키워드 추출부(110)에서 웹 스크롤링을 할 때, 웹 스크롤링된 로우(Raw) 데이터를 저장하고, 핵심 키워드 추출부(110)에서 로우(Raw) 데이터를 이용하여 핵심 키워드를 추출하는데 이용될 수 있다. 또는 데이터베이스(150)는 연관 검색어 추출부(120)에서 추출된 연관 키워드를 기준기간 단위로 저장하거나, 또는 기준기간 단위로 추출된 이슈 데이터를 기준기간 단위로 저장해둘 수 있다. 이 외에 데이터베이스(150)는 부가정보 추출부(140)에서 이슈 데이터를 검색 키워드로 하여 검색된 부가정보를 핵심 키워드, 연관 키워드 또는 이슈 데이터와 연동시켜 저장할 수 있다.The
도 5는 본 발명에 따른 연관 키워드를 이용한 이슈 데이터 추출방법에 따른 흐름도를 도시한다. 도 5에 대한 설명은 도 1 내지 도 4를 함께 참조하여 설명하도록 한다.5 is a flowchart illustrating an issue data extraction method using a related keyword according to the present invention. 5 will be described with reference to Figs. 1 to 4. Fig.
도 5를 참조하면 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출방법은 먼저, 이슈 데이터 시스템(100)이 네트워크 접속되는 웹 페이지에 봇(Bot) 또는 웹 수집 프로그램을 이용하여 웹 스크롤링(Web scrolling)을 하여 웹 페이지에 포함되는 키워드를 추출할 수 있다. 추출된 키워드는 데이터베이스(150)에 저장되고, 데이터베이스(150)에 저장된 키워드들은 핵심 키워드 추출부(110)를 통해 노출 빈도가 높은 순위에 해당하는 것을 핵심 키워드로 추출할 수 있다(S201). 다음으로, 연관 키워드 추출부(120)는 핵심 키워드 추출부(110)에서 추출된 핵심 키워드와 동반 노출되는 연관 키워드를 추출할 수 있다(S202).5, in the issue data extraction method using the related keyword according to the embodiment, the
연관 키워드는 핵심 키워드와 동일 스트링이나 문단에서 추출하거나, 핵심 키워드를 포함하는 웹 콘텐츠에서 추출할 수 있으며, 이 외에도 핵심 키워드가 포함되는 스트링, 문단 및 웹 콘텐츠를 제외한 타 스트링, 타 문단 및 타 웹 콘텐츠에서 수집될 수도 있다. 다만 한정하지는 않는다.Related keywords can be extracted from the same string or paragraph as the core keyword, or extracted from the web content containing the core keyword. In addition, other keywords such as string, paragraph and web content, other string, May be collected from the content. However, it is not limited.
연관 키워드를 추출 후, 이슈 데이터 시스템(100)은 희소성 여부를 판단할 수 있다(S203).After extracting the related keyword, the
희소성의 높고 낮음은 핵심 키워드에 대한 연관 키워드들 중 핵심 키워드와 동반 노출되는 노출 빈도가 가장 낮은 것을 기준으로 노출 빈도 순위 또는 노출 비율에 따라 결정될 수 있다. The high and low scarcity can be determined according to the exposure frequency ranking or the exposure ratio, based on the lowest exposure frequency associated with the core keyword among the related keywords of the core keyword.
일 예로서, 노출 빈도가 가장 낮은 연관 키워드를 1순위로 하여, 그 다음 낮은 연관 키워드를 2순위로 하는 방식으로 정렬할 수 있으며, 정렬된 결과를 하나의 리스트로 형성할 수 있다(S204). 다음으로, 이슈 데이터 시스템(100)은 생성된 리스트에서 노출 빈도 순위 또는 노출 비율에 따라 이슈 데이터를 최종 추출할 수 있다(S205). 반면, 연관 키워드들 중 희소성이 높은 경우에는 일반적인 핵심 키워드로 분류하며(S205), 일반 핵심 키워드 중에서는 이슈 데이터를 추출하지 않고 이슈 데이터 추출을 종료한다.As an example, the related keywords having the lowest exposure frequency may be ranked first, the second lowest related keywords may be ranked second, and the sorted results may be formed into one list (S204). Next, the
한편, 본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명이 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.It should be noted that the embodiments of the present invention disclosed in the present specification and drawings are only illustrative of the present invention in order to facilitate description of the present invention and to facilitate understanding of the present invention and are not intended to limit the scope of the present invention. It will be apparent to those skilled in the art that other modifications based on the technical idea of the present invention are possible in addition to the embodiments disclosed herein.
100 : 이슈 데이터 시스템 110 : 핵심 키워드 추출부
120 : 연관 키워드 추출부 130 : 이슈 데이터 추출부
140 : 부가정보 추출부 150 : 데이터베이스100: Issue data system 110: Core keyword extracting unit
120: Associative keyword extracting unit 130: Issue data extracting unit
140: additional information extracting unit 150:
Claims (8)
웹 수집을 통해 웹 페이지에서의 노출 빈도를 참조하여 핵심 키워드를 추출하고, 상기 핵심 키워드와 동반 노출되는 복수의 연관 키워드를 추출하는 단계;
상기 연관 키워드들을 노출 빈도가 낮은 순위에 따라 정렬하는 단계; 및
상기 노출 빈도가 낮은 순위에 따라 정렬된 연관 키워드들 중 적어도 하나를 이슈 데이터로 분류하는 단계;를 포함하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.And an issue data extraction server for collecting keywords by accessing a plurality of web pages connected to the network,
Extracting a core keyword by referring to an exposure frequency in a web page through web collection, and extracting a plurality of related keywords exposing the core keyword;
Arranging the related keywords according to the ranking in which the exposure frequency is low; And
And sorting at least one of the related keywords sorted according to the order of low exposure frequency as issue data.
상기 이슈 데이터는,
상기 노출 빈도가 가장 낮은 것부터 사용자 설정된 노출 빈도 순위에 대응하는 연관 키워드인 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.The method according to claim 1,
The issue data includes:
Wherein the related keyword is a related keyword corresponding to a user-set exposure frequency ranking from the lowest exposure frequency.
상기 연관 키워드는,
동일 스트링(String) 내에서 상기 핵심 키워드와 동반 노출되는 키워드 또는 동일 웹 페이지 내에서 상기 핵심 키워드와 동반 노출되는 키워드 중 적어도 하나인 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.The method according to claim 1,
The associated keyword may include:
Wherein the keyword is at least one of a keyword exposed in association with the core keyword in the same string or a keyword exposed in conjunction with the core keyword in the same web page.
상기 핵심 키워드는,
상기 웹 수집에 의해 노출 빈도가 가장 높은 것부터 사용자 설정된 노출 빈도 순위의 범위 내에서 설정되는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.The method according to claim 1,
The key keyword may include:
Wherein the web page is set within a range of a user-set exposure frequency ranking from the highest exposure frequency by the web collection.
상기 핵심 키워드와 상기 스트링 또는 상기 웹 페이지 단위로 동반 노출되는 연관 키워드를 추출하는 연관 키워드 추출부; 및
상기 연관 키워드 중 노출 빈도가 가장 낮은 노출 빈도 순위부터 사용자 설정된 제2노출 빈도 순위에 대응하는 것을 이슈 데이터로 분류하는 이슈 데이터 추출부;를 포함하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.A plurality of web pages connected to the network and collecting a keyword distributed on a web page in units of a web page or a string, and a keyword corresponding to a user-set first exposure frequency ranking from the highest exposure frequency As a core keyword;
A related keyword extracting unit for extracting the core keyword and the associated keyword exposed in the string or the web page unit; And
And an issue data extracting unit for sorting the corresponding keywords into issue data corresponding to a user-set second exposure frequency ranking from an exposure frequency ranking having the lowest exposure frequency.
상기 이슈 데이터를 키워드로 하여 상기 이슈 데이터와 관련된 부가정보를 추출하는 부가정보 추출부;를 더 포함하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.6. The method of claim 5,
And an additional information extracting unit for extracting additional information related to the issue data using the issue data as a keyword.
상기 웹 수집부는,
상기 웹 페이지에 둘 이상의 콘텐츠가 존재하는 경우, 각 콘텐츠별로 키워드를 추출하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.6. The method of claim 5,
The web collector may include:
Wherein the keyword extraction unit extracts a keyword for each content when at least two contents exist in the web page.
상기 스트링은,
상기 핵심 키워드를 포함하는 문장 및 문단 중 어느 하나인 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.6. The method of claim 5,
The string may include:
Wherein the extracted keyword is one of sentences and paragraphs including the core keyword.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140081204A KR101606758B1 (en) | 2014-06-30 | 2014-06-30 | Issue data extracting method and system using relevant keyword |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140081204A KR101606758B1 (en) | 2014-06-30 | 2014-06-30 | Issue data extracting method and system using relevant keyword |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160002199A true KR20160002199A (en) | 2016-01-07 |
KR101606758B1 KR101606758B1 (en) | 2016-03-28 |
Family
ID=55168894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140081204A KR101606758B1 (en) | 2014-06-30 | 2014-06-30 | Issue data extracting method and system using relevant keyword |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101606758B1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241699A (en) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | For the method and apparatus of pushed information |
KR101941924B1 (en) * | 2018-10-29 | 2019-01-25 | 주식회사 인라이플 | Method for providing association model based intention nano analysis service using cognitive neural network |
KR101976841B1 (en) * | 2018-10-29 | 2019-05-15 | 한경훈 | Method for providing association model based decision making service using cognitive neural network |
KR102001375B1 (en) * | 2019-02-19 | 2019-07-18 | 미래에셋대우 주식회사 | Apparatus and Method for DistinguishingSpam in Financial News |
KR102585107B1 (en) * | 2023-03-21 | 2023-10-06 | 주식회사 중고나라 | Method for managing related search keyword |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100068532A (en) * | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | Apparatus and method for keyword extraction and associative word network configuration of document data |
US20120072406A1 (en) * | 2009-03-17 | 2012-03-22 | Fujitsu Limited | Search processing method and apparatus |
KR20130037976A (en) * | 2011-10-07 | 2013-04-17 | 한국전자통신연구원 | Method and system for detecting related topics and competition topics based on topic templates and association words, related topics and competition topics detecting device |
KR101318843B1 (en) * | 2011-08-30 | 2013-10-17 | 성균관대학교산학협력단 | Blog category classification method and apparatus using time information |
-
2014
- 2014-06-30 KR KR1020140081204A patent/KR101606758B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100068532A (en) * | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | Apparatus and method for keyword extraction and associative word network configuration of document data |
US20120072406A1 (en) * | 2009-03-17 | 2012-03-22 | Fujitsu Limited | Search processing method and apparatus |
KR101318843B1 (en) * | 2011-08-30 | 2013-10-17 | 성균관대학교산학협력단 | Blog category classification method and apparatus using time information |
KR20130037976A (en) * | 2011-10-07 | 2013-04-17 | 한국전자통신연구원 | Method and system for detecting related topics and competition topics based on topic templates and association words, related topics and competition topics detecting device |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241699A (en) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | For the method and apparatus of pushed information |
CN108241699B (en) * | 2016-12-26 | 2022-03-11 | 百度在线网络技术(北京)有限公司 | Method and device for pushing information |
KR101941924B1 (en) * | 2018-10-29 | 2019-01-25 | 주식회사 인라이플 | Method for providing association model based intention nano analysis service using cognitive neural network |
KR101976841B1 (en) * | 2018-10-29 | 2019-05-15 | 한경훈 | Method for providing association model based decision making service using cognitive neural network |
KR102001375B1 (en) * | 2019-02-19 | 2019-07-18 | 미래에셋대우 주식회사 | Apparatus and Method for DistinguishingSpam in Financial News |
KR102585107B1 (en) * | 2023-03-21 | 2023-10-06 | 주식회사 중고나라 | Method for managing related search keyword |
Also Published As
Publication number | Publication date |
---|---|
KR101606758B1 (en) | 2016-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Opinion integration through semi-supervised topic modeling | |
Duan et al. | An empirical study on learning to rank of tweets | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
WO2017020451A1 (en) | Information push method and device | |
Kang et al. | Modeling user interest in social media using news media and wikipedia | |
Pu et al. | Subject categorization of query terms for exploring Web users' search interests | |
CN102708174B (en) | Method and device for displaying rich media information in browser | |
Foley et al. | Learning to extract local events from the web | |
CN107533558B (en) | Venation knowledge panel | |
Zangerle et al. | Using tag recommendations to homogenize folksonomies in microblogging environments | |
US10025783B2 (en) | Identifying similar documents using graphs | |
KR101606758B1 (en) | Issue data extracting method and system using relevant keyword | |
CN103430172A (en) | Search apparatus, search method, and program | |
Hu et al. | Enhancing accessibility of microblogging messages using semantic knowledge | |
US20150206101A1 (en) | System for determining infringement of copyright based on the text reference point and method thereof | |
US20160048575A1 (en) | System and method for topics extraction and filtering | |
CN104090923A (en) | Method and device for displaying rich media information in browser | |
US9904736B2 (en) | Determining key ebook terms for presentation of additional information related thereto | |
Anh et al. | Extracting user requirements from online reviews for product design: A supportive framework for designers | |
KR20110019131A (en) | Apparatus and method for searching information using social relation | |
Xu et al. | Mining Web search engines for query suggestion | |
Brenner et al. | MediaEval Benchmark: Social Event Detection in collaborative photo collections. | |
Hsu et al. | Efficient and effective prediction of social tags to enhance web search | |
CN111259136A (en) | Method for automatically generating theme evaluation abstract based on user preference | |
JP6152333B2 (en) | Apparatus, server, program, and method for specifying summary word corresponding to media content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190410 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20200310 Year of fee payment: 5 |