KR101712507B1 - 마이크로블로그의 개체명 링킹 시스템. - Google Patents

마이크로블로그의 개체명 링킹 시스템. Download PDF

Info

Publication number
KR101712507B1
KR101712507B1 KR1020160145372A KR20160145372A KR101712507B1 KR 101712507 B1 KR101712507 B1 KR 101712507B1 KR 1020160145372 A KR1020160145372 A KR 1020160145372A KR 20160145372 A KR20160145372 A KR 20160145372A KR 101712507 B1 KR101712507 B1 KR 101712507B1
Authority
KR
South Korea
Prior art keywords
entity
name
model unit
result
linking
Prior art date
Application number
KR1020160145372A
Other languages
English (en)
Inventor
노웅기
강상우
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020160145372A priority Critical patent/KR101712507B1/ko
Application granted granted Critical
Publication of KR101712507B1 publication Critical patent/KR101712507B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • G06F17/30893
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • G06F17/30867
    • G06F17/30882

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 기술은 마이크로블로그의 개체명 링킹 시스템에 관한 것이다. 본 기술의 구현 예에 따르면, 지식베이스와 지식 베이스 이외의 외부 자원인 뉴스 기사 등을 활용하여 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈 및 마이크로블로그의 문맥적 정보를 고려함에 따라 개체명 링크 작업을 수행함으로써 짧은 길이의 마이크로블로그 문서내 개체명 링크 작업의 정확도를 높일 수 있는 이점이 있다.

Description

마이크로블로그의 개체명 링킹 시스템. {SMART DELIVERY SYSTEM AND METHOD USING WEARABLE DEVICE }
본 발명은 마이크로블로그의 개체명 링킹 시스템에 관한 것으로, 더욱 상세하게는 마이크로블로그에서 나타나는 개체명의 중의성을 보다 높은 정확도로 해소하며 개체명 링크 작업을 수행할 수 있는 마이크로블로그의 개체명 링킹 시스템에 관한 것이다.
최근 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 네트워크의 출현 등으로 정보량이 급속도로 늘어나고 있다. 따라서 증가하는 정보들 가운데 필요한 정보를 찾기 위한 다양한 연구들이 진행되고 있다. 정보 추출의 한 분야인 개체명 인식과, 인식된 개체명을 특정 개체에 링킹하는 연구들은 방대한 정보 속에서 의미 있는 지식을 추출하기 위해 활발히 시도되고 있다. 개체 링킹(Entity Linking)은 텍스트에 출현한 개체명을 위키피디아와 같은 지식 베이스의 특정 엔트리에 대응시키는 작업이다.
도 1은 지식 베이스를 이용하는 개체 링킹의 예를 도시한다. 도 1에서 왼쪽 텍스트 상자의 굵은 글씨가 중의성을 가지는 개체명“이소라”이고,실선으로 이루어진 화살표가 가리키는“이소라(가수)”가 링킹이 되어야 하는 지식 베이스의 정답 개체명이다.
중의성 해소를 위해 대상 개체명 인접 문맥정보 와 지식 베이스를 외부자원으로 활용하는데,개체명 인접 문맥 정보의 형태는 지식 베이스의 엔트리가 될 수 있다. 예를 들어,왼쪽 텍스트 상자에서는 “이소라의 프로포즈”가 지식 베이스의 엔트리에 존재하는 개체이고,지식 베이스에서 이소라(가수)가 진행한 프로그램이라는 정보를 제공해 주므로,올바르게 중의성을 해소하게 된다.
위와 같이 최근 개체 링킹에 대한 연구들은 지식 베이스를 외부 자원으로 사용하여 실세계의 지식과 의미적인 관련도를 통해 중의성을 해소하는데 중점을 두고 있다.
한편, 대표적인 마이크로블로그 서비스라고 할 수 있는 트윗(Tweet)을 예로 들면, 사용자들이 실시간으로 140자 이내의 트윗이라는 글을 쓰는 행위를 통해 의사소통하는 공간이며 트윗은 개인의 관심 분야나 일상생활, 사회적 이슈 등의 주제에 대해 실시간으로 빠르게 전파되는 특성을 지닌다.
지식 베이스를 사용한 개체 링킹은 신문기사나 블로그 포스트 등에서는 좋은 성능을 보이지만, 마이크로블로그에서는 짧은 텍스트 길이와 마이크로블로그에서는 위와 같이 지식 베이스에 존재하지 않는 실시간으로 이슈가 되고 있는 주제가 다루어지는 특성 때문에 비교적 낮은 성능을 보이는 문제가 있다. 이에 따라 지식 베이스 이외의 외부 자원을 이용하여 위와 같은 특성을 가지는 마이크로블로그에 있어서의 개체 링킹 성능을 높이기 위한 방안이 필요한 실정이다.
1. 한국공개특허(10-2010-00956912)
1. 김영식, 함영균, 김지성, 황도삼, 최기선 (2014). 한국어 텍스트의 개체 URI 탐지 : 품사 태깅 독립적 개체명 인식과 중의성 해소, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 100-106.
본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 지식베이스 뿐만 아니라 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈 및 마이크로블로그의 문맥적 정보를 고려하여 개체명 링크 작업을 수행하는 마이크로블로그의 개체명 링킹 시스템을 제공하는 데 그 목적이 있다.
본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 마이크로블로그 텍스트를 수집하여 개체명을 인식하는 개체명인식부; 인식된 상기 개체명 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력하는 문맥모델부; 웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력하는 이슈모델부; 및 상기 문맥모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하는 것을 특징으로 한다.
바람직하게는, 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력하는 유저모델부를 더 포함하고, 상기 링킹모델부는, 상기 문맥모델부, 유저모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하는 것일 수 있다.
바람직하게는, 상기 문맥모델부는, 상기 중의성 있는 개체명의 후보 엔트리 각각의 지식베이스 페이지에 대하여 상기 비중의성 개체명의 링크 출현 횟수를 계산함에 따라 중의성 해소 결과를 출력하는 것이고, 상기 유저모델부는, 게시자의 과거 게시글을 웹으로부터 전부 또는 일부를 추출하여 좌최장일치법, uni-gram 또는 bi-gram 자질을 이용함에 따라 지식베이스 엔트리 에 해당하는 개체명이 존재하는 개체명 집합을 구축하고, 추출된 상기 과거 게시글로부터 비중의성 개체명의 추출 빈도에 따라 중의성 해소 결과를 출력하는 것이고, 상기 이슈모델부는, 마이크로블로그 텍스트의 게시 날짜의 소정 일수 전후의 뉴스 기사를 수집하고, 지식베이스 엔트리 페이지의 텍스트와 뉴스 기사 페이지의 텍스트 간의 코사인 유사도를 이용하여 각각의 뉴스 기사에 대하여 특정 지식베이스 엔트리를 링크한 페이지를 기반으로 이슈 스코어링을 함에 따라 중의성 해소 결과를 출력하는 것이고, 상기 링킹모델부는, 상기 문맥모델부, 유저모델부, 이슈모델부의 출력 각각에 대하여 가중치 매개변수를 곱한 결과에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것이고, 상기 지식 베이스로 위키피디아를 이용하는 것일 수 있다.
바람직하게는, 상기 문맥모델부는,
Figure 112016107293227-pat00001
(<D>는 링킹되는 문서 D에 나타나는 모든 개체 집합,
Figure 112016107293227-pat00002
는 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016107293227-pat00003
는 중의성 개체가 나타나는 문서 D에 존재하는 i번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고, 상기 유저모델부는,
Figure 112016107293227-pat00004
(
Figure 112016107293227-pat00005
는 중의성이 해소되어야 하는 개체명에 대하여 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016107293227-pat00006
는 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고, 상기 이슈분석부는,
Figure 112016107293227-pat00007
( <D>는 링킹되는 문서 D에 나타나는 모든 개체 집합,
Figure 112016107293227-pat00008
는 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016107293227-pat00009
Figure 112016107293227-pat00010
를 주제로 하는 i번 째 뉴스기사,
Figure 112016107293227-pat00011
는 모든
Figure 112016107293227-pat00012
의 집합,
Figure 112016107293227-pat00013
는 중의성 개체가 나타나는 문서 D에 존재하는 k번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고, 상기 통합분석부는,
Figure 112016107293227-pat00014
(E는 중의성이 해소되어야 하는 개체명임)의 식에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것일 수 있다.
전술한 바와 같은 본 발명에 따르면, 지식베이스와 지식 베이스 이외의 외부 자원인 뉴스 기사 등을 활용하여 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈 및 마이크로블로그의 문맥적 정보를 고려함에 따라 개체명 링크 작업을 수행함으로써 짧은 길이의 마이크로블로그 문서내 개체명 링크 작업의 정확도를 높일 수 있다.
도 1은 지식 베이스를 이용하는 개체 링킹의 예를 도시한다.
도 2은 본 발명의 일 실시예에 따른 마이크로블로그 개체명 링킹 시스템의 구조에 대한 개념도를 도시한다.
도 3은 본 발명의 일 실시예에 따른 마이크로블로그의 개체명 링킹 시스템의 블록도를 도시한다.
도 4은 본 발명의 일 실시예에 따른 유저모델의 구조에 대한 개념도를 도시한다.
도 5은 본 발명의 일 실시예에 따른 이슈 모델의 구조에 대한 개념도를 도시한다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
본 발명에서 엔트리는 개체와 동일한 의미로 사용될 수 있으며 각 페이지의 텍스트가 설명하는 대상을 나타낸다. 또한 페이지의 텍스트 내에는 의미적 관계를 가지는 다른 개체들의 페이지들이 링크로 나타난다. 다시 말해, 위키피디아 개체들 사이에 링크가 존재하면, 개체들은 의미적 관계를 갖는다. 여기서 페이지란 웹 페이지로 이해될 수 있다. 또한 본 발명에서 개체 링킹이란 개체명을 인식하여 링크하는 작업이라고 할 수 있다. 본 발명에서 지식 베이스는 바람직하게는 위키피디아 일 수 있으며, 위키피디아에 적용되는 기술이라고 하더라도 유사한 다른 지식 베이스에 얼마든지 적용가능하며, 마찬가지로 트윗을 예로 들더라도 트윗과 유사한 기타 마이크로블로그 서비스에도 얼마든지 적용이 가능하다.
본 발명에서 제안하는 시스템은 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈, 그리고 트윗 발언 내의 문맥적 정보를 고려하는 방법을 적용한다.
도 2는 본 발명의 일 실시예에 따른 마이크로블로그 개체명 링킹 시스템의 구조에 대한 개념도를 도시한다.
제안하는 시스템은 도 2을 참조하면 세 가지 모델로 구성될 수 있다. 문맥 모델(Contexual model), 사용자 모델(User model), 이슈 모델(Issue model)로 이루어지고 링킹 모델(Linking model)이 이들을 통합하는 구조이다.
문맥 모델은 중의성을 가지는 개체명 주변 문맥의 비중의성 공기 개체들을 사용하여 중의성을 해소할 수 있다.
사용자 모델은 중의성을 해소하고자 하는 개체명을 포함한 트윗을 게시한 사용자의 마이크로블로그 계정의 기록 기타 웹에 존재하는 기록의 전부 또는 일부를 수집하여 중의성을 해소할 수 있다.
이슈 모델은 위키피디아와 같은 지식 베이스에서 다루지 않는 자질을 외부 자원인 뉴스 기사로부터 추출할 수 있다.
링킹 모델은 세 모델의 출력을 통합 분석하여 가장 가능성이 높은 후보 엔트리를 결정하여 개체명을 링킹한다.
본 발명은 개체명을 인식하는 개체명인식부와 위 각 모델들이 구현된 문맥모델부, 유저모델부, 이슈모델부, 링킹모델부를 포함하여 구성될 수 있다.
도 3은 본 발명의 일 실시예에 따른 마이크로블로그의 개체명 링킹 시스템의 블록도를 도시한다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 마이크로블로그의 개체명 링킹 장치는 개체명인식부(100), 문맥모델부(200), 이슈모델부(300), 링킹모델부(500)를 포함한다. 또한, 유저모델부(400)를 더 포함할 수 있다.
개체명인식부(100)는 마이크로블로그 텍스트를 수집하여 개체명을 인식한다. 예를 들면, 개체명인식부(100)는 개체명 링크 작업을 수행하고자 하는 마이크로블로그 텍스트를 웹으로 부터 수집하고, 수집된 마이크로블로그 텍스트에 포함된 개체명을 인식한다.
개체 링킹을 위해서는 대상으로 하는 개체들을 파악해야 하므로 개체명 인식을 수행한다. 지식 베이스 기반 개체 링킹에서의 개체명 인식은 텍스트 내 모든 가능한 지식 베이스에 존재하는 개체들의 정규화된 명칭들의 후보 엔트리를 추출하는 것일 수 있다. 예를 들면, ‘이소라’라는 개체에 일반적인 개체명 인식에서는 “PER”등의 클래스로 분류하지만, 지식 베이스 개체명 인식에서는 “이소라(가수)”, “이소라(모델)” 등의 개체명으로 후보 엔트리를 추출한다.
여기에는 텍스트 문서 내 모든 가능한 n-gram 용어들 중 개체명 사전에 해당하는 것들만 추출하는 방법이나, 개체명이 정답으로 부여된 학습문서를 분류기로 학습하여 개체명을 인식하는 방법이 가능할 수 있다.
한국어 개체 링킹에 있어서는 각 개체명이 나타날 수 있는 surface form 을 미리 사전으로 구축하여,SVM 을 이용한 개체경계 인식방법을 이용할 수도 있다. 트윗에서의 개체명 인식은 영문 트윗을 대상으로 KNN classifier와 CRF labeler를 하이브리드 방식으로 사용하여 반지도 방식으로 시도할 수도 있다.
개체명 인식 후에는 정확한 개체 링킹을 위해 인식된 개체명 중 중의성을 가지는 개체명의 중의성 해소가 필요하다.
본 발명의 식에서 E는 중의성이 해소되어야 하는 개체명,
Figure 112016107293227-pat00015
는 위키피디아 엔트리에 존재하는 j번 째 비중의성 개체,
Figure 112016107293227-pat00016
는 E가 링크 될 수 있는 위키피디아 엔트리에 존재하는 j번 째 후보 개체를 의미한다.
또한 <D>는 문서 D에 나타나는 모든 개체 집합,
Figure 112016107293227-pat00017
Figure 112016107293227-pat00018
를 주제로 하는 i번 째 뉴스기사,
Figure 112016107293227-pat00019
는 모든
Figure 112016107293227-pat00020
의 집합, [e]는 위키피디아 엔트리 e가 가지는 위키피디아 링크의 집합,
Figure 112016107293227-pat00021
는 각 j번 째 후보 엔트리의 문맥 모델, 유저 모델, 이슈모델의 스코어를 의미한다.
문맥모델부(200)는 개체명인식부(100)에 의해 인식된 개체명들 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력한다.
문맥모델부(200)는 문맥 정보를 사용한다. 여기서 문맥 정보란, 중의성을 가지는 개체명의 인접한 비중의성 개체명들을 말한다. 예를 들어, 하나의 트윗에 중의성을 가지는 개체명이 존재 할 경우 트윗에 포함된 모든 비중의성 개체명들이 해당된다.
대부분의 위키피디아를 외부자원으로 사용한 종래의 기술에서 사용된 의미 관련도는 인접 용어 집단 뿐 아니라 위키피디아 카테고리 정보도 사용한다. 그러나 위키피디아 카테고리 정보를 사용한 경우 사용하지 않은 경우보다 성능이 낮게 나오는 경우도 있다.
위키피디아의 사용자나 한국어 위키피디아는 영어 위키피디아 보다 비교적 카테고리 정보가 불충분하기 때문에 본 발명의 실시예에서는 카테고리 정보를 사용하지 않을 수 있다.
문맥 모델부(200)는 아래 수학식 1과 같은 스코어링 방법을 이용할 수 있다.
수학식 1
Figure 112016107293227-pat00022
중의성을 가지는 개체명과 인접한 비중의성 개체명의 상호 관계 점수를
Figure 112016107293227-pat00023
로 나타낼 때 문맥 모델부(200)는
Figure 112016107293227-pat00024
가 후보 엔트리들 중에서 가장 높은 점수를 가지는 엔트리를 중의성 해소 결과로 출력할 수 있다.
Figure 112016107293227-pat00025
Figure 112016107293227-pat00026
Figure 112016107293227-pat00027
의 가중 합으로 이루어진다.
Figure 112016107293227-pat00028
은 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체
Figure 112016107293227-pat00029
의 위키피디아 페이지에 나타나는 링크와 후보 개체
Figure 112016107293227-pat00030
의 위키피디아 페이지의 링크 정보가 겹치는 횟수를 계산하는 수식이다.
위키피디아에는 동명이인 문서 “disambiguation page”가 있다. 도 0을 참조하면 “이소라” 동명이인 문서에는 세 명의 후보를 가진다. 첫 번째 “이소라”는 대한민국의 모델이고, 두 번째는 대한민국의 가수이다. 마지막 “이소라”는 대한민국 배구 선수이다. 예를 들어, E가 “이소라”라면, 위 식(1)에서 계산된
Figure 112016107293227-pat00031
가 각각 “이소라(가수)”, “이소라(모델)”, “이소라(배구선수)”에 대해 계산되고, 이 때,
Figure 112016107293227-pat00032
는 중의성 개체가 발견된 트윗에서 나타난 비중의성 개체가 된다. 문맥모델부(200)는
Figure 112016107293227-pat00033
가 가장 높은 점수를 가지는 후보 엔트리로 링킹이 가능하도록 중의성 해소 결과로서 출력을 할 수 있으며, 엔트리와 함께 그 점수를 포함하여 출력할 수 있다.
또한 본 발명에 따른 마이크로블로그의 개체명 링킹 장치는 유저모델부(300)를 포함할 수도 있다.
유저모델부(300)는 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력한다. 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록은 해당 마이크로블로그 뿐만 아니라 기타 여러 웹에서 게시자가 작성한 기록을 포함한다.
트윗과 같은 마이크로블로그는 사용자의 관심 분야에 대해 의사소통이 이루어질 수 있는 특성이 있다. 유저 모델은 이러한 특성을 이용하여 사용자의 행동과 관심분야를 다루기 위해 사용자의 이전 트윗 기록 및 수집 가능한 기타 웹 기록의 전부 또는 일부를 사용할 수 있다. 사용자의 이전 트윗 등에서 나타나는 개체명들에 대해 사용자는 관심과 흥미를 가지고 있다고 가정한다.
도 4는 본 발명에 따른 유저모델부(300)의 구조에 대한 개념도를 도시한다.
도 4를 참조하여 예를 들면, 유저 모델부(300)가 중의성을 가지는 개체명을 특정 트윗에서 인식하면, 그 트윗을 남긴 사용자의 이전 모든 트윗을 추출한다. 개체 통합 모듈(Entity Intergration module)은 좌최장일치방법과 어절 uni-gram과 bi-gram 자질을 이용하여 미리 구축한 위키피디아 엔트리 사전에 해당하는 개체가 존재하면 추출하여 <D>에 추가한다. D의 위키피디아 엔트리들은 대부분 명사구로 이루어져 있다. 하지만 트윗 데이터의 특성상 노이즈가 많아 형태소 분석의 성능이 떨어지기 때문에 개체 추출시 좌최장일치법을 사용하고 자질로는 어절 uni-gram과 bi-gram을 이용할 수 있다.
유저모델부(300)는 아래의 수학식 2를 이용하여 유저 모델에 의한 점수를 산출할 수 있다.
수학식 2
Figure 112016107293227-pat00034
도 4의 예에 따라 설명하면, 중의성을 가지는 개체인 “이소라”를 사용자 p2의 트윗에서 발견하고, p2의 모든 과거 트윗 기록을 수집한다. 이 때 수집된 모든 과거 트윗 기록은 D라고 볼 수 있다. 개체 통합 모듈은 과거 p2의 트윗 기록에서 “이소라 (가수)가 출현했던 ”나가수“와 방송사인 ”MBC“와 같은 개체명인
Figure 112016107293227-pat00035
를 추출한다. 이 자질들은 링크 후보 개체인
Figure 112016107293227-pat00036
중 ”이소라 (가수)“가 최종적으로 중의성 해소 결과로 출력될 가능성을 높여준다. 왜냐하면 ”이소라 (가수)“의 위키피디아 페이지에는 ”나가수“와 ”MBC“라는 개체명을 링크로 가지고 있기 때문에
Figure 112016107293227-pat00037
(이소라 (가수))의 점수가 높아지기 때문이다.
이슈모델부(500)는 웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력한다.
이슈모델부(500)는 문맥모델과 유저 모델이 다루지 못하는 실시간 사회적 사건들이나 사소한 대중들이 관심을 가지는 사건들을 다룰 수 있다. 예를 들면, 유명 연예인의 실시간으로 일어난 사건이나 아주 사소한 사건으로 위키피디아와 같은 무거운 지식 베이스에서는 다루지 못하지만 트윗과 같은 마이크로블로그에서는 많이 다루어지는 주제들을 말한다. 뉴스 기사는 위에서 말한 사건들을 다루는 특성을 지니고 있으므로, 이슈모델부(500)는 뉴스 기사를 외부 자원으로 사용한다.
도 5는 본 발명의 일 실시예에 따른 뉴스 링킹 모듈과 개체명 생성 모듈로 구현되는 이슈 모델의 구조에 대한 개념도를 도시한다.
도 5를 참조하면, 이슈모델이 중의성을 가지는 개체명인 “이소라”를 이슈모델과 같은 방법으로 인식하면, 뉴스 링킹 모듈(News linking module)이 인식된 트윗 게시 날짜의 k일 전후로 "이소라”가 제목에 포함 된 뉴스기사를 수집한다.
수집 된 뉴스 기사들은 제목에 나타난 "이소라”의 동명이인 페이지에 나타난 위키피디아 엔트리들“이소라 (가수)”,"이소라 (모델)”,"이소라 (배구선수)”의 페이지에 나타난 텍스트와 코사인 유사도를 통해 특정 후보 엔트리
Figure 112016107293227-pat00038
와 링킹 된다.
위의 예에서는 후보 엔트리인
Figure 112016107293227-pat00039
,
Figure 112016107293227-pat00040
,
Figure 112016107293227-pat00041
가 각각 "이소라 (가수)”,"이소라 (모델)” 그리고 "이소라 (배구선수)”가 된다. 다시 말해 이슈모델은 뉴스 기사 각각 특정 위키피디아 엔트리와 링크함으로써 뉴스 기사 하나를 하나의 위키피디아 페이지로 취급한다. 각 기사는 후보 엔트리
Figure 112016107293227-pat00042
를 주제로 하는 i번 째 뉴스 기사
Figure 112016107293227-pat00043
가 된다. 개체 생성 모듈(Entity Generative module)은 각 뉴스 기사마다 위키피디아 링크를 생성한다. 신문 기사 속 작은 따옴표는 이름 표시 기능을 가질 수 있고, 이름 표시를 할 때 신문사마다 약간의 차이가 있으나, 책 이름, 영화 이름, 음반 이름, 드라마 이름 등이 작은 따옴표로 묶일 수 있다. 개체 생성 모듈은 뉴스 기사의 작은 따옴표로 명시된 용어들을 의미 있는 개체명으로 가정하고, 모두 링크로 생성할 수 있다.
다음 표 1은 개체 생성 규칙과 도 5의 예에 따라 생성될 수 있는 개체의 예를 보여준다.
표 1
Figure 112016107293227-pat00044
표 1을 참조하면 “구원의 밥상”은 위키피디아에는 실제로 없는 엔트리이지만, “이소라 (모델)”이 새로 진행하게 된 프로그램의 제목으로, 중의성을 가지는 개체명 “이소라”가
Figure 112016107293227-pat00045
인 “이소라 (모델)”로 링킹 될 수 있는 중요한 개체 정보가 될 수 있다. 두 번째 생성 규칙은 뉴스 기사를 형태소 분석하여 명사 자질만 사용하여, 명사 uni-gram, bi-gram이 위키피디아 개체명 사전에 존재할 경우 추가한다. 예를 들면, “컬투”, “정찬우”, “모델”이 해당된다. 최종적으로 이슈모델부()는 아래의 수학식 3과 같이 후보 엔트리들을 스코어링 한다. 표 1의 예에 따라 적용한다면,
Figure 112016107293227-pat00046
가 “이소라 (모델)”일 때,
Figure 112016107293227-pat00047
는 “이소라 (모델)”을 제목에 포함하는 i번째 뉴스 기사이고, 개체 생성 모듈의 링크 생성 규칙에 의해 뉴스 기사에 링크를 생성하여 트윗을 남긴 사용자의 기록을 모은 트윗 문서 D에 나타나는 비중의성 개체들이 위키피디아 페이지에 나타나는 링크 정보의 동시 출현 횟수를 점수에 반영한다.
수학식 3
Figure 112016107293227-pat00048
링킹모델부(500)는 문맥모델부(200) 및 이슈모델부(400)로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행한다. 또한, 더욱 정확한 개체명 링킹을 위하여 유저모델부(300)로 부터 출력된 중의성 해소 결과를 더 포함하여 문맥모델부(200) 및 이슈모델부(400)의 결과와 함께 통합 분석하여 개체명 링크 작업을 수행할 수도 있다.
예를 들면 링킹 모델부(500)는 문맥모델부(200), 유저모델부(300), 이슈모델부(400)로부터 출력된 중의성 해소 결과에 포함되는 점수를 통합하여 종합적 관련성이라고 할 수 있는 최종 점수를 계산하는 것일 수 있다. 최종 점수는 아래의 수학식 4과 같이 가중치 매개변수
Figure 112016107293227-pat00049
,
Figure 112016107293227-pat00050
,
Figure 112016107293227-pat00051
를 이용하여 계산할 수도 있다.
수학식 4
Figure 112016107293227-pat00052
가중치 매개변수들은 트위터 사용자들이 문맥 모델, 유저모델 그리고 이슈모델이 고려하는 사용자의 흥미를 트윗에 반영하는 정도, 실시간 이슈를 트윗에 반영하는 정도를 나타내고 이는 실험적으로 실험 성능이 가장 높을 때의 값으로 정할 수 있다.
실험 및 평가
본 발명의 일 실시예에서 실험 대상은 위키피디아 동명이인 문서 내에서 중의성을 갖는 사람 개체명이며 실험을 위하여 위키피디아 카테고리 정보를 이용하여 동명이인 개체명 사전을 구축하였다.
실험 데이터 구축을 위하여 최근 트윗을 활발히 이용하는 300명의 트윗 사용자 당 5060개씩,총 16367개의 트윗을 수집하였다. 수집된 트윗 들 중 동명이인 개체명 사전에 존재하는 개체명이 포함된 트윗들을 선별하였다. 선별 방법으로는 신뢰성 검증을 위해 3명의 실험자가 동명이인 중 정 답을 태깅할 수 있는 트윗을 대상으로 하였으며 총 248개의 한국어 트윗 데이터를 구축하였다. 수집된 248개의 트윗 데이터 내에 나타난 248명의 동명이인 개체명에는 총 33개 이름의 동명이인이 나타났고, 33개의 이름은 수 집된 트윗 데이터에서는 평균 3.45명의 동명이인이 관측되었고, 위키피디아 문서 내에서는 평균적으로 4.75명의 동명이인이 관측되었다. 이슈모델에 서 사용되는 뉴스기사는 중의성 개체명 을 포함하는 트윗이 등록된 날짜를 기준으로 전후 3일 동안의 분량을 수집하였고, (k=3),
Figure 112016107293227-pat00053
,
Figure 112016107293227-pat00054
,
Figure 112016107293227-pat00055
값은 실험 데이터에 의존적인 매개 변수로 실험적으로 결정하였다.(
Figure 112016107293227-pat00056
=0.4,
Figure 112016107293227-pat00057
=0.35,
Figure 112016107293227-pat00058
=0.25)
전체 시스템을 위한 지식 베이스는 한국어 위키피디아를 사용하였고,이슈 모델에서 뉴스 기사와 위키피디아 문서의 형태소 분석을 위하여 “Jhannanum”형태소 분석기를 사용하였다. 또한 실험을 진행하기 전에 모든 트윗 데이터와 위키피디아 문서의 불필요한 데이터들을 삭제하는 전처리 작업을 실시하였다.
아래 표 2에서는 본 발명의 일 실시예에 따른 시스템의 성능을 평가하기 위하여 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며 각 시스템이 추가 될 때마다 성능을 비교하여 보여준다. 지식 베이스만 사용한 문맥 모델을 베이스라인으로 하여 제안하는 모델들이 각각 추가 되었을 때,성능이 현저히 증가하였고 최종 시스템 성 능은 67.7%을 보였다. 실험 데이터에서 중의성을 가지는 개체명이 평균적으로 4.75명의 동명이인을 나타내는 점을 고려하면 매우 높은 정확도를 보였다.
표 2
Figure 112016107293227-pat00059
아래 표 3에서는 본 발명의 일 실시예에 따른 이슈모델부()의 이슈모델이 뉴스 기사를 정답 위키피디아 페이지에 정확하게 링크하는지 측정한 결과를 보여준다. 수집된 836개 뉴스기사는 2명의 실험자가 교차검증을 통하여 직접 뉴스기 사 제목에 나타난 중의성을 가지는 개체명 을 태깅하여 실험하고, 정확도를 측정한 결과 70.2%의 정확도를 보였다.
표 3
Figure 112016107293227-pat00060
아래 표 4에서는 유저 모델을 추가함으로써 중의성 해소의 정확도를 높인 예를 확인할 수 있다.
표 4
Figure 112016107293227-pat00061
표 4의 첫 번째 예를 보면, 트윗 사용자가 평소에 야구를 좋아했음을 이전 트윗에서 추출한 “삼성”, “롯데”, “LG”, “야구장” 등의 개체명을 통해 알 수 있고, 그 중 “삼성”과 “롯데” 개체명은 위키피디아 “김태균(1971)” 페이지에 링크로 나타나므로 중의성 해소에 도움이 될 수 있다. 이슈 모델에서 추가로 추출된 개체명들은 더욱 “김태균(1971)”로 개체 링킹 될 수 있도록 최종 스코어를 높여주었다. 또한 표 4의 두 번째 예를 보면 첫 번째 예와 다르게 유저 모델에서는 단서가 되는 개체명을 추출하지 못하였지만 이슈 모델이 “드라마”, “영화”, “배우”라는 개체명을 추출함으로써 “조인성”이 “조인성(배우)“로 링킹 될 수 있도록 하였다.
본 발명의 바람직한 일 실시예에 따르면 3가지 스코어링 모델이 구현된 문맥모델부(200), 유저모델부(300), 이슈모델부(400) 및 이를 통합하는 링킹모델부(500)를 포함하는 마이크로블로그의 개체명 인식 시스템을 제공할 수 있다. 제안된 시스템은 위키피디아와 같은 지식 베이스에서 다루지 않는 사소한 사건이나 실시간 사건들을 뉴스 기사를 외부 자원으로 사용하여 한계를 극복할 수 있고, 사용자 기록을 사용하여 사용자 관심 분야를 고려할 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
100 : 개체명 인식부
200 : 문맥모델부
300 : 유저모델부
400 : 이슈모델부
500 : 링킹모델부

Claims (4)

  1. 마이크로블로그 텍스트를 수집하여 개체명을 인식하는 개체명인식부;
    인식된 상기 개체명 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력하는 문맥모델부;
    웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력하는 이슈모델부;
    마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력하는 유저모델부; 및
    상기 문맥모델부, 유저모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하고,
    상기 문맥모델부는,
    상기 중의성 있는 개체명의 후보 엔트리 각각의 지식베이스 페이지에 대하여 상기 비중의성 개체명의 링크 출현 횟수를 계산함에 따라 중의성 해소 결과를 출력하는 것이고,
    상기 유저모델부는,
    게시자의 과거 게시글을 웹으로부터 전부 또는 일부를 추출하여 좌최장일치법, uni-gram 또는 bi-gram 자질을 이용함에 따라 지식베이스 엔트리 에 해당하는 개체명이 존재하는 개체명 집합을 구축하고, 추출된 상기 과거 게시글로부터 비중의성 개체명의 추출 빈도에 따라 중의성 해소 결과를 출력하는 것이고,
    상기 이슈모델부는,
    마이크로블로그 텍스트의 게시 날짜의 소정 일수 전후의 뉴스 기사를 수집하고, 지식베이스 엔트리 페이지의 텍스트와 뉴스 기사 페이지의 텍스트 간의 코사인 유사도를 이용하여 각각의 뉴스 기사에 대하여 특정 지식베이스 엔트리를 링크한 페이지를 기반으로 이슈 스코어링을 함에 따라 중의성 해소 결과를 출력하는 것이고,
    상기 링킹모델부는,
    상기 문맥모델부, 이슈모델부의 출력 각각에 대하여 가중치 매개변수를 곱한 결과에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것을 특징으로 하는 마이크로블로그의 개체명 링킹 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 문맥모델부는,
    Figure 112016116316481-pat00081

    (<D>는 링킹되는 문서 D에 나타나는 모든 개체 집합,
    Figure 112016116316481-pat00082
    는 위키피디아 엔트리에 존재하는 j 번 째 후보 개체,
    Figure 112016116316481-pat00083
    는 중의 성 개체가 나타나는 문서 D에 존재하는 i번 째 비중의성 개체임)
    의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,
    상기 유저모델부는,
    Figure 112016116316481-pat00084

    (
    Figure 112016116316481-pat00085
    는 중의성이 해소되어야 하는 개체명에 대하여 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
    Figure 112016116316481-pat00086
    는 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체임)
    의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,
    상기 이슈모델부는,
    Figure 112016116316481-pat00087

    ( <D>는 링킹 되는 문서 D에 나타나는 모든 개체 집합,
    Figure 112016116316481-pat00088
    는 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
    Figure 112016116316481-pat00089
    Figure 112016116316481-pat00090
    를 주제로 하는 i번 째 뉴스기사,
    Figure 112016116316481-pat00091
    는 모든
    Figure 112016116316481-pat00092
    의 집합,
    Figure 112016116316481-pat00093
    는 중의성 개체가 나타나는 문서 D에 존재하 는 k번 째 비중의성 개체임)
    의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,

    Figure 112016116316481-pat00094

    상기 링킹모델부는,
    (E는 중의성이 해소되어야 하는 개체명임)
    의 식에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것을 특징으로 하는 마이크로블로그의 개체명 링킹 시스템.


KR1020160145372A 2016-11-02 2016-11-02 마이크로블로그의 개체명 링킹 시스템. KR101712507B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160145372A KR101712507B1 (ko) 2016-11-02 2016-11-02 마이크로블로그의 개체명 링킹 시스템.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160145372A KR101712507B1 (ko) 2016-11-02 2016-11-02 마이크로블로그의 개체명 링킹 시스템.

Publications (1)

Publication Number Publication Date
KR101712507B1 true KR101712507B1 (ko) 2017-03-07

Family

ID=58411484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160145372A KR101712507B1 (ko) 2016-11-02 2016-11-02 마이크로블로그의 개체명 링킹 시스템.

Country Status (1)

Country Link
KR (1) KR101712507B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200071689A (ko) * 2018-12-11 2020-06-19 서울대학교산학협력단 Rdf 지식베이스 기반의 개체명 중의성 해소 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1. 김영식, 함영균, 김지성, 황도삼, 최기선 (2014). 한국어 텍스트의 개체 URI 탐지 : 품사 태깅 독립적 개체명 인식과 중의성 해소, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 100-106.
김서현외2. 개체 중의성 해소를 위한 사용자 유사도 기반의 트윗 개체 링킹 기법. 2016.9.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200071689A (ko) * 2018-12-11 2020-06-19 서울대학교산학협력단 Rdf 지식베이스 기반의 개체명 중의성 해소 방법 및 장치
KR102293071B1 (ko) 2018-12-11 2021-08-26 서울대학교산학협력단 Rdf 지식베이스 기반의 개체명 중의성 해소 방법 및 장치

Similar Documents

Publication Publication Date Title
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
US10503828B2 (en) System and method for answering natural language question
US8161059B2 (en) Method and apparatus for collecting entity aliases
US9256679B2 (en) Information search method and system, information provision method and system based on user&#39;s intention
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
CN107544988B (zh) 一种获取舆情数据的方法和装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
Bauskar et al. Natural language processing based hybrid model for detecting fake news using content-based features and social features
CN104268192B (zh) 一种网页信息提取方法、装置及终端
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Nguyen et al. Statistical approach for figurative sentiment analysis on social networking services: a case study on twitter
TW201826145A (zh) 從中文語料庫提取知識的方法和系統
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
de Albornoz et al. Using an Emotion-based Model and Sentiment Analysis Techniques to Classify Polarity for Reputation.
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
Hussain et al. A technique for perceiving abusive bangla comments
KR101712507B1 (ko) 마이크로블로그의 개체명 링킹 시스템.
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
Pereira et al. Sentiment retrieval on web reviews using spontaneous natural speech
Maynard et al. Entity-based opinion mining from text and multimedia
Hajjem et al. Building comparable corpora from social networks
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
Scholz et al. Comparing different methods for opinion mining in newspaper articles

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant