KR20040042065A

KR20040042065A - 사례기반추론기법과 연관규칙탐사기법을 이용한 지능형정보검색방법

Info

Publication number: KR20040042065A
Application number: KR1020020070190A
Authority: KR
Inventors: 하창승
Original assignee: 하창승
Priority date: 2002-11-12
Filing date: 2002-11-12
Publication date: 2004-05-20

Abstract

본 발명은 사례기반추론기법과 연관규칙탐사기법을 이용한 지능형 정보검색 엔진에 관한 것이다. 본 검색엔진은 어떤 영역의 관련 정보를 모아 지능적으로 생각하고 판단하여 사용자에게 가장 적합한 형태의 맞춤형 정보로 제공하는 전문 검색 엔진이다. 본 발명에 적용된 사례기반추론기법은 주어진 사용자의 질의어와 관련된 정보를 제공하기 위해 과거에 입력된 유사한 사례를 군집화하여 카테고리로 구성하고 주어진 문제와 가장 유사한 카테고리 그룹에 속하는 그룹 정보들을 관련 정보로 사용자에게 제공하는 방법이다. 또한 본 발명에 적용된 연관규칙탐사기법은 전문 사용자가 입력한 두 개의 질의어를 바탕으로 두 질의어 항목간의 연관성을 트랜잭션 로그에 저장하고 데이터간의 연관성 정도를 측정하여 일반 사용자의 요구에 대해 연관성 높은 추가적인 요구들을 그룹화 하여 제공함으로써 검색의 재현률을 높인다.

Description

사례기반추론기법과 연관규칙탐사기법을 이용한 지능형 정보검색방법 {Intelligent information searching method using case-based reasoning algorithm and association rule mining algorithm}

본 발명은 추론엔진을 이용한 검색방법에 관한 것으로서 보다 상세하게는 사례기반추론기법과 연관규칙탐사기법을 이용한 지능적 정보검색방법에 관한 것이다.

최근 인터넷에서 획득할 수 있는 정보의 양이 급속히 증대됨에 따라 사용자의 선호도나 목적에 따라 개인화된 검색기능을 제공하고 부가가치를 더하는 지능적 검색기의 필요성이 점점 커지고 있다. 하지만 기존의 인터넷 검색엔진으로 문서를 검색하는 데는 근본적인 문제점이 있다. 즉, AltaVista, YAHOO, Lycos, 심마니, Naver 등으로 대표되는 기존 인터넷 검색엔진은 방대한 정보의 양을 가진 인터넷에서 사용자들이 필요로 하는 정보를 제공하기 위해 주어진 질의어와 웹상의 문서간의 단순 패턴 비교 방법을 통하여 일치하는 정보를 검색하는 기법을 사용함으로써 검색 효율이 비교적 낮고 관련성 없는 정보까지 함께 제공하여 사용자들에게 정보 검색의 어려움을 가져 왔다. 또한, 반복적으로 동작하는 검색 로봇은 인터넷 트래픽을 증가시키며 전문분야별로 정보를 분류하지 못해 관련성 없는 분야까지 검색하여 응답시간을 저해한다. 또한 웹 문서의 양이 급속히 증가하고 웹 문서의 내용이 자주 바뀌는 상태에서의 그러한 변화를 신속히 반영하거나 응용영역(application domain)을 고려하는 기능은 제공해주지 못하였다.

또한 기존의 검색엔진들은 다량의 정보로부터 핵심 지식의 창출 및 개인화된 정보제공도 불가능하다는 문제점도 함께 야기 시키고 있다. 지능적 검색엔진이 되기 위해서는 현재 검색을 요구하는 사용자가 누구인가에 따라서 사용자의 취향에 따른 다른 검색결과를 제공할 수 있어야 한다. 정보 검색 엔진이 지능적 학습 능력을 가지지 못한다면 질의에 대해 아무리 풍부한 관련 문서를 제공할 수 있다고 하더라도 사용자의 취향에 맞지 않는 결과들로서 사용자의 불편만 가중시킨다.

따라서 거대한 가상의 지식공간을 대상으로 하는 정보검색에서는 신속한 검색이나 풍부한 자료의 제공 못지않게 검색요청을 한 사용자의 의도를 정확히 파악하여 사용자별로 개별화된 전문 지식을 제공할 수 있는 검색엔진과 개별화된 정보를 제공하기 위해 문제 영역지식을 이용하거나 사용자의 선호도를 고려하는 지능적 검색 엔진을 개발할 필요가 있다.

본 발명은 사례기반추론기법과 연관규칙탐사기법을 적용한 추론엔진을 구성하고 이 추론엔진을 이용하여 검색결과를 걸러줌으로써, 사용자의 의도를 정확히 파악하여 사용자별로 맞춤형의 전문 지식을 검색결과로서 제공할 수 있으며, 나아가 문제 영역지식을 이용하거나 사용자의 선호도를 고려하는 지능적 검색을 통해 개별화된 검색정보를 서비스할 수 있는 정보검색방법을 제공하는 것을 그 목적으로 한다.

도 1은 본 발명에 따른 검색엔진의 내부질의어 처리구조에 관한 블록도이고,

도 2는 본 발명에 따른 연관규칙탐사기법에 관한 알고리즘이고,

도 3은 본 발명에 따른 사례기반추론기법에 관한 알고리즘이고,

도 4는 그룹화를 통한 항목조합 지지도 계산방식을 보여주며,

도 5는 연관규칙탐사기법을 이용한 정보 검색방법의 절차를 보여주는 흐름도이고,

도 6은 사례기반추론기법을 이용한 정보 검색방법의 절차를 보여주는 흐름도이다.

<도면의 주요부분에 대한 부호의 설명〉

100: 추론엔진200: 검색에이전트부

300: 로봇에이전트부400: 웹사이트

500: 사용자 인터페이스부

위와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따르면, 검색 요청자에 의해 주어진 질의어와 관련된 정보를 제공하기 위한 검색방법으로서, 상기 질의어와 유사한 사례그룹을 사례베이스에 대하여 검색하는 단계; 상기 사례베이스에 저장된 사례들을 재사용하여 상기 질의어와의 관련 문서수를 계산하는 단계; 유사군집화 알고리즘을 이용하여 상기 질의어와 유사도가 높은 카테고리 그룹을 유사카테고리 군집으로 선정하는 단계; 및 선정된 유사 카테고리 군집에 속하는 모든 하부 트랜잭션들을 상기 질의어에 관한 사례기반 검색정보로서 제공하는 단계를 구비하는 것을 특징으로 하는 사례기반추론기법을 이용한 정보 검색방법이 제공된다.

상기 정보 검색방법에 있어서, 바람직하게는, 상기 관련 문서수는 상기 질의어에 대하여 사이트명, 사이트가 속하는 카테고리, 사이트의 설명부를 갖는 트랜잭션들과 패턴매칭 작업을 반복적으로 실시할 때 질의어와 일치하는 트랜잭션의 수이다.

이상과 같은 사례기반추론기법이 적용된 정보검색방법은 주어진 사용자의 질의어와 관련된 정보를 제공하기 위해 과거에 입력된 유사한 사례를 군집화하여 카테고리로 구성하고 주어진 문제와 가장 유사한 카테고리 그룹에 속하는 그룹 정보들을 관련 정보로서 사용자에게 제공해준다는 개념에 기초한 것이다.

상기 목적을 달성하기 위한 본 발명의 다른 측면에 따르면, 검색 요청자에 의해 주어진 질의어와 관련된 정보를 제공하기 위한 검색방법으로서, 인덱스 데이터베이스에 대하여 탐사하여 상기 질의어와 관련하여 미리 설정된 최소 지지도를 만족하는 빈발항목집합을 추출하는 단계; 추출된 빈발항목 집합을 대상으로 신뢰도 평가함수를 이용하여 각 빈발항목에 대하여 신뢰도를 계산하는 단계; 및 계산된 신뢰도가 임계값으로 미리 정의된 최소신뢰도 이상을 만족하는 경우, 그에 해당하는 항목을 상기 질의어와 연관성이 있는 최종 항목을 결정하여 검색결과로서 제공하는 단계를 구비하는 것을 특징으로 하는 연관규칙탐사기법을 이용한 정보 검색방법이 제공된다.

상기 정보 검색방법에 있어서, 상기 빈발항목집합 추출단계는, 바람직하게는 상기 질의어를 연관규칙 테이블의 기본 키와 비교하여 일치하는 레코드들을 객체배열에 저장하는 단계; 지지도 평가함수를 이용하여 각 레코드 항목의 지지도를 계산하는 단계; 및 계산된 지지도가 상기 최소지지도를 만족하는 경우의 항목을 빈발항목집합의 항목으로 결정하는 단계를 구비한다.

그리고 상기 신뢰도 평가함수는 아래 식으로 표현되며, 아래 식에서 α는 AND 연산의 가중치, β는 OR 연산의 가중치를 의미하며,An은 AND 연산의 횟수 그리고On은 OR 연산의 횟수를 의미한다.

이와 같은 연관규칙탐사기법에 따른 정보검색방법은 전문 사용자가 입력한 두 개의 질의어를 바탕으로 두 질의어 항목간의 연관성을 트랜잭션 로그에 저장하고 데이터간의 연관성 정도를 측정하여 일반 사용자의 요구에 대해 연관성 높은 추가적인 요구들을 그룹화 하여 제공함으로써 검색의 재현률을 높일 수 있다.

이하, 첨부한 도면을 참조하여, 본 발명에 따른 인터넷을 이용한 통신 시스템 및 방법의 바람직한 실시예를 설명하면 다음과 같다.

보다 지능적인 검색엔진을 갖추기 위해서는, 정보검색 에이전트가 사용자의 취향을 알아내거나 과거의 사례나 경험을 기억하였다가 이를 새로운 작업수행에 적용할 수 있는 학습능력을 제공할 수 있어야 한다. 나아가, 이러한 웹 정보검색 엔진에서의 학습은 사용자의 수준에 따른 개별화된 단계까지 사용자를 모델링 할 수 있어야 한다. 그러므로 사용자 개인별로 인공지능의 사례기반학습과 같은 학습방식을 활용하여 사용자별로 개별화된 프로파일을 구성할 수 있어야 한다.

본 발명에서 구현한 전문 검색엔진은 도 1과 같이 세 부분으로 구성되어있다. 즉, 인터넷(400) 상의 사이트 정보들을 추출하여 수집된 사이트 정보를 적절한 가공을 한 다음 색인 데이터베이스(220)의 데이터로 재구성하는 로봇에이전트부(300)와, 색인 데이터베이스(220)를 이용하여 사용자의 검색요구를 처리해 주는 검색에이전트부(200), 그리고 색인 데이터베이스(220)에 대하여 검색된 정보를 사용자의 검색요구에 제대로 부합하는 정도를 측정하여 사용자의 요구에 적합한 정보가 되도록 해주는 사례기반추론기법 및/또는 연관규칙탐사기법이 적용된 추론엔진부(100)이다.

로봇에이전트부(300)는 인터넷(400)을 통해 접속 가능한 웹사이트의 정보를 수집하는 로봇부(310)를 포함한다. 로봇부(310)가 웹사이트 정보를 수집하는 방법 중의 하나로서, URL 데이터베이스(330)에 등록된 사이트 주소를 참조하는 방법이 있다. URL DB(330)에는 다수의 웹사이트 URL이 등록되어 있는데, URL의 등록은 검색엔진 운용자가 직접 등록하거나 어떤 웹사이트의 관련자가 당해 검색엔진의 사이트에 방문하여 자신의 웹사이트 URL을 등록하는 방식으로 이루어진다. 로봇부(310)는 정기적 혹은 비정기적으로 URL DB(330)에 등록되어 있는 URL 정보를 참조하여 해당 웹사이트에 직접 방문하여 그 사이트의 정보를 가져온다. 로봇부(310)에 의한 웹사이트 정보수집의 다른 방법으로서, 키워드를 이용하는 방법이 있다. 로컬 인덱스 DB(220)에 별도의 키워드테이블(비도시)을 마련해 두고, 로봇부(310)는 그 키워드테이블에 등록된 용어를 차례로 키워드로 활용하여 패턴비교를 통해 그 키워드를 포함하는 인터넷(400)상의 웹사이트를 찾아서 그 웹사이트의 정보를 수집한다. 본 발명에 따른 검색엔진이 어떤 특정분야에 한정된 전문 검색엔진을 지향하는 경우에는 그 분야의 전문용어들을 사전테이블로 작성하여 활용하면 편리하다.

로봇부(310)가 수집한 웹사이트 정보는 원시데이터(340)로서 일시적으로 저장된다. 그리고 이 원시데이터(340)는 필터링처리와 인덱싱 처리를 거친 다음, 로컬 인덱스 DB(220)에 저장된다. 구체적으로 설명하면, 원시데이터(340)로 수집된웹사이트 정보에는 원치 않는 정보가 포함되어 있을 수 있다. 즉, 본 발명에 따른 검색엔진이 예컨대 해양 내지 어업 관련 전문검색엔진을 지향하는 경우로 가정할 때, '조선'이라는 키워드를 활용하여 단순한 패턴비교를 통해 웹사이트 정보를 수집하였다면, 그 수집된 사이트 정보에는 '배'나 '해양'에 관련된 의미로서의 '조선'에 관한 사이트 정보뿐만 아니라 '나라 이름'으로서의 조선에 관련된 사이트 정보나 심지어는 '조선일보'를 뜻하는 '조선'에 관련된 사이트 정보까지도 포함될 수 있다. 실제로 필요한 정보는 첫 번째 종류의 정보이므로, 원시데이터(340) 중에서 필요한 정보만을 추출하는 필터링처리를 할 필요가 있다. 나아가 필터링된 각 웹사이트 정보에 대하여 그것의 소속 카테고리 그룹을 부여하는 등의 인덱싱 처리를 거친다.

검색에이전트부(200)는 검색부(210)를 포함한다. 검색부(210)는 검색을 희망하는 사용자의 검색요구를 받아서 로컬 인덱스 DB(220) 및/또는 인터넷(400)을 통해 조회 가능한 외부의 검색 DB(비도시)에 대하여 검색을 로봇부(310)에 대하여 의뢰하고 그 검색결과를 받아서 사용자인터페이스(500)를 통해 제공하는 등의 검색에 관한 처리를 수행한다.

로컬 인덱스 DB(220)는 본 발명에 따른 검색엔진의 운영서버가 직접 관리하는 데이터베이스로서, 메인테이블, 회원테이블, 임시테이블과 같은 몇 가지 기본적인 테이블을 포함한다. 메인테이블은 수집된 사이트 정보를 저장 관리하는 테이블로서 기본이 되는 테이블로서 대략 다음과 같은 구조를 갖는다.

[표 1] 메인테이블

칼럼명	칼럼내용	데이터타입
URL	사이트 주소	VARCHAR2
TITLE	사이트 명	VARCHAR2
CATE	사이트가 속하는 카테고리	VARCHAR2
DESCRIB	사이트에 대한 설명부	VARCHAR2
CREATED	사이트가 메인테이블에 등록된 날	DATE
CNT	사이트에 대한 방문자 수	NUMBER
ETC	사이트에 대한 접속가능여부	VARCHAR2
TEL	업체전화번호	VARCHAR2
ADDR	업체주소	VARCHAR2
DIVISION	사이트 정보가 획득된 방식(로봇검색, 웹페이지, 등록)	NUMBER

회원테이블은 본 발명의 검색엔진 운영 사이트에 가입한 회원에 대한 테이블로서 회원가입 시 그 가입회원에 대하여 자동으로 생성되는 테이블이며, 대략 아래 표와 같은 구조를 갖는다.

[표 2] 회원테이블

칼럼명	칼럼내용	데이터타입
URL	회원이 방문한 사이트 주소	VARCHAR2
TITLE	방문 사이트명	VARCHAR2
CATE	방문 사이트가 속하는 카테고리	VARCHAR2
DESCRIB	방문 사이트에 대한 설명부	VARCHAR2
CREATED	사이트의 최종방문일	DATE
CNT	사이트 방문수	NUMBER
TEL	전화번호	VARCHAR2
ADDR	주소	VARCHAR2
ETC	접속가능여부	VARCHAR2
VISIBLE	보임여부	NUMBER

임시테이블은 예컨대 야후, 엠파스 등과 같은 외부의 검색DB로부터 필요할 때에만 자료를 가져와서 한시적으로 만들어지는 테이블이며, 테이블의 구조는 대략메인테이블과 같게 하면 된다.

추론엔진부(100)는 검색부(210)가 로컬 인덱스 DB(220) 등에 대하여 요청한 검색에 대하여, 그 검색 요청자의 의도를 정확히 파악하여 개별화된 전문 지식을 제공하기 위해 문제 영역지식을 이용하거나 사용자의 선호도를 고려하는 등의 추론과정을 거쳐서 검색 결과가 만들어지도록 한다. 이에 의해 검색요청자는 자신에게 보다 적합한 맞춤형의 검색서비스를 제공받을 수 있고, 나아가 전문분야에 대한 보다 지능적인 검색서비스를 제공받을 수 있다. 이를 위해 본 발명에 따르면, 추론엔진부(100)에는 연관규칙탐사기법 및/또는 사례기반추론기법에 따라 구현된 추론프로그램이 탑재된다.

본 발명이 제안하는 연관규칙탐사기법의 추론과정은 2단계로 구성되며 전체적인 추론 절차는 도 5의 흐름도에 도시되어 있다.

먼저 제1단계로서, 미리 정의된 최소 지지도를 만족하는 데이터 항목 집합을 탐사하는 단계이다. 이 단계는 검색대상의 테이블에 저장된 모든 칼럼 혹은 일부 칼럼(예컨대 사이트주소, 사이트명, 설명부, 카테고리 등)에 저장된 각 데이터 항목에 대하여 지지도를 계산한 다음, 최소 지지도를 만족하는 데이터 항목들만 추출하는 작업을 수행한다.

최소 지지도를 만족하는 즉, 계산된 지지도가 임계치를 넘는 데이터 항목 집합을 탐사하는 것은 빈발 항목 집합을 생성하기 위함이다. 이 탐사는 로컬 인덱스 DB(220)에 대하여 행해진다. 빈발 항목을 추출하기 위한 임계값인 최소 지지도의크기는 전문가적인 고려에 의해 검색엔진 프로그램의 작성 시에 미리 설정하는 것이 바람직하다.

검색요청자는 검색창을 통해 질의어를 입력한다. (S10 단계). 그러면 빈발 항목 집합을 생성하기 위해서 그 주어진 질의어를 연관규칙 테이블의 기본 키 즉, 사이트명, 사이트가 소속되는 카테고리, 사이트의 설명부와 비교하여 일치하는 레코드들을 객체배열에 저장하고 지지도 평가함수를 이용하여 각 레코드 항목의 지지도를 계산한다. (S12 단계). 여기서 연관규칙테이블은 지지도 계산을 위해 연관규칙을 계산하는 과정에서 임시로 생성하였다가 삭제하는 임시테이블이다.

그런 다음, 계산된 지지도 값이 임계값으로 주어진 최소지지도를 만족하는 항목들 즉, 최소지지도보다 큰 값을 가지는 항목들은 자주 발생하는 항목이므로 이들 항목들을 빈발항목집합으로 추출한다. (S14 단계). 빈발항목집합을 결정함에 있어서, 트랜잭션의 크기와 개수를 줄이기 위해 전체 데이터베이스 즉, 임시테이블을 탐색 대상으로 하지 않고 해당 사용자의 탐색 패턴이 저장된 로컬 데이터베이스로 탐색 영역을 제한하는 것이 바람직하다.

빈발항목집합을 생성하는 것과 관련하여 보다 구체적으로 설명하기로 한다. 연관규칙의 관련도를 결정짓기 위해 가장 많이 사용되는 알고리즘으로 아프리오리(Apriori) 알고리즘이 있다. 이 알고리즘은 기본적으로 미리 사용자가 정의한 최소지지도 이상의 트랜잭션 지지도를 갖는 빈발항목 집합을 결정하고 이 집합 중에서 빈발항목 요소 상호간에 규칙성을 찾아내어 신뢰도를 생성하는 기법으로 요소 상호간의 관련 정도가 집합 상호간의 관련도를 결정하는 평가함수가 된다.Apriori 알고리즘에서 사용하는 중요한 법칙은 빈도수가 높은 항목의 집합의 모든 부분 집합도 빈도수가 높다는 사실이다. 만약 주어진 요소수가 n개가 있을 때 이 항목을 이용해 만들 수 있는 부분집합의 수는 2ⁿ이다. 예를 들어 {a, b, c}의 모든 부분집합은 {}, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}이다. Apriori 알고리즘에서 지지도의 계산은 우선 요소의 개수가 하나인 항목집합의 빈도수를 계산하고 이 집합 중에서 지지도를 만족하고 요소 수가 두 개인 후보 항목 집합의 지지도를 결정하는 방법으로 요소의 수를 증가시켜 나간다. 그러므로 요소수가 k인 항목에서 지지도를 만족하는 집합에 대해서만 요소수가 k+1인 후보 항목 집합의 지지도를 결정하고 지지도를 미달하는 항목집합은 후보그룹에서 탈락시킴으로써 조합 가능한 부분집합의 수를 줄여나간다.

하지만 본 발명이 제안하는 연관규칙추론기법은 검색엔진의 특성상 주어진 요소 수가 많아야 두 개 이상을 넘지 않는다는 제약이 있기 때문에 고려해야할 차수의 수는 더욱 단순해진다. 즉 n개의 집합이 있다면 이 항목을 이용해 만들 수 있는 순서적 의미를 지닌 두 요소 항목 조합은 n(n-1)개이다. 예를 들면 질의어 요소 수가 n인 집합에서 순서적 의미를 갖는 두 요소 항목 조합은 (a, b), (a, c), (b, a), (b, c), (c, a), (c, b)로 단순화된다. 도 4는 사용자가 입력한 항목에 빈도수와 항목조합에 따라 지지도를 계산하고 기 정의된 최소지지도(preset)에 따라 후보 항목 집합이 선정되는 과정을 보여주고 있다.

초기 단계의 방대한 항목 조합에서 빈발항목집합을 선정하기 위해 지지도 계산이 필요하며 이것은 다음과 같은 지지도 평가함수를 통해 결정된다.

이것은 순서적 의미를 갖는 4가지 항목조합 트랜잭션에서 (a, b)항목은 {a} -> {b} 규칙으로 표현되고 규칙의 왼편에 있는 항은 규칙의 오른편에 있는 항과 직·접적으로 관련을 갖는다는 것이다. 이것은 전체 트랜잭션에 대한 항 {a}에 대한 항 {b}의 관련 확률로 나타낼 수 있음을 의미한다.

또한 항 {a}와 관련된 항 {b}, 항 {c}, 항 {d}의 지지도의 합은 전체 트랜잭션에 대한 항 {a}에 대한 지지도를 확률값으로 나타낸다. 이 계산된 확률값을 최소 지지도인 임계값과 비교하여 더 큰 경우에는 빈발항목집합의 후보로 선정한다. 이때 식 (1)의 n은 각 트랜잭션의 항목조합에서 좌측 항을 포함하는 항목조합들의 개수이며 P는 각 항목조합들의 확률을 의미한다.

연관규칙탐사기법에 따른 추론과정의 제2단계는, 앞의 제1단계에서 추출된 빈발항목집합들 중에서 검색엔진 프로그램에서 미리 정의해둔 최소신뢰도를 만족하는 규칙들을 탐사하여 최종 대상을 결정하는 일을 수행한다. 이를 위해, 먼저 두 항목 상호간의 관련도의 정도 즉, 연관규칙을 효율적으로 생성하기 위해 1단계에서 추출된 빈도항목 집합을 대상으로 신뢰도평가함수를 통해 각 빈도항목의 신뢰도를 계산한다. (S16 단계). 신뢰도의 평가는 지지도를 만족하는 빈발항목집합 중에서항목 요소 상호간의 관계연산이 AND연산인지 혹은 OR연산인지에 따라 다른 연관 가중치가 주어지며 연관 가중치를 갖는 신뢰도 평가함수를 통해 결정된다.

도 2는 임계값 이상의 지지도를 갖는 후보 집합에서 각 항목 요소 상호간의 관계를 나타낸다. 항목 요소간 관계 연산이 AND인 경우 실선으로, OR인 경우는 점선으로 표현하였다. 여기서 두 항목 요소간 관계 연산에 따라 다른 가중치를 주었으며 각 후보 집합의 신뢰도는 다음의 신뢰도 평가함수를 통해 결정된다.

식 (2)에서α는 AND 연산의 가중치, β는 OR 연산의 가중치를 의미하며,An은 AND 연산의 횟수 그리고On은 OR 연산의 횟수를 의미한다. 후보 집합내 항목간의 신뢰도가 제시된 임계값 이상을 만족하는 경우에 두 항목간에 관련성이 있다고 정의할 수 있다.

이 신뢰도의 결과 값은 기 정의된 임계값인 최소신뢰도와 비교하여 최소신뢰도보다 더 큰 값을 갖는 경우는 최종 유효 연관 집합으로 선택하지만, 더 작은 값을 갖는 경우에는 거부하는 방식으로 최종 유효연관집합을 확정한다. (S18 단계). 이러한 방식에 의해 빈발항목집합의 각 후보 항목과 질의어 간의 연관성을 의미론적으로 해석할 수 있다.

아래 표 3에서는 항목요소 상호간의 신뢰도와 유효 연관 집합의 선택여부를 나타내고 있다. 항목요소 조합 {S1, S2}와 {S3, S1}의 신뢰도는 임계값으로 주어진 최소신뢰도 30% 이상을 만족하여 관련성 있는 유효항목집합으로 표시되고 있다. AND 연산은 두 항목간의 연관도가 강한 반면, OR 연산은 두 항목간의 연관도가 상대적으로 약하므로, 가중치를 달리 부여할 필요가 있다. 표 1에 나타난 신뢰도는 AND 연산의 가중치로 1을 OR 연산의 가중치로 0.5를 부여한 경우이며 기호"√"는 선택, 기호 "X"는 거부를 의미하고 기호 "-"는 해당사항 없음을 의미한다.

[표 3] 신뢰도 평가 결과표

위 표 3에서는 항목요소 조합 {S1, S2}와 {S3, S1}이 최종 유효연관집합으로 선정될 것이다. 검색엔진(100)은 이런 방식으로 선정된 최종 유효연관집합을 연관추론검색의 결과로서 검색부(210)에 제공함으로써, 검색요청자는 사용자 인터페이스(500)를 통해 자신이 입력한 질의어에 관련된 연관추론의 검색결과를 제공받을 수 있게 된다. (S20 단계)

다음으로, 추론엔진(100)이 제공하는 다른 추론방법으로서 사례기반추론기법에 의한 추론과정을 설명한다. 이 사례기반추론기법은 사례들을 데이터베이스에 저장해 두고 새로운 사례가 들어올 때마다 이전의 사례와 비교하여 기존의 해답을 수정하여 올바른 해답을 찾는 기법이다. 개인이나 집단이 자주 방문하는 카테고리 그룹은 또 방문할 가능성이 높다. 따라서 그러한 카테고리 그룹을 후보그룹으로 선정하여 우선적으로 검색결과로서 제공해 준다. 즉, 사례기반추론기법은 과거 사례에 기초한 확률적 추론에 의해 필요한 정보만을 추출하여 우선적으로 제공하고, 불필요한 정보는 필터링하여 걸러 내거나 후순위로 배치하는 식으로 검색결과를 제공한다.

도 6에 개략적으로 도시된 흐름도를 참조하여 보다 구체적으로 설명한다. 이 사례기반추론기법은 먼저, 검색요청에 따른 해결해야 할 문제가 주어지면 사례베이스에 저장되어 있는 과거 사례들 가운데 유사한 사례를 조회한다. 사례의 조회는 그 주어진 질의어가 속하는 카테고리 그룹을 찾는 것으로 이루어진다. (S22, S24 단계)

이러한 사례 조회를 위해서는 사례베이스의 구축이 필요하다. 사례베이스에는 각 개인별로 사이트 방문 히스토리를 사례로서 저장 관리한다. 이를 위해, 로봇부(310)를 통해 수집된 각 웹사이트 정보는 그것의 특성 내지 종류에 따라서 소속될 카테고리 그룹을 부여하여 로컬 인덱스 DB(220)에 사례베이스의 데이터로 저장한다. 또한, 어떤 사람이 본 발명의 검색엔진 사이트를 통해 검색을 하고 그 검색결과에 기초하여 웹사이트를 방문하게 되면 그러한 사이트 방문 히스토리를 하나의사례로 취급하여 사례베이스에 저장한다. 이러한 방식으로 개인별 및 검색엔진 이용자 전체에 대하여 검색을 통한 웹사이트 방문 사례를 축적해나간다. 사례베이스에 축적되는 과거 사례들은 카테고리 그룹별로 분류한다. 이러한 방식으로 구축된 사례베이스의 데이터를 활용하면, 개인별 혹은 이용자 전체의 사이트 방문 동향에 관한 정보, 즉 사례를 얻을 수 있다.

조회된 사례가 현재의 상황 즉, 회원테이블에 저장되어 있는 개인별 방문히스토리와 완전히 일치하는 경우에는 그 사용자의 사례를 해결책으로 제시하면 될 것이다. 그런데 보통은 주어진 문제와 완전히 일치하는 사례가 존재하는 경우는 흔치 않다. 이와 같은 경우 사례추론기를 통해 주어진 질의어와 유사하게 일치하는 카테고리 그룹을 선정하여 현재 상황에 맞는 해결책을 제시하는 알고리즘에 의해 적응 과정을 거친다. 적응과정을 통과한 해결책은 현재 문제에 실제로 적용하는 시험 단계를 거쳐 성공 혹은 실패로 그 결과가 나타난다. 제안된 해결책이 문제해결에 성공한 경우 현재 문제에 대한 데이터를 새로운 사례로 만들어서 사례베이스에 저장하게 된다. 만약 제안된 해결책이 문제해결에 실패하면 교정규칙을 이용하여 새로운 해결책을 제시한 다음 다시 시험 과정을 거치는 교정 단계가 반복된다.

위의 과정을 예를 들어 설명한다. 만약 어떤 사람의 특정 카테고리 그룹, 예컨대 '요리'에 대한 방문빈도가 임계치를 넘으면 그 사람은 요리에 관심이 있는 사람으로 볼 수 있다. 그러한 사람이 질의어로서 '고등어'를 입력하여 검색을 요청하면 사례기반추론기법에 의할 경우 다른 카테고리 그룹보다는 '요리' 카테고리 그룹에 관련된 고등어 정보를 구할 확률이 매우 높은 것으로 추론할 수 있다. 물론 그사람이 현재 구하는 '고등어'에 관한 정보가 '요리'에 관련된 것이 아니고, 생물학적 관점에서의 고등어 정보 혹은 수산업에 관련된 고등어 정보를 구할 수도 있겠지만 그 사람의 과거 검색사례로 볼 때 이는 확률적으로 낮다고 추론할 수 있다. 예컨대 어떤 개인의 카테고리 그룹에 대한 접속빈도율이 '요리'카테고리, '생물학'카테고리 그리고 '수산업'카테고리 등의 순서라면, '고등어'라는 질의어로 검색을 요청하였을 때, 사례베이스에 축적된 과거사례에 기초할 때, '요리' 카테고리 그룹에 속하는 고등어 관련 사이트 정보를 우선적으로 제공한다. 예컨대 검색결과를 담은 히트 리스트에서 선순위에 배치하는 방식으로 검색결과를 제공한다. 그리고 접속빈도가 상대적으로 낮은 카테고리 그룹에 속하는 고등어 관련 사이트 정보는 히트 리스트에서 후순위로 배치한다. 만약 그 사람의 과거 사례에 관한 히스토리 정보가 부족한 경우, 차선책으로서 사례 베이스에 기록된 다른 모든 사람들의 과거 사례에 기초하여 추론한다. 본 발명의 사례기반추론기법은 이렇게 개인 또는 전체의 과거 사례에 기초해서 얻어지는 각 카테고리 그룹에 대한 접속빈도율에 의거하여 검색결과를 제공한다.

사례기반추론기법에서는 다음과 같은 추론과정을 거쳐 주어진 질의어와 유사성이 높은 관련 카테고리 그룹을 결정하고 이 그룹의 하부 트랜잭션들을 사례 정보로 제공한다.

1) 주어진 질의어와 유사한 사례그룹을 사례베이스에 대하여 검색한다.

2) 문제를 해결하기 위해 사례베이스에 저장되어 있는 사례를 재사용하여 관련 문서 수를 계산하고, 유사 군집화 알고리즘을 통하여 질의어와 유사성이 높은 카테고리 그룹을 결정한다.

3) 유사도에 의해 카테고리 그룹이 변경되면 카테고리 정보를 개선 내지 수정한다.

4) 새롭게 결정된 카테고리 그룹을 새로운 사례정보로 보유한다.

사례베이스에 저장된 히스토리 사례와 완전히 일치하는 사례를 찾는 것은 사실 어려우므로 부분적인 일치를 허용하게 된다. 예컨대 어떤 사람의 질의어가 '고등어'일 때, 그 사람이 과거에 '고등어'와 관련하여 방문한 사이트를 가장 먼저 보여주는 것이 그 사람의 요구를 가장 정확하게 반영한 검색결과일 가능성이 높다. 따라서 이러한 사이트 정보를 검색결과로서 우선적으로 제공할 수 있다. 이러한 개념의 검색은 후술할 히스토리 검색이다. 그런데 일반적으로는 그러한 사이트의 개수는 그리 많지 않을 수 있으므로 보다 풍부한 사이트 정보를 제공하기 위해서는 질의어와 관련성은 더 낮아질 수 있지만 평소에 자주 방문하였던 카테고리 그룹에서 고등어와 관련된 사이트 정보를 찾아서 검색결과로 제공한다면 검색자의 요구에 잘 부응할 가능성이 높다.

사례베이스에 저장된 히스토리 사례와 부분적인 일치 즉 유사성(similarity)을 어떻게 평가하느냐에 따라서 시스템의 성능이 좌우될 수 있다. 적절한 사례를 평가하는 방법으로 최근접 이웃탐색법 (the nearest-neighbor search)이 있다. 이는 새로운 문제의 특성과 사례베이스에 있는 각 사례의 대응하는 특성을 하나씩 비교하는 매우 간단한 방법이지만, 사례베이스의 크기가 증가함에 따라 비용이 급속하게 증가하는 소모적 평가 방법이다. 따라서 본 발명에서는 이를 채용하지 않고, 대신에 유사성 평가함수를 위해 유사 군집화(Clustering) 알고리즘을 적용한다. 이 군집화 알고리즘은 주어진 관찰치 중에서 유사한 것들을 몇몇의 집단으로 그룹화 하여 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 분석방법이다.

이 알고리즘은 질의어 q에 대해서 사례베이스 db가 반환하는 관련 문서의 개수를 |db(q)|라 할 때 다음 식으로 표현된다. (S26 단계)

위 식 (3)은 질의어 q에 대해 사이트명 Ti, 사이트가 속하는 카테고리 Ci, 사이트의 설명부 Di 를 갖는 트랜잭션들과 패턴매칭 작업을 반복적으로 실시할 때 질의어와 일치하는 트랜잭션의 수를 의미한다. 이것은 주어진 예제 질의에 대해서 사례베이스가 관련 문서를 많이 반환하는 경우에는 그 질의를 이루는 각 용어에 대한 사례집합의 유사도가 증가하고, 관련 문서를 반환하지 않는 경우에는 그 질의를 이루는 각 용어에 대한 사례집합의 유사도는 감소한다는 것을 뜻한다. 따라서 충분한 예제질의들에 대해서 이러한 방법으로 각 용어에 대한 사례베이스의 관련도를 계속적으로 조정하여 얻어진 결과를 사용하여 그 질의어와 관련된 정보의 카테고리집합을 T라 하고 유사 질의어 q'가 q'⊆T을 만족하는 개인 및 전체 문서 데이터베이스와의 유사도 SM(q, case_i)을 계산하는 평가함수를 다음 식 (4)과 같이 정의한다. (S28 단계)

따라서 본 발명에서는 평가함수에 의해 결정된 카테고리 평가값 중에서 최대값을 갖는 카테고리 집합을 그 질의어와 관련성이 가장 높은 유사 카테고리 군집으로 설정하고 그 카테고리 군집에 속하는 모든 하부 트랜잭션들을 사례기반 검색 정보들로 제공한다. (S30 단계).

본 발명에 따른 검색엔진을 위에서 설명한 사례기반추론기법과 연관규칙추론기법을 적용하여 추론엔진을 포함하여 구성된다. 그런데, 이들 두 가지 기법에 의해 얻어지는 검색결과로는 만족스럽지 못한 경우도 있을 것이다. 따라서 실제 검색엔진을 구성함에 있어서, 자료의 양은 적지만 관련성이 높은 자료를 제공하는단계(예컨대 히스토리검색단계, 사례기반검색단계)에서부터 자료의 양은 많지만 관련성이 적은 자료를 제공하는 단계(예컨대 일반검색단계, 전문웹검색단계, 웹페이지 검색단계 등) 순으로 검색단계를 여러 단계로 구분하여 제공함으로써, 사용자가 자신의 필요에 따라 선택하여 사용함으로써 보다 효율적이고 지능적인 검색이 이루어질 수 있도록 하는 것이 바람직하다.

히스토리검색단계는 로그인을 해야만 제공되는 서비스로서 MS익스플로러의 즐겨찾기와 비슷하다. 즉, 앞서 언급하였듯이, 주어진 검색어와 일치하고 사용자가 이전에 방문한 사이트가 있다면 그 자료 들 중에서 정확히 일치하는 자료들만을 보여 준다. 자료의 지역성을 충분히 고려한 검색기법이다.

사례기반검색단계는 위에서 설명되었듯이, 주어진 검색어와 개인 사용자나 전체 사용자가 이전에 방문한 기록을 바탕으로 확률적 추론 기능을 수행하여 개인에게 가장 적합하다고 생각되는 후보 사이트에 관한 정보를 제공한다. 개인별 맞춤형 서비스가 제공되기 위해서는 먼저 로그인을 해야 하며 로그인이 되면 개인별 사례기반 추론서비스 뿐만 아니라 히스토리검색 기능과 개인일정관리 기능도 함께 제공한다.

일반검색단계는 본 발명에 따른 검색 시스템에서 자체적으로 보유하고 있는 특정 전문영역(예컨대 해양관련 영역)의 정보만을 제공한다. 이 검색에서는 검색어를 의미론적으로 해석하여 관련성 없는 자료는 검색되지 않는다. 또한 현재 동작하고 있지 않거나 정지하고 있는 사이트는 걸러서 보여 주지 않는다.

전문웹검색단계는 한미르, 야후, 네이버와 같은 기존 상용 검색엔진에서 카테고리 정보를 기준으로 검색하여 사용자에게 정보를 제공한다. 이 검색방법은 일반 검색과는 달리 일부 동작하지 않는 사이트가 보여 지거나 가끔 관련성 없는 정보도 검색된다.

웹페이지검색단계는 상용검색엔진에서 검색어와 관련된 모든 웹 문서를 검색하여 일치하는 모든 정보를 제공하기 때문에 문서의 양이 굉장히 방대하다. 따라서 불필요하거나 중복되어 있거나 혹은 관련성이 없는 문서도 함께 제공되어 사용자에게는 큰 도움이 되지 않을 수도 있다.

이상의 각 검색단계는 사용자가 입력한 질의어와 색인 데이터베이스의 자료 또는 이와 함께 외부의 검색DB에서 가져온 자료를 비교하여 검색결과를 제공하되, 뒤쪽의 단계로 갈수록 검색결과로서 제공되는 자료의 양은 늘어나지만 질의어와의 관련성은 점점 낮은 자료가 더욱 많이 포함된다.

이상과 같은 본 발명의 검색엔진은 특히 특정한 전문분야에 관련된 정보만을 모아 로컬 인덱스 데이터베이스로 구축하고, 그러한 한정된 전문분야에 관한 정보만을 검색해주는 용도로 활용하면 검색의 정확도를 높일 수가 있어서 효과적이다. 이 경우 기존의 야후 등과 같은 종합적인 정보에 대한 검색엔진과는 보완적인 관계를 가질 수 있을 것이다. 그렇지만 본 발명이 제안하는 두 검색기법이 제한된 분야의 정보에 대해서만 적용될 수 있다는 것의 의미하는 것은 아니다.

본 발명에 의한 사례기반추론기법 및 연관규칙추론기법을 이용한 검색방법은검색요청을 한 사용자의 의도를 정확히 파악하여 사용자별로 맞춤형의 전문 지식을 검색결과로서 제공할 수 있으며, 나아가 문제 영역지식을 이용하거나 사용자의 선호도를 고려하는 지능적 검색을 통해 개별화된 검색정보를 제공할 수 있다.

이러한 검색방법을 통해 사용자는 불필요한 사이트를 방문하거나 이미 검색된 결과에서 사용자가 원하는 정보를 다시 아이체크(Eye Check)를 통해 재 검색하는 등과 같은 불합리성을 개선할 수 있다. 또한 이러한 지능적 검색 방법은 자신이 원하는 정보를 검색하기 위해 두 개 이상의 검색프로그램을 동시에 사용하는 시간적, 경제적 비용을 줄일 수 있는 새로운 문제해결 방법론이 될 것으로 사료된다.

이상에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있다. 따라서 특허청구범위의 등가적인 의미나 범위에 속하는 모든 변화들은 전부 본 발명의 권리범위 안에 속함을 밝혀둔다.

Claims

검색 요청자에 의해 주어진 질의어와 관련된 정보를 제공하기 위한 검색방법에 있어서,

상기 질의어와 유사한 사례그룹을 사례베이스에 대하여 검색하는 단계;

상기 사례베이스에 저장된 사례들을 재사용하여 상기 질의어와의 관련 문서수를 계산하는 단계;

유사군집화 알고리즘을 이용하여 상기 질의어와 유사도가 높은 카테고리 그룹을 유사 카테고리 군집으로 선정하는 단계; 및

선정된 유사 카테고리 군집에 속하는 모든 하부 트랜잭션들을 상기 질의어에 관한 사례기반 검색정보로서 제공하는 단계를 구비하는 것을 특징으로 하는 사례기반추론기법을 이용한 정보 검색방법.
제 1항에 있어서, 유사도에 의해 카테고리 그룹이 변경되면 카테고리 정보를 개선하고, 새롭게 결정된 카테고리 그룹을 새로운 사례정보로 보유하는 단계를 더 구비하는 것을 특징으로 하는 정보 검색방법.
제 1항 또는 제 2항에 있어서, 상기 관련 문서수는 상기 질의어에 대하여 사이트명, 사이트가 속하는 카테고리, 사이트의 설명부를 갖는 트랜잭션들과 패턴매칭 작업을 반복적으로 실시할 때 질의어와 일치하는 트랜잭션의 수인 것을 특징으로 하는 정보 검색방법.
제 1항 또는 제 2항에 있어서, 상기 질의어에 대한 사례집합의 유사도는 다음의 유사도 평가함수를 이용하여 계산되며, 상기 유사도 평가함수에 의해 결정된 카테고리 평가값 중에서 최대값을 갖는 카테고리 집합을 그 질의어와 관련성이 가장 높은 유사 카테고리 군집으로 설정하며, 아래 평가함수 식에서 |PH(q)|는 개인 히스토리 집합의 트랜잭션 수, |AH(q)|는 전체 집합의 트랜잭션 수, |db_p(q)|는 개인 히스토리 집합에서의 관련문서의 수, |db_a(q)|는 전체 집합에서의 관련문서의 수, α와 β는 가중치를 나타내는 것을 특징으로 하는 확률적 정보 검색방법.
검색 요청자에 의해 주어진 질의어와 관련된 정보를 제공하기 위한 검색방법에 있어서,

인덱스 데이터베이스에 대하여 탐사하여 상기 질의어와 관련하여 미리 설정된 최소 지지도를 만족하는 빈발항목집합을 추출하는 단계;

추출된 빈발항목 집합을 대상으로 신뢰도 평가함수를 이용하여 각 빈발항목에 대하여 신뢰도를 계산하는 단계; 및

계산된 신뢰도가 임계값으로 미리 정의된 최소신뢰도 이상을 만족하는 경우, 그에 해당하는 항목을 상기 질의어와 연관성이 있는 최종 항목을 결정하여 검색결과로서 제공하는 단계를 구비하는 것을 특징으로 하는 연관규칙탐사기법을 이용한 정보 검색방법.
제 5항에 있어서, 상기 빈발항목집합 추출단계는, 상기 질의어를 연관규칙 테이블의 기본 키와 비교하여 일치하는 레코드들을 객체배열에 저장하는 단계; 지지도 평가함수를 이용하여 각 레코드 항목의 지지도를 계산하는 단계; 및 계산된 지지도가 상기 최소지지도를 만족하는 경우의 항목을 빈발항목집합의 항목으로 결정하는 단계를 구비하는 것을 특징으로 하는 확률적 정보 검색방법.
제 5항에 있어서, 상기 빈발항목집합을 추출할 때 트랜잭션의 크기와 개수를 줄이기 위해, 검색시스템 내부에서 관리되며 사용자의 탐색 패턴이 저장된 로컬 인덱스 데이터베이스로 탐색영역을 제한하는 것을 특징으로 하는 정보 검색방법.
제 5항 내지 7항 중 어느 하나에 있어서, 상기 신뢰도 평가함수는 아래 식으로 표현되며, 아래 식에서 α는 AND 연산의 가중치, β는 OR 연산의 가중치를 의미하며,An은 AND 연산의 횟수 그리고On은 OR 연산의 횟수를 의미하는 것을 특징으로 하는 확률적 정보 검색방법.