KR20230052539A

KR20230052539A - 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법

Info

Publication number: KR20230052539A
Application number: KR1020210135704A
Authority: KR
Inventors: 전종훈
Original assignee: (주)프람트테크놀로지
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2023-04-20

Abstract

본 발명은 메타데이터를 활용하여 데이터셋을 검색하기 위한 검색 시스템에서 적용 가능한 새로운 연관관계 계산 방식에 관한 것으로, 보다 상세하게는 데이터셋 검색에서 필연적으로 색인을 하게 되는 메타데이터를 적극적으로 활용하되, 각 항목의 특성을 고려하여 차별화된 가중치를 부여함으로써 연관 검색의 효과를 증대하는 방법에 관한 것으로, 초기 검색에 이은 후속 검색에서 원천 질의의 검색 의도를 반영하는 것은 물론, 데이터셋의 품질, 최신성, 사용성을 고려하여 연관성 검색을 수행하고 이를 순위값으로 반환함으로써 융합이 가능한 여러 데이터셋을 연관성 순위 별로 일거에 검색할 수 있는 효과가 있다.

Description

데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법{METADATA-BASED RELEVANT DATASET RETRIEVAL METHOD CONSIDERING DATASET QUALITY}

본 발명은 메타데이터를 활용하여 데이터셋을 검색하기 위한 검색 시스템에서 적용 가능한 새로운 연관관계 계산 방식에 관한 것으로, 보다 상세하게는 적어도 하나 이상의 식별자 및 상기 식별자와 연계된 데이터셋을 포함한 데이터베이스를 포함하고 각각의 데이터셋과 매칭되는 메타데이터를 색인화한 별도의 데이터베이스가 제공하는 환경에서 사용자가 필요로 하는 데이터셋을 텍스트 형태의 질의로 작성하여 제출할 때 검색되어지는 데이터셋의 순위를 결정하는데 있어서 ⅰ) 사용자에 의해 제출된 질의에 부합하는 데이터셋을 검색하기 위해 사용하는 주어진 질의와 데이터셋의 연관성 점수를 계산하는 단계,; ⅱ) 사용자가 선택한 특정 데이터셋과 융합 가능한 후속 데이터셋을 연관성 점수 기반으로 계산하여 제공하는 단계를 포함한 메타데이터 기반 연관 데이터셋 검색 방법에 관한 것이다.

최근 빅데이터 활용에 대한 요구사항이 증대됨에 따라 데이터 분석에 필요한 데이터셋 검색 기술에 대한 관심 또한 늘어나고 있다. 데이터셋은 필연적으로 데이터셋에 대한 부가적인 설명을 담고 있는 메타데이터와 쌍으로 존재하며, 데이터셋의 검색을 위해서는 메타데이터를 색인하여 이를 활용하여 검색 시스템을 구축하는 것이 일반적이다.

데이터셋에 대한 메타데이터는 표준이 존재하며 2개의 경쟁관계에 있는 표준, DCAT과 Schema.org 모두 제목, 설명, 키워드, url, 수정일자 등의 항목으로 이루어져 있다. 따라서 각각의 항목에 포함되어 있는 텍스트를 인덱싱하여 이를 검색에 활용하는 것이 실제 데이터셋 자체를 인덱싱하는 것보다 검색 측면에서 훨씬 합리적인 선택임을 쉽게 알 수 있다. 다만, 현업에서 실질적으로 사용되는 메타데이터 항목들은 타이틀, 설명, 키워드 등의 극소수에 불과하며 많은 다른 메타데이터 항목들은 잘 사용되지 않거나 검색에 기여도가 높지 않은 내용들로 채워지는 경우가 많다. 따라서 메타데이터에 포함되는 항목 중 타이틀, 설명, 키워드 등의 몇몇 항목이 기타 다른 버전, url 등의 항목에 비해서 상대적으로 중요도가 높고 검색에 기여하는 정도가 더 높을 수 있다고 가정하고, 각 메타데이터 항목별로 각기 다른 가중치를 부여하여 검색 질의 요구사항에 부합하는 정도를 계산할 수 있는 새로운 방식이 필요하다는 점에 주목한다.

또한 데이터셋 검색은 데이터베이스 질의 환경과는 상이한 것이, 분석에 필요한 융합 가능한 여러 데이터셋을 한꺼번에 찾고자 하는 경우가 많기 때문에 원천 질의와 유사하면서 초기에 검색 되어진 데이터셋과 연관 관계에 있는 유사 데이터셋을 추가적으로 검색하고자 하는 요구사항이 있다. 이를 반영하기 위해서는 품질이 좋고, 최근에 갱신되었으며, 다른 사용자들이 많이 사용했던 데이터셋에 가점을 부여하고, 원천 질의와의 연관성 여부도 고려하여 초기 데이터셋과 융합 가능한 데이터셋의 연관성 점수를 계산하고 이를 순위값으로 반환할 수 있는 새로운 방식의 연관성 점수 계산 방식이 추가적으로 필요하게 된다.

기존의 문서 검색엔진들이 메타데이터 항목이나 특성을 고려하지 않고, 단순히 본문 텍스트에 출현하는 단어 빈도수 등만을 기반으로 색인을 만들어서 검색을 수행하는 방식과는 근본적으로 다른 데이터셋 검색에 특화된 새로운 방식의 검색 기술이 필요한 것이다.

대한민국 공개특허 제10-2018-0111904호

1. Noy, N., Burgess, M., Brickley, D.: Google dataset search: building a search engine for datasets in an open web ecosystem. In:28th Web Conference (WebConf 2019) (2019) 2. Sansone, S.A., Gonzㅱlez-Beltrㅱn, A., Rocca-Serra, P., Alter, G.,Grethe, J., Xu, H., Fore, I., Lyle, J., E. Gururaj, A., Chen, X., Kim,H., Zong, N., Li, Y., Liu, R., Burak Ozyurt, I., Ohno-Machado,L.: Dats, the data tag suite to enable discoverability of datasets. Sci. Data 4 (2017).

따라서, 본 발명이 이루고자 하는 기술적 과제는 종래 문서 검색에 최적화 되어 있는 일반적인 검색엔진에서 사용하는 연관성 점수 계산 방식을 지양하고, 데이터셋에 대한 설명정보를 포함하고 있는 메타데이터의 특성과 항목별 중요도를 고려하고 고품질 데이터셋에 높은 점수를 부여하는 방식으로 데이터셋을 검색하여 이를 기반으로 연관성 점수를 계산하고 이에 기반한 순위를 제공할 수 있는 방법을 제공하는 것이다.

상기 기술적 과제를 달성하기 위하여, 본 발명은 적어도 하나 이상의 식별자 및 상기 식별자와 연계된 데이터셋을 포함한 데이터베이스를 포함하고 각각의 데이터셋과 매칭되는 메타데이터를 포함한 데이터베이스를 대상으로 네트워크상에서 통신가능하며 각각의 사용자가 필요로 하는 데이터셋을 검색하는 방법에 있어서, ⅰ)사용자에 의해 제출된 질의에 부합하는 데이터셋을 검색하기 위해 사용하는 주어진 질의와 데이터셋의 연관성 점수를 계산하는 단계,; ⅱ)사용자가 선택한 특정 데이터셋과 융합 가능한 후속 데이터셋을 연관성 점수 기반으로 계산하여 제공하는 단계를 포함한 메타데이터 기반 연관 데이터셋 검색 방법에 관한 것으로 주어진 질의에 대한 데이터셋의 연관성 점수 계산 방법과 선택된 특정 데이터셋과 나머지 데이터셋들간의 연관성 점수 계산 방법을 제공한다.

또한, 본 발명은 상기 i)단계의 연관성 점수 계산 방식이 질의 텍스트와 데이터셋의 메타데이터 항목에 포함된 텍스트와의 유사도 계산 방식을 이용하여 수행되는 것을 특징으로하는 연관성 점수 계산 방법을 제공한다.

또한, 본 발명은 i)단계의 연관성 점수를 계산 하는데 있어서 메타데이터 항목의 특성을 고려하여 항목별로 차별화된 가중치를 부여하는 방식으로 값을 산출함으로써, 기존의 통상적인 문서 검색엔진에서 메타데이터 항목이나 특성을 고려하지 않고 본문 텍스트에 출현하는 단어 빈도수 등만을 기반으로 검색을 수행하는 방식과는 차별화된 연관성 점수 계산 방법을 제공한다.

또한, 본 발명은 상기 연관성 점수 계산 방식에서 a)메타데이터 테이블

의 컬럼들을 각각

필드라 하고, 주어진 질의

와 각 필드

의 연관성 점수를 함수

로 계산할 때, 각 필드

의 중요도를 감안하여 차별화된 가중치

를 부여하는 단계,; b) 이를 각각의

에 곱하여 합을 구함으로써 주어진 질의

와 전체 메타데이터 테이블

와의 연관성 점수

를 계산하는 단계를 포함한 방법으로 수행된 것을 특징으로 한 연관성 점수 계산 방법을 제공한다.

또한, 본 발명은 상기 ii)단계의 연관성 점수 계산 방식이 데이터셋과 데이터셋간의 메타데이터 항목들에 포함된 텍스트 유사도 계산 방식을 이용하여 수행되는 것을 특징으로하는 연관성 점수 계산 방법을 제공한다.

또한, 본 발명은 상기 연관성 점수 계산 방식에서 a)데이터셋

의 메타데이터가

이고 데이터셋

의 메타데이터가

일 때, 두 메타데이터 테이블

와

의 매칭 필드별 연관성 점수(

)를 구하는 단계,; b)주어진 메타데이터 테이블

를 구하는데 사용된 원천 질의

와

의 연관성 점수(

)를 구하는 단계,; c)

에 매칭되는 데이터셋

의 최신성(recency) 점수

를 구하는 단계,; d)사용성(usage frequency) 점수

를 구하는 단계,; e)품질(quality) 점수

를 구하는 단계,; f) 상기 a) b) c) d) e)단계의 결과를 모두 합하는 단계를 포함한 방법으로 수행된 것을 특징으로 하는 연관성 점수 계산 방법을 제공한다.

본 발명은 하나 이상의 데이터셋을 데이터 분석에 활용하고자하는 데이터 분석가가 필요로 하는 데이터셋을 검색함에 있어, 데이터셋의 설명자료에 해당하는 메타데이터를 색인의 일부로 활용하여 검색을 수행하는 것은 물론, 검색된 데이터셋을 정렬함에 있어 본 발명에서 제공하는 차별화된 연관성 점수 계산방식을 사용하여 이를 랭킹값으로 활용함으로써 데이터분석가의 원천 요구사항을 기술한 질의는 물론, 주어진 질의에 의해 검색되어진 데이터셋과 융합이 가능한 후속 데이터셋 검색을 용이하게 수행할 수 있어 데이터 분석은 물론 여러 데이터셋 융합에 의한 데이터 분석이 필요한 경우의 데이터셋 검색에 적용해 사용할 수 있다.

이하에서 본 명세서에 첨부된 수식을 참조하여 본 발명을 상세히 설명한다.

수식 1은 주어진 질의

에 대한 특정 데이터셋의 메타데이터 테이블

의 연관성 점수(relevance score)를 계산하는 식이다.

[수식 1]

where

여기에서 메타데이터 테이블

는 메타데이터 항목들을 컬럼으로 가지는 형태로 가정하며, 제목, 설명, 키워드 등 각각의 메타데이터 항목에 대응하는 컬럼은 식(1)의 필드(field)

에 해당한다. 메타데이터 테이블

의 컬럼들을 각각

필드라 하고, 주어진 질의

와 각 필드

의 연관성 점수를 함수

로 계산할 때, 각 필드

의 중요도를 감안하여 차별화된 가중치

를 부여하고 이를 각각의

에 곱하여 합을 구함으로써 주어진 질의

와 전체 메타데이터 테이블

와의 연관성 점수

를 계산한다. 이때

, 즉 메타데이터 각 항목의 가중치에 대한 합은 1로 한다. 즉, 질의

에 대한 메타데이터

의 연관성 점수는 각 메타데이터 필드의 중요도를 감안하여 각기 상이한 가중치를 부여하고 각 메타데이터 필드와 질의

와의 연관성 점수를 곱하고 이의 총합을 구함으로써 전체 메타데이터와 질의

와의 연관성 점수를 구하고, 이를 각 주어진 질의

에 대한 각 데이터셋의 랭킹값으로 리턴하게 되는 방식이다.

수식 2는 주어진 메타데이터 테이블

에 대한 메타데이터 테이블

와의 연관성 점수를 구하는 식이다.

[수식 2]

where

데이터셋

의 메타데이터가

이고 데이터셋

의 메타데이터가

일 때, 두 메타데이터가 충분히 잘 기술되었다고 가정하면, 두 메타데이터 테이블의 연관성 점수를 구하는 것은 곧 두 데이터셋

,

의 연관성 점수를 구하는 것과 같다고 볼 수 있다. 다만 주어진

에 대한

의 연관성 점수를 구할 때, 단순히 두 메타데이터 테이블의 매칭 필드별 연관성 점수(

)만을 사용해서 구하는 것이 아니라, 주어진 메타데이터 테이블

를 구하는데 사용된 원천 질의(original query)

와

의 연관성 점수(

),

에 매칭되는 데이터셋

의 최신성(recency) 점수

, 사용성(usage frequency) 점수

, 품질(quality) 점수

를 합하여 구한다. 이때 식(1)과 유사하게 전체

들의 합은 1로 하며(

), 전체 매개변수

,

의 합 역시 1로 한다(

).

는 서로 다른 메타데이터 테이블

와

간의 동일한 필드

쌍의 연관성 점수를 계산하여 필드의 중요도(weight)와 곱한 후, 이를 모두 합하고 매개변수 알파(

)를 곱한 값이다.

는 메타데이터 테이블

의

번째 필드를 의미하며,

는 메타데이터 테이블

의

번째 필드를 의미한다.

에서

는

를 검색하였을 때 사용한 원천 질의로써, 그 원천 질의

와 메타데이터 테이블

의 모든 필드와의 연관성 점수를 쌍으로 계산하고 중요도를 고려하여 설정된 필드 별 가중치를 곱하고 이를 모두 합한 후 나온 값에 매개변수 베타(

)를 곱한 값이다. 데이터셋

의 최신성 점수는

가 얼마나 최신의 데이터셋인지에 대한 값을 지표로 변환한 값이다.

최신성 점수는 예를 들어 Schema.org 메타데이터 항목 중 데이터셋이 최신으로 수정된 날짜를 의미하는

항목을 기준으로 수식 3과 같은 방식으로 계산이 가능하다.

[수식 3]

다만,

항목의 값이 존재하지 않으면

이나

로 대체를 하여 계산을 하고, 위 세 항목의 값이 모두 존재하지 않을 경우 최신성 점수는 0으로 계산하는 방식을 취할 수 있다.

사용성 점수는 수식 4와 같은 방식으로 사용자들이 데이터셋

를 다운 받은 횟수나, 데이터셋

의 클릭수 등의 정보를 사용하여 계산할 수 있다.

[수식 4]

예를 들어, Schema.org를 사용하는 경우에는 interactionStatistic에 중첩되어 있는 댓글수, 다운로드수, 뷰수, 좋아요 개수 정보 중 일부를 사용하거나, 댓글 수와 다운로드수를 식(4)에서의

(download count, 다운로드수)와 뷰수와 좋아요 개수를

(view count, 뷰수)로 설정하고 이를 시그모이드¹1 시그모이드 함수

함수에 대입하는 방식으로 구할 수 있다. 데이터셋 품질점수

는 별도의 품질 함수

에 의해 주어진 데이터셋

의 품질을 산정하고 이를

에 대한

의 연관성 점수에 반영하기 위해 사용한다. 품질 함수

는 예를 들어, 데이터셋의 품질을 사용자들의 품질평가 결과에 따라 별점 0점에서부터 5점으로 분류하여 부여한 값이 존재한다고 가정할 때, 평균 별점 값 rating에

를 곱하여 구할 수 있다.

Claims

적어도 하나 이상의 식별자 및 상기 식별자와 연계된 데이터셋을 포함한 데이터베이스를 포함하고 각각의 데이터셋과 매칭되는 메타데이터를 포함한 데이터베이스를 대상으로 네트워크상에서 통신가능하며 각각의 사용자가 필요로 하는 데이터셋을 검색하는 방법에 있어서,
ⅰ)사용자에 의해 제출된 질의에 부합하는 데이터셋을 검색하기 위해 사용하는 주어진 질의와 데이터셋의 연관성 점수를 계산하는 단계,;
ⅱ)사용자가 선택한 특정 데이터셋과 융합 가능한 후속 데이터셋을 연관성 점수 기반으로 계산하여 제공하는 단계를 포함한 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법.
제1항에 있어서,
상기 ⅰ)단계의 주어진 질의
와 각 필드
의 연관성 점수를 함수
로 계산할 때, 각 필드
의 중요도를 감안하여 차별화된 가중치
를 부여하여 수행되는 것을 특징으로 한 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법.
제1항에 있어서,
상기 ⅱ단계는 a)주어진 메타데이터 테이블
를 구하는데 사용된 원천 질의(original query)
와
의 연관성 점수(
)를 구하는 단계,;
b)주어진 메타데이터 테이블
를 구하는데 사용된 원천 질의
와
의 연관성 점수(
)를 구하는 단계,;
c)
에 매칭되는 데이터셋
의 최신성(recency) 점수
를 구하는 단계,;
d)사용성(usage frequency) 점수
를 구하는 단계,;
e)품질(quality) 점수
를 구하는 단계,;
f) 상기 a) b) c) d) e) 단계에서 사용되는 매개변수
,
,
,
,
의 합을 1로 하여 각 단계의 결과를 모두 합하는 단계를 포함한 방법으로 수행된 것을 특징으로 하는 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법.