KR20230052539A - 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법 - Google Patents

데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법 Download PDF

Info

Publication number
KR20230052539A
KR20230052539A KR1020210135704A KR20210135704A KR20230052539A KR 20230052539 A KR20230052539 A KR 20230052539A KR 1020210135704 A KR1020210135704 A KR 1020210135704A KR 20210135704 A KR20210135704 A KR 20210135704A KR 20230052539 A KR20230052539 A KR 20230052539A
Authority
KR
South Korea
Prior art keywords
dataset
metadata
score
quality
query
Prior art date
Application number
KR1020210135704A
Other languages
English (en)
Inventor
전종훈
Original Assignee
(주)프람트테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)프람트테크놀로지 filed Critical (주)프람트테크놀로지
Priority to KR1020210135704A priority Critical patent/KR20230052539A/ko
Publication of KR20230052539A publication Critical patent/KR20230052539A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 메타데이터를 활용하여 데이터셋을 검색하기 위한 검색 시스템에서 적용 가능한 새로운 연관관계 계산 방식에 관한 것으로, 보다 상세하게는 데이터셋 검색에서 필연적으로 색인을 하게 되는 메타데이터를 적극적으로 활용하되, 각 항목의 특성을 고려하여 차별화된 가중치를 부여함으로써 연관 검색의 효과를 증대하는 방법에 관한 것으로, 초기 검색에 이은 후속 검색에서 원천 질의의 검색 의도를 반영하는 것은 물론, 데이터셋의 품질, 최신성, 사용성을 고려하여 연관성 검색을 수행하고 이를 순위값으로 반환함으로써 융합이 가능한 여러 데이터셋을 연관성 순위 별로 일거에 검색할 수 있는 효과가 있다.

Description

데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법{METADATA-BASED RELEVANT DATASET RETRIEVAL METHOD CONSIDERING DATASET QUALITY}
본 발명은 메타데이터를 활용하여 데이터셋을 검색하기 위한 검색 시스템에서 적용 가능한 새로운 연관관계 계산 방식에 관한 것으로, 보다 상세하게는 적어도 하나 이상의 식별자 및 상기 식별자와 연계된 데이터셋을 포함한 데이터베이스를 포함하고 각각의 데이터셋과 매칭되는 메타데이터를 색인화한 별도의 데이터베이스가 제공하는 환경에서 사용자가 필요로 하는 데이터셋을 텍스트 형태의 질의로 작성하여 제출할 때 검색되어지는 데이터셋의 순위를 결정하는데 있어서 ⅰ) 사용자에 의해 제출된 질의에 부합하는 데이터셋을 검색하기 위해 사용하는 주어진 질의와 데이터셋의 연관성 점수를 계산하는 단계,; ⅱ) 사용자가 선택한 특정 데이터셋과 융합 가능한 후속 데이터셋을 연관성 점수 기반으로 계산하여 제공하는 단계를 포함한 메타데이터 기반 연관 데이터셋 검색 방법에 관한 것이다.
최근 빅데이터 활용에 대한 요구사항이 증대됨에 따라 데이터 분석에 필요한 데이터셋 검색 기술에 대한 관심 또한 늘어나고 있다. 데이터셋은 필연적으로 데이터셋에 대한 부가적인 설명을 담고 있는 메타데이터와 쌍으로 존재하며, 데이터셋의 검색을 위해서는 메타데이터를 색인하여 이를 활용하여 검색 시스템을 구축하는 것이 일반적이다.
데이터셋에 대한 메타데이터는 표준이 존재하며 2개의 경쟁관계에 있는 표준, DCAT과 Schema.org 모두 제목, 설명, 키워드, url, 수정일자 등의 항목으로 이루어져 있다. 따라서 각각의 항목에 포함되어 있는 텍스트를 인덱싱하여 이를 검색에 활용하는 것이 실제 데이터셋 자체를 인덱싱하는 것보다 검색 측면에서 훨씬 합리적인 선택임을 쉽게 알 수 있다. 다만, 현업에서 실질적으로 사용되는 메타데이터 항목들은 타이틀, 설명, 키워드 등의 극소수에 불과하며 많은 다른 메타데이터 항목들은 잘 사용되지 않거나 검색에 기여도가 높지 않은 내용들로 채워지는 경우가 많다. 따라서 메타데이터에 포함되는 항목 중 타이틀, 설명, 키워드 등의 몇몇 항목이 기타 다른 버전, url 등의 항목에 비해서 상대적으로 중요도가 높고 검색에 기여하는 정도가 더 높을 수 있다고 가정하고, 각 메타데이터 항목별로 각기 다른 가중치를 부여하여 검색 질의 요구사항에 부합하는 정도를 계산할 수 있는 새로운 방식이 필요하다는 점에 주목한다.
또한 데이터셋 검색은 데이터베이스 질의 환경과는 상이한 것이, 분석에 필요한 융합 가능한 여러 데이터셋을 한꺼번에 찾고자 하는 경우가 많기 때문에 원천 질의와 유사하면서 초기에 검색 되어진 데이터셋과 연관 관계에 있는 유사 데이터셋을 추가적으로 검색하고자 하는 요구사항이 있다. 이를 반영하기 위해서는 품질이 좋고, 최근에 갱신되었으며, 다른 사용자들이 많이 사용했던 데이터셋에 가점을 부여하고, 원천 질의와의 연관성 여부도 고려하여 초기 데이터셋과 융합 가능한 데이터셋의 연관성 점수를 계산하고 이를 순위값으로 반환할 수 있는 새로운 방식의 연관성 점수 계산 방식이 추가적으로 필요하게 된다.
기존의 문서 검색엔진들이 메타데이터 항목이나 특성을 고려하지 않고, 단순히 본문 텍스트에 출현하는 단어 빈도수 등만을 기반으로 색인을 만들어서 검색을 수행하는 방식과는 근본적으로 다른 데이터셋 검색에 특화된 새로운 방식의 검색 기술이 필요한 것이다.
대한민국 공개특허 제10-2018-0111904호
1. Noy, N., Burgess, M., Brickley, D.: Google dataset search: building a search engine for datasets in an open web ecosystem. In:28th Web Conference (WebConf 2019) (2019) 2. Sansone, S.A., Gonzㅱlez-Beltrㅱn, A., Rocca-Serra, P., Alter, G.,Grethe, J., Xu, H., Fore, I., Lyle, J., E. Gururaj, A., Chen, X., Kim,H., Zong, N., Li, Y., Liu, R., Burak Ozyurt, I., Ohno-Machado,L.: Dats, the data tag suite to enable discoverability of datasets. Sci. Data 4 (2017).
따라서, 본 발명이 이루고자 하는 기술적 과제는 종래 문서 검색에 최적화 되어 있는 일반적인 검색엔진에서 사용하는 연관성 점수 계산 방식을 지양하고, 데이터셋에 대한 설명정보를 포함하고 있는 메타데이터의 특성과 항목별 중요도를 고려하고 고품질 데이터셋에 높은 점수를 부여하는 방식으로 데이터셋을 검색하여 이를 기반으로 연관성 점수를 계산하고 이에 기반한 순위를 제공할 수 있는 방법을 제공하는 것이다.
상기 기술적 과제를 달성하기 위하여, 본 발명은 적어도 하나 이상의 식별자 및 상기 식별자와 연계된 데이터셋을 포함한 데이터베이스를 포함하고 각각의 데이터셋과 매칭되는 메타데이터를 포함한 데이터베이스를 대상으로 네트워크상에서 통신가능하며 각각의 사용자가 필요로 하는 데이터셋을 검색하는 방법에 있어서, ⅰ)사용자에 의해 제출된 질의에 부합하는 데이터셋을 검색하기 위해 사용하는 주어진 질의와 데이터셋의 연관성 점수를 계산하는 단계,; ⅱ)사용자가 선택한 특정 데이터셋과 융합 가능한 후속 데이터셋을 연관성 점수 기반으로 계산하여 제공하는 단계를 포함한 메타데이터 기반 연관 데이터셋 검색 방법에 관한 것으로 주어진 질의에 대한 데이터셋의 연관성 점수 계산 방법과 선택된 특정 데이터셋과 나머지 데이터셋들간의 연관성 점수 계산 방법을 제공한다.
또한, 본 발명은 상기 i)단계의 연관성 점수 계산 방식이 질의 텍스트와 데이터셋의 메타데이터 항목에 포함된 텍스트와의 유사도 계산 방식을 이용하여 수행되는 것을 특징으로하는 연관성 점수 계산 방법을 제공한다.
또한, 본 발명은 i)단계의 연관성 점수를 계산 하는데 있어서 메타데이터 항목의 특성을 고려하여 항목별로 차별화된 가중치를 부여하는 방식으로 값을 산출함으로써, 기존의 통상적인 문서 검색엔진에서 메타데이터 항목이나 특성을 고려하지 않고 본문 텍스트에 출현하는 단어 빈도수 등만을 기반으로 검색을 수행하는 방식과는 차별화된 연관성 점수 계산 방법을 제공한다.
또한, 본 발명은 상기 연관성 점수 계산 방식에서 a)메타데이터 테이블
Figure pat00001
의 컬럼들을 각각
Figure pat00002
필드라 하고, 주어진 질의
Figure pat00003
와 각 필드
Figure pat00004
의 연관성 점수를 함수
Figure pat00005
로 계산할 때, 각 필드
Figure pat00006
의 중요도를 감안하여 차별화된 가중치
Figure pat00007
를 부여하는 단계,; b) 이를 각각의
Figure pat00008
에 곱하여 합을 구함으로써 주어진 질의
Figure pat00009
와 전체 메타데이터 테이블
Figure pat00010
와의 연관성 점수
Figure pat00011
를 계산하는 단계를 포함한 방법으로 수행된 것을 특징으로 한 연관성 점수 계산 방법을 제공한다.
또한, 본 발명은 상기 ii)단계의 연관성 점수 계산 방식이 데이터셋과 데이터셋간의 메타데이터 항목들에 포함된 텍스트 유사도 계산 방식을 이용하여 수행되는 것을 특징으로하는 연관성 점수 계산 방법을 제공한다.
또한, 본 발명은 상기 연관성 점수 계산 방식에서 a)데이터셋
Figure pat00012
의 메타데이터가
Figure pat00013
이고 데이터셋
Figure pat00014
의 메타데이터가
Figure pat00015
일 때, 두 메타데이터 테이블
Figure pat00016
Figure pat00017
의 매칭 필드별 연관성 점수(
Figure pat00018
)를 구하는 단계,; b)주어진 메타데이터 테이블
Figure pat00019
를 구하는데 사용된 원천 질의
Figure pat00020
Figure pat00021
의 연관성 점수(
Figure pat00022
)를 구하는 단계,; c)
Figure pat00023
에 매칭되는 데이터셋
Figure pat00024
의 최신성(recency) 점수
Figure pat00025
를 구하는 단계,; d)사용성(usage frequency) 점수
Figure pat00026
를 구하는 단계,; e)품질(quality) 점수
Figure pat00027
를 구하는 단계,; f) 상기 a) b) c) d) e)단계의 결과를 모두 합하는 단계를 포함한 방법으로 수행된 것을 특징으로 하는 연관성 점수 계산 방법을 제공한다.
본 발명은 하나 이상의 데이터셋을 데이터 분석에 활용하고자하는 데이터 분석가가 필요로 하는 데이터셋을 검색함에 있어, 데이터셋의 설명자료에 해당하는 메타데이터를 색인의 일부로 활용하여 검색을 수행하는 것은 물론, 검색된 데이터셋을 정렬함에 있어 본 발명에서 제공하는 차별화된 연관성 점수 계산방식을 사용하여 이를 랭킹값으로 활용함으로써 데이터분석가의 원천 요구사항을 기술한 질의는 물론, 주어진 질의에 의해 검색되어진 데이터셋과 융합이 가능한 후속 데이터셋 검색을 용이하게 수행할 수 있어 데이터 분석은 물론 여러 데이터셋 융합에 의한 데이터 분석이 필요한 경우의 데이터셋 검색에 적용해 사용할 수 있다.
이하에서 본 명세서에 첨부된 수식을 참조하여 본 발명을 상세히 설명한다.
수식 1은 주어진 질의
Figure pat00028
에 대한 특정 데이터셋의 메타데이터 테이블
Figure pat00029
의 연관성 점수(relevance score)를 계산하는 식이다.
[수식 1]
Figure pat00030
where
Figure pat00031
여기에서 메타데이터 테이블
Figure pat00032
는 메타데이터 항목들을 컬럼으로 가지는 형태로 가정하며, 제목, 설명, 키워드 등 각각의 메타데이터 항목에 대응하는 컬럼은 식(1)의 필드(field)
Figure pat00033
에 해당한다. 메타데이터 테이블
Figure pat00034
의 컬럼들을 각각
Figure pat00035
필드라 하고, 주어진 질의
Figure pat00036
와 각 필드
Figure pat00037
의 연관성 점수를 함수
Figure pat00038
로 계산할 때, 각 필드
Figure pat00039
의 중요도를 감안하여 차별화된 가중치
Figure pat00040
를 부여하고 이를 각각의
Figure pat00041
에 곱하여 합을 구함으로써 주어진 질의
Figure pat00042
와 전체 메타데이터 테이블
Figure pat00043
와의 연관성 점수
Figure pat00044
를 계산한다. 이때
Figure pat00045
, 즉 메타데이터 각 항목의 가중치에 대한 합은 1로 한다. 즉, 질의
Figure pat00046
에 대한 메타데이터
Figure pat00047
의 연관성 점수는 각 메타데이터 필드의 중요도를 감안하여 각기 상이한 가중치를 부여하고 각 메타데이터 필드와 질의
Figure pat00048
와의 연관성 점수를 곱하고 이의 총합을 구함으로써 전체 메타데이터와 질의
Figure pat00049
와의 연관성 점수를 구하고, 이를 각 주어진 질의
Figure pat00050
에 대한 각 데이터셋의 랭킹값으로 리턴하게 되는 방식이다.
수식 2는 주어진 메타데이터 테이블
Figure pat00051
에 대한 메타데이터 테이블
Figure pat00052
와의 연관성 점수를 구하는 식이다.
[수식 2]
Figure pat00053
where
Figure pat00054
데이터셋
Figure pat00055
의 메타데이터가
Figure pat00056
이고 데이터셋
Figure pat00057
의 메타데이터가
Figure pat00058
일 때, 두 메타데이터가 충분히 잘 기술되었다고 가정하면, 두 메타데이터 테이블의 연관성 점수를 구하는 것은 곧 두 데이터셋
Figure pat00059
,
Figure pat00060
의 연관성 점수를 구하는 것과 같다고 볼 수 있다. 다만 주어진
Figure pat00061
에 대한
Figure pat00062
의 연관성 점수를 구할 때, 단순히 두 메타데이터 테이블의 매칭 필드별 연관성 점수(
Figure pat00063
)만을 사용해서 구하는 것이 아니라, 주어진 메타데이터 테이블
Figure pat00064
를 구하는데 사용된 원천 질의(original query)
Figure pat00065
Figure pat00066
의 연관성 점수(
Figure pat00067
),
Figure pat00068
에 매칭되는 데이터셋
Figure pat00069
의 최신성(recency) 점수
Figure pat00070
, 사용성(usage frequency) 점수
Figure pat00071
, 품질(quality) 점수
Figure pat00072
를 합하여 구한다. 이때 식(1)과 유사하게 전체
Figure pat00073
들의 합은 1로 하며(
Figure pat00074
), 전체 매개변수
Figure pat00075
,
Figure pat00076
,
Figure pat00077
,
Figure pat00078
,
Figure pat00079
의 합 역시 1로 한다(
Figure pat00080
).
Figure pat00081
는 서로 다른 메타데이터 테이블
Figure pat00082
Figure pat00083
간의 동일한 필드
Figure pat00084
쌍의 연관성 점수를 계산하여 필드의 중요도(weight)와 곱한 후, 이를 모두 합하고 매개변수 알파(
Figure pat00085
)를 곱한 값이다.
Figure pat00086
는 메타데이터 테이블
Figure pat00087
Figure pat00088
번째 필드를 의미하며,
Figure pat00089
는 메타데이터 테이블
Figure pat00090
Figure pat00091
번째 필드를 의미한다.
Figure pat00092
에서
Figure pat00093
Figure pat00094
를 검색하였을 때 사용한 원천 질의로써, 그 원천 질의
Figure pat00095
와 메타데이터 테이블
Figure pat00096
의 모든 필드와의 연관성 점수를 쌍으로 계산하고 중요도를 고려하여 설정된 필드 별 가중치를 곱하고 이를 모두 합한 후 나온 값에 매개변수 베타(
Figure pat00097
)를 곱한 값이다. 데이터셋
Figure pat00098
의 최신성 점수는
Figure pat00099
가 얼마나 최신의 데이터셋인지에 대한 값을 지표로 변환한 값이다.
최신성 점수는 예를 들어 Schema.org 메타데이터 항목 중 데이터셋이 최신으로 수정된 날짜를 의미하는
Figure pat00100
항목을 기준으로 수식 3과 같은 방식으로 계산이 가능하다.
[수식 3]
Figure pat00101
다만,
Figure pat00102
항목의 값이 존재하지 않으면
Figure pat00103
이나
Figure pat00104
로 대체를 하여 계산을 하고, 위 세 항목의 값이 모두 존재하지 않을 경우 최신성 점수는 0으로 계산하는 방식을 취할 수 있다.
사용성 점수는 수식 4와 같은 방식으로 사용자들이 데이터셋
Figure pat00105
를 다운 받은 횟수나, 데이터셋
Figure pat00106
의 클릭수 등의 정보를 사용하여 계산할 수 있다.
[수식 4]
Figure pat00107
예를 들어, Schema.org를 사용하는 경우에는 interactionStatistic에 중첩되어 있는 댓글수, 다운로드수, 뷰수, 좋아요 개수 정보 중 일부를 사용하거나, 댓글 수와 다운로드수를 식(4)에서의
Figure pat00108
(download count, 다운로드수)와 뷰수와 좋아요 개수를
Figure pat00109
(view count, 뷰수)로 설정하고 이를 시그모이드11 시그모이드 함수
Figure pat00110
함수에 대입하는 방식으로 구할 수 있다. 데이터셋 품질점수
Figure pat00111
는 별도의 품질 함수
Figure pat00112
에 의해 주어진 데이터셋
Figure pat00113
의 품질을 산정하고 이를
Figure pat00114
에 대한
Figure pat00115
의 연관성 점수에 반영하기 위해 사용한다. 품질 함수
Figure pat00116
는 예를 들어, 데이터셋의 품질을 사용자들의 품질평가 결과에 따라 별점 0점에서부터 5점으로 분류하여 부여한 값이 존재한다고 가정할 때, 평균 별점 값 rating에
Figure pat00117
를 곱하여 구할 수 있다.

Claims (3)

  1. 적어도 하나 이상의 식별자 및 상기 식별자와 연계된 데이터셋을 포함한 데이터베이스를 포함하고 각각의 데이터셋과 매칭되는 메타데이터를 포함한 데이터베이스를 대상으로 네트워크상에서 통신가능하며 각각의 사용자가 필요로 하는 데이터셋을 검색하는 방법에 있어서,
    ⅰ)사용자에 의해 제출된 질의에 부합하는 데이터셋을 검색하기 위해 사용하는 주어진 질의와 데이터셋의 연관성 점수를 계산하는 단계,;
    ⅱ)사용자가 선택한 특정 데이터셋과 융합 가능한 후속 데이터셋을 연관성 점수 기반으로 계산하여 제공하는 단계를 포함한 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법.
  2. 제1항에 있어서,
    상기 ⅰ)단계의 주어진 질의
    Figure pat00118
    와 각 필드
    Figure pat00119
    의 연관성 점수를 함수
    Figure pat00120
    로 계산할 때, 각 필드
    Figure pat00121
    의 중요도를 감안하여 차별화된 가중치
    Figure pat00122
    를 부여하여 수행되는 것을 특징으로 한 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법.
  3. 제1항에 있어서,
    상기 ⅱ단계는 a)주어진 메타데이터 테이블
    Figure pat00123
    를 구하는데 사용된 원천 질의(original query)
    Figure pat00124
    Figure pat00125
    의 연관성 점수(
    Figure pat00126
    )를 구하는 단계,;
    b)주어진 메타데이터 테이블
    Figure pat00127
    를 구하는데 사용된 원천 질의
    Figure pat00128
    Figure pat00129
    의 연관성 점수(
    Figure pat00130
    )를 구하는 단계,;
    c)
    Figure pat00131
    에 매칭되는 데이터셋
    Figure pat00132
    의 최신성(recency) 점수
    Figure pat00133
    를 구하는 단계,;
    d)사용성(usage frequency) 점수
    Figure pat00134
    를 구하는 단계,;
    e)품질(quality) 점수
    Figure pat00135
    를 구하는 단계,;
    f) 상기 a) b) c) d) e) 단계에서 사용되는 매개변수
    Figure pat00136
    ,
    Figure pat00137
    ,
    Figure pat00138
    ,
    Figure pat00139
    ,
    Figure pat00140
    의 합을 1로 하여 각 단계의 결과를 모두 합하는 단계를 포함한 방법으로 수행된 것을 특징으로 하는 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법.
KR1020210135704A 2021-10-13 2021-10-13 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법 KR20230052539A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210135704A KR20230052539A (ko) 2021-10-13 2021-10-13 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210135704A KR20230052539A (ko) 2021-10-13 2021-10-13 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법

Publications (1)

Publication Number Publication Date
KR20230052539A true KR20230052539A (ko) 2023-04-20

Family

ID=86143519

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210135704A KR20230052539A (ko) 2021-10-13 2021-10-13 데이터셋 품질을 고려한 메타데이터 기반 연관 데이터셋 검색 방법

Country Status (1)

Country Link
KR (1) KR20230052539A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180111904A (ko) 2017-03-03 2018-10-11 구글 엘엘씨 특정 식별 정보 노출없이 식별자간 링크를 설정하기 위한 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180111904A (ko) 2017-03-03 2018-10-11 구글 엘엘씨 특정 식별 정보 노출없이 식별자간 링크를 설정하기 위한 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1. Noy, N., Burgess, M., Brickley, D.: Google dataset search: building a search engine for datasets in an open web ecosystem. In:28th Web Conference (WebConf 2019) (2019)
2. Sansone, S.A., Gonzㅱlez-Beltrㅱn, A., Rocca-Serra, P., Alter, G.,Grethe, J., Xu, H., Fore, I., Lyle, J., E. Gururaj, A., Chen, X., Kim,H., Zong, N., Li, Y., Liu, R., Burak Ozyurt, I., Ohno-Machado,L.: Dats, the data tag suite to enable discoverability of datasets. Sci. Data 4 (2017).

Similar Documents

Publication Publication Date Title
US8046363B2 (en) System and method for clustering documents
KR101994987B1 (ko) 관련 엔티티들
Si et al. A semisupervised learning method to merge search engine results
US7613687B2 (en) Systems and methods for enhancing web-based searching
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US7885918B2 (en) Creating a taxonomy from business-oriented metadata content
US8583635B1 (en) Keywords associated with document categories
US7685112B2 (en) Method and apparatus for retrieving and indexing hidden pages
US9128945B1 (en) Query augmentation
US9092488B2 (en) Determination of a desired repository for retrieving search results
US8332426B2 (en) Indentifying referring expressions for concepts
US9171078B2 (en) Automatic recommendation of vertical search engines
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
US20080183695A1 (en) Using activation paths to cluster proximity query results
US20110191327A1 (en) Method for Human Ranking of Search Results
US20110184893A1 (en) Annotating queries over structured data
WO2007062397A2 (en) Inferring search category synonyms from user logs
WO2007127676A1 (en) System and method for indexing web content using click-through features
US20100106719A1 (en) Context-sensitive search
JP2007183859A (ja) 情報検索システム、情報検索方法、及び情報管理装置
JP2002215659A (ja) 情報検索支援方法および情報検索支援システム
US7143085B2 (en) Optimization of server selection using euclidean analysis of search terms
US8364672B2 (en) Concept disambiguation via search engine search results
JP2016509703A (ja) ラベル付けされた主に非テキストのアイテムを検索するためのシステム及び方法
JP3567861B2 (ja) 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体