KR102540939B1

KR102540939B1 - 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Info

Publication number: KR102540939B1
Application number: KR1020220127139A
Authority: KR
Inventors: 고형석; 곽효승; 이홍재
Original assignee: (주)유알피
Priority date: 2022-10-05
Filing date: 2022-10-05
Publication date: 2023-06-08

Abstract

본 발명은 검색어와 대조해 보려는 문서에 토큰 스코어뿐만 아니라 프레이즈 스코어를 추가한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하여 사용자에게 순서대로 제공하는 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법을 제안한다. 상기 자연어 검색의 적절도 향상 시스템은 토큰화 모듈, 문서 필터 모듈, 프레이즈 가중치 부여 모듈 및 문서 스코어 연산 모듈을 포함한다.

Description

자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법 {System and method for improving the adequacy of natural language searches}

본 발명은 자연어 검색 시스템에 관한 것으로, 특히 검색어와 대조해 보려는 문서에 토큰 스코어(token score)와 프레이즈 스코어(phrase score)를 합한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하는 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법에 대한 것이다.

자연어(Natural Language)는 컴퓨터에서 사용하는 프로그램 작성 언어 또는 기계어와 구분하기 위해 인간이 일상생활에서 의사 소통을 위해 사용하는 언어를 가리킨다. 자연어 처리(Natural Language Processing)는 인간의 언어인 자연어를 기계인 컴퓨터가 이해할 수 있도록 해석하고 컴퓨터가 처리할 수 있도록 하는 과정을 의미한다.

자연어를 검색어로 이용하여 검색을 수행하여, 주어진 쿼리(Query) 즉 검색어로 입력된 자연어와 문서와의 연관성을 평가하여 쿼리에 포함된 용어가 각각의 문서에 얼마나 자주 등장하는지를 평가한다.

대한민국 등록특허 10-2256007호(2021년 5월 18일)인 '자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법'은 사용자로부터 자연어 질의가 입력되면 자연어 질의를 토큰화하고, 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 문서를 선별하는 기술에 대해 기재하고 있다.

선별된 문서의 서비스 제공 순위, 즉 복수의 선별된 문서 중 어떤 문서를 사용자에게 가장 최선으로 제공하고, 어떤 문서를 이어서 제공할 것인가에 대해서는 고려하지 않았다.

만일 서비스되는 문서의 순서가 정해져 있지 않다면, 질의에 대한 최선의 대답이 기재된 문서가 아닌 일반적인 문서가 최초로 제공되어 사용자의 검색 시간을 늘리는 단점이 있다.

또한, 일정한 원칙을 정한다고 해도, 그 원칙이 최선의 것이 아닐 때는 서비스되는 문서의 순서가 정해져 있지 않은 경우와 동일한 단점을 포함하게 될 것이다.

본 발명이 해결하고자 하는 기술적 과제는, 검색어와 대조해 보려는 문서에 토큰 스코어뿐만 아니라 프레이즈 스코어를 추가한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하여 사용자에게 순서대로 제공하는 자연어 검색의 적절도 향상 시스템을 제안하는 것에 있다.

본 발명이 해결하고자 하는 다른 기술적 과제는 검색어와 대조해 보려는 문서에 토큰 스코어뿐만 아니라 프레이즈 스코어를 추가한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하여 사용자에게 순서대로 제공하는 자연어 검색의 적절도 향상 방법을 제안하는 것에 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명에 따른 자연어 검색의 적절도 향상 시스템은 토큰화 모듈, 문서 필터 모듈, 프레이즈 가중치 부여 모듈 및 문서 스코어 연산 모듈을 포함한다.

상기 토큰화 모듈은 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 토큰으로 분리한다. 상기 문서 필터 모듈은 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링한다. 상기 프레이즈 가중치 부여 모듈은 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여한다. 상기 문서 스코어 연산 모듈은 사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산한다.

상기 다른 기술적 과제를 달성하기 위한 본 발명에 따른 자연어 검색의 적절도 향상 방법은, 제1항에 기재된 자연어 검색의 적절도 향상 시스템으로 수행하며, 상기 토큰화 모듈이 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 토큰으로 분리하는 단계, 상기 문서 필터 모듈이 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링하는 단계, 상기 프레이즈 가중치 부여 모듈이 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여하는 단계 및 상기 문서 스코어 연산 모듈이 사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산하는 단계를 포함한다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 따른 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법은 토큰 스코어뿐만 아니라 프레이즈 스코어를 병행하여 고려함으로써, 기존의 토큰 스코어 만을 이용하여 검색의 적절도를 향상하던 방식에 비해 더 효과적으로 검색 및 검색된 정보의 서비스 제공이 가능하도록 하는 장점이 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명에 따른 자연어 검색의 적절도 향상 시스템의 일 실시 예이다.
도 2는 본 발명에 따른 자연어 검색의 적절도 향상 방법의 일 실시 예이다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 예시적인 실시 예를 설명하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명에 따른 자연어 검색의 적절도 향상 시스템의 일 실시 예이다.

도 1을 참조하면, 본 발명에 따른 자연어 검색의 적절도 향상 시스템(100)은, 자연어 검색 모듈(110), 토큰화 모듈(120), 문서 필터 모듈(130), 프레이즈 가중치 부여 모듈(140), 문서 스코어 연산 모듈(150) 및 문서 소팅 모듈(160)을 포함한다.

자연어 검색 모듈(110)은 사용자 쿼리에 포함되는 자연어를 검색한다.

설명의 편의를 위해 이하에서는 검색된 쿼리의 예로 'Q = [자연어 검색에서 적절도를 향상시키는 방법 및 시스템]'을 가정한다.

토큰화 모듈(120)은 사용자가 입력한 쿼리에 포함된 자연어 검색어를 토큰으로 분리한다.

예를 들면, 토큰으로 분리된 쿼리 Q = [자연어, 검색에서, 적절도를, 향상시키는, 방법, 및, 시스템]과 같이, 검색어 문장에서 띄어쓰기를 기준으로 토큰화할 수 있을 것이다.

문서 필터 모듈(130)은 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링한다. 이 때, 토큰을 포함하는 개수에 상관없이 해당 토큰을 포함하는 모든 문서를 필터링(또는 선택)하는 것도 가능하지만, 미리 설정한 기준 토큰(수) 이상을 포함하는 문서를 필터링하는 것이 바람직할 것이다.

프레이즈 가중치 부여 모듈(140)은 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여한다.

예를 들면, 프레이즈 그룹 P = [{(자연어 검색에서), 6.0}, {(검색에서 적절도를), 5.0}, {(적절도를 향상시키는), 4.0}, {(향상시키는 방법), 3.0},{(방법 및), 2.0}, {(및 시스템), 1.0}]와 같이 표시할 수 있다.

"자연어 검색에서는" 이라는 첫 번째 프레이즈는 가중치를 6.0으로 부여하고, "검색에서 적절도를" 이라는 두 번째 프레이즈는 가중치를 5.0으로 부여하는 방식이다.

문서 스코어 연산 모듈(150)은 사용자가 입력한 검색어와 필터링 된 문서, 프레이즈 및 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산한다.

아래의 수학식 1은 토큰 스코어를 연산하는 방정식이다.

수학식 1에서, D는 대조해 보려고 하는 문서, Q는 사용자가 입력한 검색어,

는 쿼리에서 i(i는 변수) 번째 토큰,

는 검색된 문서에서 매칭된 토큰 수,

은 1.2를 기본값으로 설정되어 있는 TSP(term saturation parameter), b는 디폴트(dafault)로 취하는 상수인 0.75, dl은 검색된 문서의 길이, avgdl은 전체 문서의 평균 필드의 길이, docCount는 문서의 총 개수,

는 쿼리에서 i번째 토큰(

)를 포함하는 문서 빈도의 역수 그리고

는 해당 토큰(

)을 포함하는 문서의 개수를 각각 의미한다.

dl은 문서를 토큰화 했을 때의 토큰 수가 되며, avgdl은 인덱스 내의 모든 문서를 토큰화 했을 때 문서당 평균 토큰 수가 될 것이다.

문서 빈도(Document Frequency)는 특정 용어(토큰)이 얼마나 자주 등장 하였는가를 판단할 수 있는 근거라면, 문서빈도의 역수(IOnverse Document Frequency)는 자주 발생하는 단어일수록 중요하지 않은 단어로 인식하여 가중치를 낮추려는 시도를 반영한다.

수학식 1을 참조하면, 토큰 스코어(token score)는 쿼리에 있는 용어(토큰)이 각각의 문서에 얼마나 자주 등장 하는가를 평가하는 지표가 될 것이다.

즉, 수학식 1의 토큰 스코어는 자주 등장하는 단어는 가중치를 낮추고, 문서의 길이에 따른 토큰의 수의 의미를 반영하고, 쿼리에 있는 키워드가 문서에 자주 나타나는 가 여부가 점수로 환산되었다.

본 발명에서는, 수학식 1의 토큰 스코어 외에도 아래에서 설명하는 프레이즈 스코어(phrase score)을 추가로 연산하여 자연어 검색의 적절성을 향상시키고자 한다.

아래의 수학식 2는 프레이즈 스코어를 연산하는 방정식이다.

수학식 2에서,

는 문서에서 j번째(j는 변수) 프레이즈(phrase)의 개수를 확인하는데 토큰과 토큰 사이의 거리가 주어진 거리 이하인 프레이즈의 개수이고, weight는 가중치이다.

수학식 1 및 2에서 n 및 m는 자연수이다.

문서 소팅 모듈(160)은 토큰 스코어(token score) 및 프레이즈 스코어(phrase score)를 합하여 얻은 문서별 스코어의 내림차순으로 정렬한다. 문서별 스코어는 사용자가 검색하는 검색어가 많이 포함된 문서의 순서로 제공할 수 있도록 할 것이다.

도 2는 본 발명에 따른 자연어 검색의 적절도 향상 방법의 일 실시 예이다.

도 2를 참조하면, 본 발명에 따른 자연어 검색의 적절도 향상 방법(200)은, 자연어 검색 단계(210), 토큰화 단계(220), 문서 필터 단계(230), 프레이즈 가중치 부여 단계(240), 문서 스코어 연산 단계(250) 및 문서 소팅 단계(260)를 포함한다.

자연어 검색 단계(210)에서는 사용자 쿼리에 포함되는 자연어를 검색한다.

토큰화 단계(220)는 토큰화 모듈(120)이 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 토큰으로 분리한다.

문서 필터 단계(230)는 문서 필터 모듈(130)이 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링한다.

프레이즈 가중치 부여 단계(240)는 프레이즈 가중치 부여 모듈(140)이 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여한다.

문서 스코어 연산 단계(250)는 문서 스코어 연산 모듈(150)이 사용자가 입력한 검색어와 필터링 된 문서, 프레이즈 및 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산한다.

문서 소팅 단계(260)는 문서 소팅 모듈(160)이 토큰 스코어 및 프레이즈 스코어를 합하여 얻은 문서별 스코어의 내림차순으로 정렬한다.

토큰으로 분리하는 단계(220)는, 검색어 문장에서 띄어쓰기를 기준으로 검색어를 토큰화하고, 문서를 필터링하는 단계(230)는 미리 정한 기준 토큰 이상의 토큰을 포함하는 문서를 필터링하며, 프레이즈에 가중치를 부여하는 단계(240)는, 서로 인접하는 2개의 토큰을 하나의 프레이즈로 생성하는 것이 바람직하다.

토큰 스코어는, 사용자가 입력한 검색어, 문서 중 토큰과 대조해 보려는 문서, 필터링된 문서에서 매칭된 토큰의 수, 검색된 문서의 길이, 검색된 문서의 평균 길이, 및 쿼리에 포함되는 토큰에 대한 역자료빈도(Inverse Document Frequency)를 이용하여 연산한다.

프레이즈 스코어는, 문서에서 매칭되는 프레이즈의 수 및 문서에서 토큰과 토큰 사이의 거리가 미리 주어진 거리 이하인 프레이즈의 개수를 이용하여 연산하는 것이 바람직하다.

이상에서는 본 발명에 대한 기술사상을 첨부 도면과 함께 서술하였지만 이는 본 발명의 바람직한 실시 예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 기술자라면 누구나 본 발명의 기술적 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방 가능함은 명백한 사실이다.

110: 자연어 검색 모듈
120: 토큰화 모듈
130: 문서 필터 모듈
140: 프레이즈 가중치 부여 모듈
150: 문서 스코어 연산 모듈
160: 문서 소팅 모듈

Claims

사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 띄어쓰기 기준으로 토큰화하는 토큰화 모듈;
복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 미리 정한 기준 토큰수 이상 포함하는 문서를 필터링하는 문서 필터 모듈;
복수의 토큰 중 서로 인접하는 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여하는 프레이즈 가중치 부여 모듈;
사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산하는 문서 스코어 연산 모듈; 및
상기 토큰 스코어 및 상기 프레이즈 스코어를 합하여 얻은 문서별 스코어를 내림차순으로 정렬하는 문서 소팅 모듈;을 포함하며,
상기 토큰 스코어는, 사용자가 입력한 검색어, 상기 문서 중 상기 토큰과 대조해 보려는 문서, 상기 필터링된 문서에서 매칭된 토큰의 수, 검색된 문서의 길이, 검색된 문서의 평균 길이 및 상기 쿼리에 포함되는 토큰에 대한 역자료빈도(Inverse Document Frequency)를 이용하여 연산하고, 상기 필터링된 문서에 포함된 개별 문서에서 매칭된 토큰의 수에 대해, 상기 필터링된 문서의 평균 길이 대비 상기 개별 문서의 길이의 비율을 반영하여, 문서 길이에 따른 매칭된 토큰의 수에 대한 가중치 및 역자료빈도(Inverse Document Frequency)를 적용하는 것을 특징으로 하고,
상기 프레이즈 스코어는,
문서에서 매칭되는 프레이즈의 수 및 문서에서 토큰과 토큰 사이의 거리가 미리 주어진 거리 이하인 프레이즈의 개수를 이용하여 연산하는
자연어 검색의 적절도 향상 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
제1항에 기재된 자연어 검색의 적절도 향상 시스템으로 수행하며,
상기 토큰화 모듈이 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 띄어쓰기 기준으로 토큰화하여 분리하는 단계;
상기 문서 필터 모듈이 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 미리 정한 기준 토큰수 이상 포함하는 문서를 필터링하는 단계;
상기 프레이즈 가중치 부여 모듈이 복수의 토큰 중 서로 인접하는 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여하는 단계;
상기 문서 스코어 연산 모듈이 사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산하는 단계; 및
문서 소팅 모듈이 상기 토큰 스코어 및 상기 프레이즈 스코어를 합하여 얻은 문서별 스코어를 내림차순으로 정렬하는 단계;를 포함하며,
상기 토큰 스코어는, 사용자가 입력한 검색어, 상기 문서 중 상기 토큰과 대조해 보려는 문서, 상기 필터링된 문서에서 매칭된 토큰의 수, 검색된 문서의 길이, 검색된 문서의 평균 길이 및 상기 쿼리에 포함되는 토큰에 대한 역자료빈도(Inverse Document Frequency)를 이용하여 연산하고, 상기 필터링된 문서에 포함된 개별 문서에서 매칭된 토큰의 수에 대해, 상기 필터링된 문서의 평균 길이 대비 상기 개별 문서의 길이의 비율을 반영하여, 문서 길이에 따른 매칭된 토큰의 수에 대한 가중치 및 역자료빈도(Inverse Document Frequency)를 적용하는 것을 특징으로 하고,
상기 프레이즈 스코어는,
문서에서 매칭되는 프레이즈의 수 및 문서에서 토큰과 토큰 사이의 거리가 미리 주어진 거리 이하인 프레이즈의 개수를 이용하여 연산하는
자연어 검색의 적절도 향상 방법.
삭제
삭제
삭제
삭제
삭제
삭제