KR102540939B1 - 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법 - Google Patents

자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법 Download PDF

Info

Publication number
KR102540939B1
KR102540939B1 KR1020220127139A KR20220127139A KR102540939B1 KR 102540939 B1 KR102540939 B1 KR 102540939B1 KR 1020220127139 A KR1020220127139 A KR 1020220127139A KR 20220127139 A KR20220127139 A KR 20220127139A KR 102540939 B1 KR102540939 B1 KR 102540939B1
Authority
KR
South Korea
Prior art keywords
document
tokens
score
phrase
documents
Prior art date
Application number
KR1020220127139A
Other languages
English (en)
Inventor
고형석
곽효승
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020220127139A priority Critical patent/KR102540939B1/ko
Application granted granted Critical
Publication of KR102540939B1 publication Critical patent/KR102540939B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 검색어와 대조해 보려는 문서에 토큰 스코어뿐만 아니라 프레이즈 스코어를 추가한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하여 사용자에게 순서대로 제공하는 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법을 제안한다. 상기 자연어 검색의 적절도 향상 시스템은 토큰화 모듈, 문서 필터 모듈, 프레이즈 가중치 부여 모듈 및 문서 스코어 연산 모듈을 포함한다.

Description

자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법 {System and method for improving the adequacy of natural language searches}
본 발명은 자연어 검색 시스템에 관한 것으로, 특히 검색어와 대조해 보려는 문서에 토큰 스코어(token score)와 프레이즈 스코어(phrase score)를 합한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하는 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법에 대한 것이다.
자연어(Natural Language)는 컴퓨터에서 사용하는 프로그램 작성 언어 또는 기계어와 구분하기 위해 인간이 일상생활에서 의사 소통을 위해 사용하는 언어를 가리킨다. 자연어 처리(Natural Language Processing)는 인간의 언어인 자연어를 기계인 컴퓨터가 이해할 수 있도록 해석하고 컴퓨터가 처리할 수 있도록 하는 과정을 의미한다.
자연어를 검색어로 이용하여 검색을 수행하여, 주어진 쿼리(Query) 즉 검색어로 입력된 자연어와 문서와의 연관성을 평가하여 쿼리에 포함된 용어가 각각의 문서에 얼마나 자주 등장하는지를 평가한다.
대한민국 등록특허 10-2256007호(2021년 5월 18일)인 '자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법'은 사용자로부터 자연어 질의가 입력되면 자연어 질의를 토큰화하고, 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 문서를 선별하는 기술에 대해 기재하고 있다.
선별된 문서의 서비스 제공 순위, 즉 복수의 선별된 문서 중 어떤 문서를 사용자에게 가장 최선으로 제공하고, 어떤 문서를 이어서 제공할 것인가에 대해서는 고려하지 않았다.
만일 서비스되는 문서의 순서가 정해져 있지 않다면, 질의에 대한 최선의 대답이 기재된 문서가 아닌 일반적인 문서가 최초로 제공되어 사용자의 검색 시간을 늘리는 단점이 있다.
또한, 일정한 원칙을 정한다고 해도, 그 원칙이 최선의 것이 아닐 때는 서비스되는 문서의 순서가 정해져 있지 않은 경우와 동일한 단점을 포함하게 될 것이다.
본 발명이 해결하고자 하는 기술적 과제는, 검색어와 대조해 보려는 문서에 토큰 스코어뿐만 아니라 프레이즈 스코어를 추가한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하여 사용자에게 순서대로 제공하는 자연어 검색의 적절도 향상 시스템을 제안하는 것에 있다.
본 발명이 해결하고자 하는 다른 기술적 과제는 검색어와 대조해 보려는 문서에 토큰 스코어뿐만 아니라 프레이즈 스코어를 추가한 점수를 부여하고 부여된 점수에 따라 내림차순으로 정렬하여 사용자에게 순서대로 제공하는 자연어 검색의 적절도 향상 방법을 제안하는 것에 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명에 따른 자연어 검색의 적절도 향상 시스템은 토큰화 모듈, 문서 필터 모듈, 프레이즈 가중치 부여 모듈 및 문서 스코어 연산 모듈을 포함한다.
상기 토큰화 모듈은 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 토큰으로 분리한다. 상기 문서 필터 모듈은 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링한다. 상기 프레이즈 가중치 부여 모듈은 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여한다. 상기 문서 스코어 연산 모듈은 사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산한다.
상기 다른 기술적 과제를 달성하기 위한 본 발명에 따른 자연어 검색의 적절도 향상 방법은, 제1항에 기재된 자연어 검색의 적절도 향상 시스템으로 수행하며, 상기 토큰화 모듈이 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 토큰으로 분리하는 단계, 상기 문서 필터 모듈이 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링하는 단계, 상기 프레이즈 가중치 부여 모듈이 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여하는 단계 및 상기 문서 스코어 연산 모듈이 사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산하는 단계를 포함한다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 따른 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법은 토큰 스코어뿐만 아니라 프레이즈 스코어를 병행하여 고려함으로써, 기존의 토큰 스코어 만을 이용하여 검색의 적절도를 향상하던 방식에 비해 더 효과적으로 검색 및 검색된 정보의 서비스 제공이 가능하도록 하는 장점이 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 자연어 검색의 적절도 향상 시스템의 일 실시 예이다.
도 2는 본 발명에 따른 자연어 검색의 적절도 향상 방법의 일 실시 예이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 예시적인 실시 예를 설명하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명에 따른 자연어 검색의 적절도 향상 시스템의 일 실시 예이다.
도 1을 참조하면, 본 발명에 따른 자연어 검색의 적절도 향상 시스템(100)은, 자연어 검색 모듈(110), 토큰화 모듈(120), 문서 필터 모듈(130), 프레이즈 가중치 부여 모듈(140), 문서 스코어 연산 모듈(150) 및 문서 소팅 모듈(160)을 포함한다.
자연어 검색 모듈(110)은 사용자 쿼리에 포함되는 자연어를 검색한다.
설명의 편의를 위해 이하에서는 검색된 쿼리의 예로 'Q = [자연어 검색에서 적절도를 향상시키는 방법 및 시스템]'을 가정한다.
토큰화 모듈(120)은 사용자가 입력한 쿼리에 포함된 자연어 검색어를 토큰으로 분리한다.
예를 들면, 토큰으로 분리된 쿼리 Q = [자연어, 검색에서, 적절도를, 향상시키는, 방법, 및, 시스템]과 같이, 검색어 문장에서 띄어쓰기를 기준으로 토큰화할 수 있을 것이다.
문서 필터 모듈(130)은 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링한다. 이 때, 토큰을 포함하는 개수에 상관없이 해당 토큰을 포함하는 모든 문서를 필터링(또는 선택)하는 것도 가능하지만, 미리 설정한 기준 토큰(수) 이상을 포함하는 문서를 필터링하는 것이 바람직할 것이다.
프레이즈 가중치 부여 모듈(140)은 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여한다.
예를 들면, 프레이즈 그룹 P = [{(자연어 검색에서), 6.0}, {(검색에서 적절도를), 5.0}, {(적절도를 향상시키는), 4.0}, {(향상시키는 방법), 3.0},{(방법 및), 2.0}, {(및 시스템), 1.0}]와 같이 표시할 수 있다.
"자연어 검색에서는" 이라는 첫 번째 프레이즈는 가중치를 6.0으로 부여하고, "검색에서 적절도를" 이라는 두 번째 프레이즈는 가중치를 5.0으로 부여하는 방식이다.
문서 스코어 연산 모듈(150)은 사용자가 입력한 검색어와 필터링 된 문서, 프레이즈 및 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산한다.
아래의 수학식 1은 토큰 스코어를 연산하는 방정식이다.
Figure 112022104811496-pat00001
수학식 1에서, D는 대조해 보려고 하는 문서, Q는 사용자가 입력한 검색어,
Figure 112022104811496-pat00002
는 쿼리에서 i(i는 변수) 번째 토큰,
Figure 112022104811496-pat00003
는 검색된 문서에서 매칭된 토큰 수,
Figure 112022104811496-pat00004
은 1.2를 기본값으로 설정되어 있는 TSP(term saturation parameter), b는 디폴트(dafault)로 취하는 상수인 0.75, dl은 검색된 문서의 길이, avgdl은 전체 문서의 평균 필드의 길이, docCount는 문서의 총 개수,
Figure 112022104811496-pat00005
는 쿼리에서 i번째 토큰(
Figure 112022104811496-pat00006
)를 포함하는 문서 빈도의 역수 그리고
Figure 112022104811496-pat00007
는 해당 토큰(
Figure 112022104811496-pat00008
)을 포함하는 문서의 개수를 각각 의미한다.
dl은 문서를 토큰화 했을 때의 토큰 수가 되며, avgdl은 인덱스 내의 모든 문서를 토큰화 했을 때 문서당 평균 토큰 수가 될 것이다.
문서 빈도(Document Frequency)는 특정 용어(토큰)이 얼마나 자주 등장 하였는가를 판단할 수 있는 근거라면, 문서빈도의 역수(IOnverse Document Frequency)는 자주 발생하는 단어일수록 중요하지 않은 단어로 인식하여 가중치를 낮추려는 시도를 반영한다.
수학식 1을 참조하면, 토큰 스코어(token score)는 쿼리에 있는 용어(토큰)이 각각의 문서에 얼마나 자주 등장 하는가를 평가하는 지표가 될 것이다.
즉, 수학식 1의 토큰 스코어는 자주 등장하는 단어는 가중치를 낮추고, 문서의 길이에 따른 토큰의 수의 의미를 반영하고, 쿼리에 있는 키워드가 문서에 자주 나타나는 가 여부가 점수로 환산되었다.
본 발명에서는, 수학식 1의 토큰 스코어 외에도 아래에서 설명하는 프레이즈 스코어(phrase score)을 추가로 연산하여 자연어 검색의 적절성을 향상시키고자 한다.
아래의 수학식 2는 프레이즈 스코어를 연산하는 방정식이다.
Figure 112022104811496-pat00009
수학식 2에서,
Figure 112022104811496-pat00010
는 문서에서 j번째(j는 변수) 프레이즈(phrase)의 개수를 확인하는데 토큰과 토큰 사이의 거리가 주어진 거리 이하인 프레이즈의 개수이고, weight는 가중치이다.
수학식 1 및 2에서 n 및 m는 자연수이다.
문서 소팅 모듈(160)은 토큰 스코어(token score) 및 프레이즈 스코어(phrase score)를 합하여 얻은 문서별 스코어의 내림차순으로 정렬한다. 문서별 스코어는 사용자가 검색하는 검색어가 많이 포함된 문서의 순서로 제공할 수 있도록 할 것이다.
도 2는 본 발명에 따른 자연어 검색의 적절도 향상 방법의 일 실시 예이다.
도 2를 참조하면, 본 발명에 따른 자연어 검색의 적절도 향상 방법(200)은, 자연어 검색 단계(210), 토큰화 단계(220), 문서 필터 단계(230), 프레이즈 가중치 부여 단계(240), 문서 스코어 연산 단계(250) 및 문서 소팅 단계(260)를 포함한다.
자연어 검색 단계(210)에서는 사용자 쿼리에 포함되는 자연어를 검색한다.
토큰화 단계(220)는 토큰화 모듈(120)이 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 토큰으로 분리한다.
문서 필터 단계(230)는 문서 필터 모듈(130)이 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 포함하는 문서를 필터링한다.
프레이즈 가중치 부여 단계(240)는 프레이즈 가중치 부여 모듈(140)이 복수의 토큰 중 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여한다.
문서 스코어 연산 단계(250)는 문서 스코어 연산 모듈(150)이 사용자가 입력한 검색어와 필터링 된 문서, 프레이즈 및 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산한다.
문서 소팅 단계(260)는 문서 소팅 모듈(160)이 토큰 스코어 및 프레이즈 스코어를 합하여 얻은 문서별 스코어의 내림차순으로 정렬한다.
토큰으로 분리하는 단계(220)는, 검색어 문장에서 띄어쓰기를 기준으로 검색어를 토큰화하고, 문서를 필터링하는 단계(230)는 미리 정한 기준 토큰 이상의 토큰을 포함하는 문서를 필터링하며, 프레이즈에 가중치를 부여하는 단계(240)는, 서로 인접하는 2개의 토큰을 하나의 프레이즈로 생성하는 것이 바람직하다.
토큰 스코어는, 사용자가 입력한 검색어, 문서 중 토큰과 대조해 보려는 문서, 필터링된 문서에서 매칭된 토큰의 수, 검색된 문서의 길이, 검색된 문서의 평균 길이, 및 쿼리에 포함되는 토큰에 대한 역자료빈도(Inverse Document Frequency)를 이용하여 연산한다.
프레이즈 스코어는, 문서에서 매칭되는 프레이즈의 수 및 문서에서 토큰과 토큰 사이의 거리가 미리 주어진 거리 이하인 프레이즈의 개수를 이용하여 연산하는 것이 바람직하다.
이상에서는 본 발명에 대한 기술사상을 첨부 도면과 함께 서술하였지만 이는 본 발명의 바람직한 실시 예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 기술자라면 누구나 본 발명의 기술적 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방 가능함은 명백한 사실이다.
110: 자연어 검색 모듈
120: 토큰화 모듈
130: 문서 필터 모듈
140: 프레이즈 가중치 부여 모듈
150: 문서 스코어 연산 모듈
160: 문서 소팅 모듈

Claims (14)

  1. 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 띄어쓰기 기준으로 토큰화하는 토큰화 모듈;
    복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 미리 정한 기준 토큰수 이상 포함하는 문서를 필터링하는 문서 필터 모듈;
    복수의 토큰 중 서로 인접하는 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여하는 프레이즈 가중치 부여 모듈;
    사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산하는 문서 스코어 연산 모듈; 및
    상기 토큰 스코어 및 상기 프레이즈 스코어를 합하여 얻은 문서별 스코어를 내림차순으로 정렬하는 문서 소팅 모듈;을 포함하며,
    상기 토큰 스코어는, 사용자가 입력한 검색어, 상기 문서 중 상기 토큰과 대조해 보려는 문서, 상기 필터링된 문서에서 매칭된 토큰의 수, 검색된 문서의 길이, 검색된 문서의 평균 길이 및 상기 쿼리에 포함되는 토큰에 대한 역자료빈도(Inverse Document Frequency)를 이용하여 연산하고, 상기 필터링된 문서에 포함된 개별 문서에서 매칭된 토큰의 수에 대해, 상기 필터링된 문서의 평균 길이 대비 상기 개별 문서의 길이의 비율을 반영하여, 문서 길이에 따른 매칭된 토큰의 수에 대한 가중치 및 역자료빈도(Inverse Document Frequency)를 적용하는 것을 특징으로 하고,
    상기 프레이즈 스코어는,
    문서에서 매칭되는 프레이즈의 수 및 문서에서 토큰과 토큰 사이의 거리가 미리 주어진 거리 이하인 프레이즈의 개수를 이용하여 연산하는
    자연어 검색의 적절도 향상 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제1항에 기재된 자연어 검색의 적절도 향상 시스템으로 수행하며,
    상기 토큰화 모듈이 사용자가 입력한 쿼리에 포함된 자연어 검색어를 수집하여 띄어쓰기 기준으로 토큰화하여 분리하는 단계;
    상기 문서 필터 모듈이 복수의 문서 중 상기 토큰화 모듈에서 분리한 토큰을 미리 정한 기준 토큰수 이상 포함하는 문서를 필터링하는 단계;
    상기 프레이즈 가중치 부여 모듈이 복수의 토큰 중 서로 인접하는 2개의 토큰을 묶어 프레이즈를 생성하고 각각의 프레이즈에 가중치를 부여하는 단계;
    상기 문서 스코어 연산 모듈이 사용자가 입력한 검색어와 필터링 된 문서, 상기 프레이즈 및 상기 가중치를 이용하여 토큰 스코어 및 프레이즈 스코어를 연산하는 단계; 및
    문서 소팅 모듈이 상기 토큰 스코어 및 상기 프레이즈 스코어를 합하여 얻은 문서별 스코어를 내림차순으로 정렬하는 단계;를 포함하며,
    상기 토큰 스코어는, 사용자가 입력한 검색어, 상기 문서 중 상기 토큰과 대조해 보려는 문서, 상기 필터링된 문서에서 매칭된 토큰의 수, 검색된 문서의 길이, 검색된 문서의 평균 길이 및 상기 쿼리에 포함되는 토큰에 대한 역자료빈도(Inverse Document Frequency)를 이용하여 연산하고, 상기 필터링된 문서에 포함된 개별 문서에서 매칭된 토큰의 수에 대해, 상기 필터링된 문서의 평균 길이 대비 상기 개별 문서의 길이의 비율을 반영하여, 문서 길이에 따른 매칭된 토큰의 수에 대한 가중치 및 역자료빈도(Inverse Document Frequency)를 적용하는 것을 특징으로 하고,
    상기 프레이즈 스코어는,
    문서에서 매칭되는 프레이즈의 수 및 문서에서 토큰과 토큰 사이의 거리가 미리 주어진 거리 이하인 프레이즈의 개수를 이용하여 연산하는
    자연어 검색의 적절도 향상 방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020220127139A 2022-10-05 2022-10-05 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법 KR102540939B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220127139A KR102540939B1 (ko) 2022-10-05 2022-10-05 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220127139A KR102540939B1 (ko) 2022-10-05 2022-10-05 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Publications (1)

Publication Number Publication Date
KR102540939B1 true KR102540939B1 (ko) 2023-06-08

Family

ID=86765393

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220127139A KR102540939B1 (ko) 2022-10-05 2022-10-05 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Country Status (1)

Country Link
KR (1) KR102540939B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2016076208A (ja) * 2014-10-06 2016-05-12 富士通株式会社 文書ランク付け装置、方法、及びコンピュータプログラム
KR102088619B1 (ko) * 2019-12-05 2020-03-12 (주)플랜아이 검색 결과별 가변적 사용자 인터페이스 제공 시스템 및 방법
KR20210065750A (ko) * 2019-11-27 2021-06-04 삼성에스디에스 주식회사 검색 장치 및 방법
KR20210095155A (ko) * 2018-11-30 2021-07-30 가부시키가이샤 한도오따이 에네루기 켄큐쇼 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2016076208A (ja) * 2014-10-06 2016-05-12 富士通株式会社 文書ランク付け装置、方法、及びコンピュータプログラム
KR20210095155A (ko) * 2018-11-30 2021-07-30 가부시키가이샤 한도오따이 에네루기 켄큐쇼 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체
KR20210065750A (ko) * 2019-11-27 2021-06-04 삼성에스디에스 주식회사 검색 장치 및 방법
KR102088619B1 (ko) * 2019-12-05 2020-03-12 (주)플랜아이 검색 결과별 가변적 사용자 인터페이스 제공 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
소병철, 정진우. "사용자 검색 질의 단어의 순서 및 단어간의 인접 관계에 기반한 검색 기법의 구현." 한국지능시스템학회 논문지 21.6 (2011): 724-729.* *

Similar Documents

Publication Publication Date Title
US6772170B2 (en) System and method for interpreting document contents
US7444279B2 (en) Question answering system and question answering processing method
US10503828B2 (en) System and method for answering natural language question
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
Cosma et al. An approach to source-code plagiarism detection and investigation using latent semantic analysis
US5463773A (en) Building of a document classification tree by recursive optimization of keyword selection function
CN100535898C (zh) 问答式文献检索***和方法
EP1391834A2 (en) Document retrieval system and question answering system
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
US6622139B1 (en) Information retrieval apparatus and computer-readable recording medium having information retrieval program recorded therein
Abdi et al. A question answering system in hadith using linguistic knowledge
Caverlee et al. Probe, cluster, and discover: Focused extraction of qa-pagelets from the deep web
Al-Taani et al. An extractive graph-based Arabic text summarization approach
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP3198932B2 (ja) 文書検索装置
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
CN116628142B (zh) 知识检索方法、装置、设备及可读存储介质
KR102540939B1 (ko) 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법
Zhu et al. Twitter Sentiment analysis of covid vaccines
Khanmohammadi et al. COPER: A query-adaptable semantics-based search engine for Persian COVID-19 articles
Mohamed et al. A summarizer for Tamil language using centroid approach
KR100703193B1 (ko) 비음수 행렬 인수분해를 이용한 문서요약 장치 및 방법
Guadie et al. Amharic text summarization for news items posted on social media
Brummerloh et al. Boromir at Touché 2022: Combining Natural Language Processing and Machine Learning Techniques for Image Retrieval for Arguments.

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant