KR101051422B1 - 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체 - Google Patents

검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체 Download PDF

Info

Publication number
KR101051422B1
KR101051422B1 KR1020080105464A KR20080105464A KR101051422B1 KR 101051422 B1 KR101051422 B1 KR 101051422B1 KR 1020080105464 A KR1020080105464 A KR 1020080105464A KR 20080105464 A KR20080105464 A KR 20080105464A KR 101051422 B1 KR101051422 B1 KR 101051422B1
Authority
KR
South Korea
Prior art keywords
information
query
index
word
document
Prior art date
Application number
KR1020080105464A
Other languages
English (en)
Other versions
KR20100037512A (ko
Inventor
정한민
이미경
김평
이승우
박동인
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to PCT/KR2008/006551 priority Critical patent/WO2010038923A1/en
Publication of KR20100037512A publication Critical patent/KR20100037512A/ko
Application granted granted Critical
Publication of KR101051422B1 publication Critical patent/KR101051422B1/ko

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체가 개시된다. 이를 위하여 질의어를 입력하는 검색 시스템에서 검색 결과가 보장되는 질의어 검색 결과만을 자동완성하여 제시하는 것으로, 특히, 입력된 질의어에 대하여 검색결과가 존재하는 질의어 목록과 유형을 제시하고 문서정보의 추가, 삭제 등에 실시간으로 대응할 수 있기 때문에 검색 결과의 신뢰도를 높이고, 검색의 실패를 방지하며 검색을 신속하게 하고, 유형별 정보를 그룹화하여 개선상태로 제공하는 효과가 있다.
자동완성, 검색, 문서정보, 색인어, 빈도수, 질의어, 데이터베이스, 서버, 주제어

Description

검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체{SYSTEM AND METHOD OF AUTO-COMPLETE WITH QUERY TYPE UNDER GUARANTEE OF SEARCH RESULTS AND STORAGE MEDIA HAVING PROGRAM SOURCE THEREOF}
본 발명은 질의어 검색 시스템에 관한 것으로, 상세하게는 입력된 질의어에 대하여 검색결과가 존재하는 질의어 목록과 유형을 제시하고 문서정보의 추가, 삭제 등에 실시간으로 대응할 수 있는 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체에 관한 것이다.
현대 사회는 컴퓨터와 인터넷과 통신망 등을 이용하는 데이터 통신의 발달에 의하여 기존에 공개된 정보로부터 최신 정보까지 유료 및 무료 방식 중에서 어느 하나의 방식으로 대량의 정보에 손쉽게 접근할 수 있는 정보의 홍수시대이다.
이러한 정보에는 글자(text), 소리(sound), 화상(picture), 영상(movie), 멀티미디어 등이 있으며, 일반적으로 정보의 내용은 글자로 기록한다.
또한, 정보의 양이 많아지면서 기록하여 관리하는 장치와 필요한 정보를 필요한 때에 신속하고 정확하게 찾아내는 기술을 필요로 하게 되었고, 이러한 기술을 일반적으로 데이터베이스(DATABASE : DB)라고 하며, 상기 데이터베이스 전용 컴퓨터를 서버(SERVER)라 하고, 상기 서버에 인터넷 등의 데이터 통신망을 통하여 원거리에서 누구나 접속하며 필요한 정보를 손쉽게 검색 및 활용한다.
상술한 데이터베이스(DB)에는 텍스트, 소리, 화상, 영상, 멀티미디어 정보가 모두 포함되지만 정해진 저장용량에 최대의 정보를 기록 및 관리하기 위하여 텍스트 정보를 위주로 기록한다.
텍스트 정보에는 사람이 알 수 있는 어휘와 프로그램이 포함되는 컴퓨터가 알 수 있는 어휘가 있다.
데이터베이스에 저장된 대량의 정보로부터 원하는 내용을 신속하게 검색하기 위하여 사람과 컴퓨터가 정보를 교환하고 동시에 알 수 있는 표준화된 어휘의 용어가 필요하며, 이러한 표준화된 어휘를 개념의 집합체 또는 온톨로지(ONTOLOGY)라 하고, 이러한 온톨로지를 이용하여 대량의 정보가 공유되어 있는 인터넷의 웹상에서 원하는 정보를 선택적으로 검색하는 것이 시맨틱 웹(SEMANTIC WEB) 기술이다.
일반적으로 전문 지식을 획득하거나 경영상 정확한 판단 및 결정 등을 위하여 정보 검색의 필요성이 있고, 축적된 대단위의 기술정보로부터 원하는 또는 필요로 하는 기술정보를 신속하게 발굴(MINING)하는 것은 또 하나의 독립된 기술 분야가 된다.
상기 데이터베이스 서버로부터 정보 검색을 위하여 입력되는 어휘 또는 용어를 질의어(QUERY) 또는 질의어(ENTITY) 또는 추천이라고도 하며, 이하에서는 가능한 질의어로 사용한다.
상기 질의어가 일부 입력된 상태를 완성된 상태로 판단하여 검색된 질의어를 표시하는 것이 자동완성 표시 방식이다.
상기 자동완성 방식은 웹 브라우저나 기타 데이터 검색용 소프트웨어에서 반복적으로 동일하게 입력되는 이름, 주소, 명칭 등과 같은 질의어의 경우, 이전에 입력되어 검색되었던 질의어를 목록으로 표시하고, 표시된 질의어 목록 중에서 하나를 선택하여 신속하게 입력하도록 하는 것이다.
웹 2.0 기술의 하나인 에이작스(Asynchronous JavaScript and XML : AJAX) 기술을 이용하여 구현된 자동완성 방식은 포털 인터넷 사이트를 포함하는 다양한 웹사이트와 디지털 도서관, ENTERPRISE WEB 2.0, 전문 응용 분야 프로그램 등 다양한 분야에서 광범위하게 적용되고 있다.
상기와 같은 자동완성 방식은 사용자 경험 강화 측면에서 그 효과가 선호도로 입증되므로 향후의 검색 인터페이스에 더욱 널리 사용될 것으로 보인다.
그러나 현재까지 제공되는 자동완성 방식은 사용자 질의어 입력에 맞추어 저장된 로그(LOG) 정보나 자체적인 사전 등을 이용하여 질의어들을 나열하는 방식이었으므로, 검색하고자 하는 질의어가 표시된 목록의 상단에 보이지 않을 경우, 제시된 자동완성 목록을 순차적으로 모두 살펴보아야 하는 문제가 있다.
또한, 방대한 콘텐츠를 보유한 포털 사이트와 달리 개인기업 또는 특정 응용 분야의 경우에는 상대적으로 빈약한 콘텐츠로 인하여 검색의 성공을 보장할 수 없는 상태에서도 검색어 입력 빈도수에 의하여 자동완성 목록을 제시함으로써 검색 기능의 신뢰도를 떨어뜨리는 문제가 있다.
도 1 은 일반적인 데이터베이스 시스템으로부터 정보를 검색하는 시스템의 기능 구성도 이다.
도 1 을 참조하여 텍스트 정보에 의한 데이터베이스 서버로부터 필요한 정보의 검색 개념을 설명하면, 데이터베이스(DB) 서버에 텍스트로 이루어지는 다양한 정보가 대량으로 기록되고 관리된다.
데이터베이스 서버에 기록된 텍스트 정보로부터 필요한 정보를 검색하기 위해서는 질의어를 컴퓨터 단말기에 입력한다.
컴퓨터 단말기에는 검색 프로그램(PROGRAM)이 구비되고, 상기 검색 프로그램에 의하여 입력된 질의어(개체)를 분석(ANALYZE)하며, 데이터베이스 서버로부터 질의어에 해당하는 색인 정보를 검색(SEARCH) 한다.
질의어가 포함되는 다수의 색인 정보가 검색되어 목록으로 제공되고, 상기 목록 중에서 어느 하나를 선택하면 해당 정보가 최종 검색되어 컴퓨터 단말기에 출력된다.
검색된 정보는 더 높고 다양한 지식을 얻거나 경영자 또는 관리자가 결정 및 판단하기 위한 참고자료로 사용된다.
데이터베이스 서버에 기록되어 관리되는 정보의 양은 지식과 과학이 발달하면서 그 양에서 매우 크게 늘어나고, 입력되는 질의어로 원하는 정보를 분석하여 검색하는데 많은 시간이 소요되는 문제가 있다.
도 2 는 일례에 의한 것으로 데이터를 검색하기 위하여 입력되고 검색되는 질의어를 자동완성 방식으로 표시하는 상태 도시도 이다.
도 2 를 상세히 설명하면, 질의어로 “대”가 입력된 상태에서 자동완성 방식으로 검색된 질의어 목록이 도시되어 있다. 검색된 목록은 전방일치와 후방일치로 분류되어 표시된다. 도 2 에서는 한글을 질의어로 입력하였으나 영어 등과 같은 언어도 가능하다.
입력된 질의어를 자동완성 방식으로 검색하고 전방일치 방식으로 표시한 것에는 대한항공, 대법원, 대성, 대구은행 등이 있으며, 후방일치 방식으로 표시한 것에는 이용대, 소녀시대, 단국대 등이 있다.
질의어로 검색되어 자동완성으로 표시된 대한항공, 대구은행, 대한통운 등의 질의어는 기관 유형(TYPE)으로 분류되고, 대한민국은 국가 유형으로 분류되며, 대성, 이용대 등은 인물 유형으로 분류되고, 소녀시대는 그룹 유형 등으로 분류된다.
현재 대한민국의 많은 포털(PORTAL) 사이트, 일례로, 네이버(Naver, www.naver.com) 등에서 검색을 위하여 질의어를 입력하는 경우, 입력된 질의어가 포함되어 자동완성된 질의어를 검색하고 목록으로 제공한다.
질의어는 입력이 계속되면서 완성되고, 일부가 입력된 상태에서도 자동완성된 질의어 목록 중에서 원하는 질의어를 선택 입력하므로 검색을 위한 질의어 입력 시간을 줄이고 사용상 편리하다.
포털 사이트와 같이 방대한 콘텐츠를 보유하지 않은 기업이나 특정 응용 분야 등과 같은 경우에는 상대적인 콘텐츠 빈약에 의하여 입력되는 질의어에 대한 검색 결과(검색 결과의 성공적 제시)를 보장할 수 없고, 단지 입력 빈도에 의한 자동 완성 목록을 제시함으로써 해당 기능의 신뢰도를 떨어뜨린다.
도 3 은 종래 기술의 일례에 의한 것으로 질의어를 입력하고 검색에 실패한 상태 도시도 이다.
도 3 을 상세히 설명하면, 일례로, 상품의 가격을 비교하는 사이트인 ‘베스트바이어(www.bb.co.kr)’ 사이트에 접속하여 검색을 위한 질의어로 ‘아피나’를 입력한 상태이다. 상기 입력된 질의어에 대하여 ‘아피나, 아피나 식탁’이 각각 검색되어 자동완성으로 표시된다.
질의어에 대한 색인정보 검색에는 실패한 것으로 표시된다. 일례로, 검색된 질의어 ‘아피나’의 색인정보와 ‘아피나 식탁’의 색인정보 검색에는 실패한 것으로 표시된다. 이러한 실패의 원인은, 일례로, 해당 정보의 상품 판매 부진, 재고 소진, 유효기간 만료 등으로 삭제되었을 수 있다.
상기와 같은 원인에도 불구하고, 사용자에게는 검색 실패에 의하여 시스템의 신뢰도를 떨어트리게 되는 문제점이 있다.
종래 기술의 일례에 의한 것으로, A. Bangalore, A. Browne, and G. Divita, “UMLSKS SUGGEST: An Auto-complete Feature for the UMLSKS Interface Using AJAX”, In Proceedings of AMIA, 1106에 의하면 UMLSKS 인터페이스에 적용하기 위한 자동완성 특징으로서 성공적인 검색 결과를 생성한 질의어들만을 제시할 수 있는 방안이 기재되어 있다.
상기와 같은 종래 기술은 플래그(FLAG)에 의하여 질의어 검색이 성공한 경우에 이를 설정하는 방식으로, 자동완성 목록 제시 여부를 결정하였다.
그러나 검색이 실패된 질의어를 포함하는 콘텐츠가 추후 추가되는 경우, 질의어로 입력되어 검색을 시도하기 전에는 자동완성 목록으로 제시되지 않는다는 문제가 있었다.
또한, M. Takasi et al. ,“Auto Complete Method for Web Application Form Based on Term Hierarchy”, In Proceedings of the Annual Conference on JSAI (in Japanese), 1106.에 의한 종래 기술은 자동완성과 관련된 것으로, 서로 다른 응용 프로그램에서 질의어 목록을 호환하여 사용할 수 있도록 형식 변환을 지원하는 기술에 관련된 것이고, 검색 결과가 보장되는 자동완성 목록을 제공하지 못하므로 적용범위가 매우 상이하여 연관성이 없다.
또한, 이광조, 송진우, 한정석, 양성봉, “모바일 단말기를 위한 위치기반 검색어 추천 시스템”, 한국정보과학회 추계학술대회, 1107.에 의한 종래 기술은 모바일 단말기에서 원격 추천 서버를 이용하여 단말기에서의 질의어 저장 공간의 한계를 극복하고 사용자 위치 정보를 고려한 기술이지만, 역시 검색 결과가 보장되는 자동완성 목록을 제공하지 못하므로 적용범위가 매우 상이하여 연관성이 없다.
또한, 종래 기술로서 W. Sung, H. Jung, P. Kim, I. Kang, S. Lee, M. Lee, D. Park, and S. Hahn, “A Semantic Portal for Researchers Using OntoFrame”, In Proceedings of the 6th International Semantic Web Conference, 1107. 이 있다.
종래 기술에서의 OntoFrame은 시맨틱 웹 표준 기술인 XML, RDF (Resource Description Framework), OWL (Web Ontology Language), SPARQL (SPARQL Protocol and RDF Query Language) 등을 기반으로 하여 학술 연구 정보 분석 서비스를 제공하기 위해 구축된 시맨틱 웹 서비스 프레임워크이다.
종래 기술에서는 모델링된 온톨로지를 참조하여 기존 DB를 수집하고 RDF 트리플 형식으로 변환하여 추론 엔진인 OntoReasoner에서는 이를 지식으로 활용한다.
또한, 종래 기술로서, 정한민, 강인수, 성원경, “시소러스와 분야분류체계를 이용한 과학기술문헌에의 주제 및 분야 할당”, 한국언어정보학회 하계학술대회, 1106. 이 있다.
종래 기술은, URI 서버에서 정보의 수집과 변환을 담당하는데, 원문으로부터 질의어를 추출하고 해당 원문에 할당함으로써 문서 분류 기능을 수행한다.
시맨틱 웹 서비스 프레임 워크의 OntoFrame 서비스는 질의어(개체) 중심적 통합 검색 기능을 제공하는 것으로 이는 포털 사이트인 Naver의 Vertical Search와 유사한 기능이다.
즉, 특정 질의어의 유형을 파악하여 해당 유형에 맞는 검색 결과를 생성하는 것으로, 일례로, 사용자가 “Christian Becker”라는 인물명을 질의어로 입력하면, 관련 연구자(Similar Researchers), 인용 관계에 있는 연구자(Researchers in Citation) 정보 등을 제시하고, “Semantic Web”이라는 주제어를 질의어로 입력한 경우에는 주제 추이(Topic Trends), 유사 주제어(See Also), 주제별 전문가(Researchers by Topic), 주제별 논문(Papers by Topic), 연구자 네트워크(Researcher Network) 등을 제시한다.
특히, 질의어에 대한 검색 결과를 제공할 때는 URI 서버에서 수행하였던 주제어 추출 결과를 활용한다. 주제어 추출 결과는 추론 엔진에 의해 인물, 기관 등으로 전파되어 주제 추이, 주제별 전문가, 주제별 논문을 구성할 수 있게 해주기 때문에 해당 문서정보가 추가되지 않는 이상 올바른 시맨틱 웹 서비스를 구성할 수 없는 문제가 있다.
종래 기술에 의한 OntoFrame 서비스에서도 자동완성을 제공하였는데, 질의어 추출에 사용된 질의어 사전 내의 질의어들 중에서 사용자의 질의어와 매칭된 것들을 자동완성 목록으로 제시하였다.
그러나 추출된 질의어들에 포함되지 않은 질의어들도 자동완성 목록으로 제시됨으로 검색 결과가 없거나 부실한 검색 결과를 초래하는 경우가 생기는 문제가 있다.
또한, 질의어로 입력되는 문자열과 매칭된 질의어의 숫자가 많아 자동완성 부하가 크게 발생하는 문제가 있다.
따라서 자동완성 목록을 추출된 질의어들로 통제하는 방식을 사용하여 상기와 같은 문제점을 해결하는 기술을 개발할 필요가 있다.
또한, 질의어 유형 인식을 자동완성 제시 전 단계에서 수행하여 질의어 유형별 자동완성을 가능하게 하는 기술을 개발할 필요가 있다.
또한, 입력되는 질의어에 대하여 검색이 성공한 결과만을 자동완성으로 제공하는 기술을 개발할 필요가 있다.
본 발명은 상기와 같은 종래 기술의 문제점과 필요성을 해결하기 위하여 안출한 것으로, 특히, 입력되는 질의어를 검색하여 결과가 보장되는 경우에만 자동완성으로 제시하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체를 제공하는 것이 그 목적이다.
또한, 본 발명은 입력된 질의어의 검색 결과가 보장되는 경우에만 자동완성으로 제시하므로 검색이 정확하고 신속하며 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체를 제공하는 것이 그 목적이다.
또한, 본 발명은 문서정보의 추가와 삭제 등에 의한 질의어의 발생 빈도수 값을 실시간으로 반영하고 유형별 정보를 그룹화하여 개선된 상태로 제공하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체를 제공하는 것이 그 목적이다.
이러한 목적을 달성하기 위하여 안출한 본 발명은, 문서정보를 등록받고 등록받은 문서정보로부터 색인어 정보와 빈도수 정보를 추출하여 색인 데이터베이스에 기록하며 추출된 색인어 정보로부터 자동완성 목록정보를 생성하는 문서색인 서버, 문서색인 서버에 의하여 생성된 자동완성 목록정보를 빈도수 정보와 연계상태 로 기록하는 자동완성 데이터베이스 및 자동완성 데이터베이스를 검색하여 색인어 정보가 포함되는 자동완성 목록정보를 추출하고 질의어로 변환하여 사용자 인터페이스로 제공하며 선택 입력된 질의어를 색인어로 변환하고 색인어가 포함되는 문서정보를 검색하여 사용자 인터페이스로 제공하는 자동완성 서버를 포함하여 구성한다.
바람직하게, 문서색인서버에 접속하여 수집된 상기 문서정보를 등록하는 문서수집부, 문서색인서버로부터 제공되는 색인어 정보를 기록하고 자동완성 서버의 검색에 의하여 색인어 정보를 제공하는 색인 데이터베이스를 더 포함하는 구성을 제시한다.
또한, 문서수집부는 웹페이지 문서정보, 서식 문서정보, 이미지 문서정보, 동영상 문서정보, 텍스트 문서정보, 멀티미디어 문서정보를 포함하는 콘텐츠 문서정보를 하나 이상 수집하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 문서색인 서버는, 새로운 문서정보를 입력하여 등록하는 문서등록부, 문서등록부가 등록하는 문서정보로부터 색인어를 추출하여 색인 데이터베이스에 저장하는 문서 색인부 및 색인 데이터베이스에 저장되는 색인어로부터 자동완성 목록으로 제공되는 색인어 정보를 검색하여 자동완성 데이터베이스에 기록하고 빈도수 정보를 갱신하여 관리하는 데이터베이스 생성부를 포함하여 이루어지는 구성을 특징으로 한다.
또한, 문서 색인부는 문서등록부에 등록된 문서정보로부터 색인어를 추출하는 것과 텍스트 프로세싱으로 지정된 색인어 정보를 추출하는 것 중에서 선택된 어 느 하나 이상으로부터 색인어 정보가 포함되는 부가정보를 추출하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 문서색인부는 문서등록부에 등록된 문서정보로부터 형태소 해석 방식, 엔그람(N-gram)의 방식 중에서 선택된 어느 하나의 방식으로 색인어를 추출하여 상기 색인 데이터베이스에 저장하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 문서색인부는 추출한 색인어가 포함되는 부가정보를 해당 문서정보와 연계시켜 색인 데이터베이스에 기록하여 저장하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 문서색인 서버는 문서등록부에 등록된 문서정보를 수정하고 삭제하는 문서편집부를 더 포함하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 문서색인부는 문서등록부에 등록된 문서정보로부터 추출된 색인어 중에서 불용어 사전에 포함된 불필요한 색인어를 제거하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 데이터베이스 생성부는 문서정보 들의 빈도수 정보들을 자동완성 데이터베이스 단위의 자동완성 목록 대상으로 누적 계산하여 기록하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 데이터베이스 생성부는 빈도수 정보의 값이 0 이면 누적 계산되는 자동완성 목록 대상으로부터 제외하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 자동완성 서버는 검색할 질의어를 사용자 인터페이스로 입력받아 색인어로 변환하는 질의어 입력부, 질의어 입력부의 색인어를 자동완성 데이터베이스로 부터 검색하는 데이터베이스 검색부, 자동완성 데이터베이스에 저장된 색인어의 빈도수 정보를 확인하고 자동완성 목록 정보로 결정하여 제공하는 색인어 결정부, 색인어 결정부가 제공하는 자동완성 목록 정보를 질의어로 변환하여 사용자 인터페이스로 제공하는 제시부, 입력된 질의어와 제시부가 제공한 자동완성 목록의 질의어를 사용자 인터페이스로 제공하고 이벤트 신호와 함께 선택된 상기 질의어 정보를 입력하여 상기 색인어로 변환하는 선택부; 상기 선택부가 입력한 색인어 정보와 검색 이벤트 신호에 의하여 문서정보를 검색하고 제공하는 서비스 연동부를 포함하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 질의어 입력부는 질의어가 음소, 음절, 어절, 단어 중에서 선택된 어느 하나에 의한 단위 글자로 입력하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 질의어 입력부는 상기 질의어가 입력될 때마다 자동완성 데이터베이스를 에이작스(AJAX) 방식으로 호출하여 색인어를 검색하는 구성을 포함하여 이루어지는 것을 특징으로 한다.
또한, 질의어 입력부는 상기 질의어 정보를 사용자 인터페이스(UI)로 입력하는 구성을 포함하여 이루어지는 것을 특징으로 한다.
또한, 데이터베이스 검색부는 색인어를 전방일치와 후방일치 방식으로 각각 검색하여 자동완성 목록으로 작성하는 구성을 포함하여 이루어지는 것을 특징으로 한다.
또한, 색인어 결정부는 색인어의 빈도수 정보가 1 이상인 것을 자동완성 목록에 포함시켜 제공하도록 결정하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 제시부는 자동완성 목록을 질의어의 입력 통계 정보와 질의어의 빈도수 정보와 질의어의 가나다 순서 정보 중에서 선택된 어느 하나 이상을 이용하여 자동완성 목록에서의 순위를 조절하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 서비스 연동부는 색인어 정보를 에피아이(API) 호출에 의하여 문서정보를 검색하는 구성으로 이루어지는 것을 특징으로 한다.
이러한 목적을 달성하기 위하여 안출한 본 발명은, 문서정보를 수집 등록하고 등록된 문서정보로부터 색인어 정보와 빈도수 정보를 추출하여 색인 데이터베이스에 저장하며 색인어 정보의 자동완성 목록 정보를 생성하여 자동완성 데이터베이스에 저장하고 등록된 문서정보를 수정하는 과정, 자동완성 데이터베이스로부터 사용자 인터페이스를 통하여 입력되는 질의어를 색인어로 변환하고 빈도수 1 이상으로 검색되는 색인어를 자동완성 목록 정보에 포함시키는 과정 및 자동완성 목록의 색인어를 질의어로 변환하고 사용자 인터페이스로 제시하며 외부로부터 사용자 인터페이스로 선택 입력된 질의어를 상기 색인어로 변환하며 변환된 색인어로 검색된 문서정보를 출력하는 과정을 포함하는 구성을 제시한다.
바람직하게, 수정과정은 문서정보를 문서수집부에 의하여 수집하는 과정, 수집된 문서정보를 문서등록부에 의하여 등록하는 과정, 등록된 문서정보로부터 문서 색인부에 의하여 색인어를 추출하고 색인 데이터베이스에 저장하는 과정, 색인 데이터베이스에 저장되는 색인어 정보로부터 데이터베이스 생성부에 의하여 자동완성 목록으로 제공할 색인어를 추출하고 자동완성 데이터베이스에 저장하는 과정, 등록 된 문서정보를 문서 편집부에 의하여 수정하거나 삭제하는 과정을 포함하여 이루어지는 것을 특징으로 한다.
또한, 색인어 추출은 형태소 해석 방식, 엔그람(N-gram) 색인 방식 중에서 선택된 어느 하나의 방식으로 상기 색인어를 추출하는 것을 특징으로 한다.
또한, 색인 데이터베이스에 저장되는 상기 색인어에는 부가정보가 포함되고 불용어 사전을 이용하여 불필요한 색인어를 제거하며, 자동완성 데이터베이스에는 각 문서정보의 갱신된 빈도수 정보가 저장되는 것을 특징으로 한다.
또한, 입력되는 질의어는 음소, 음절, 어절, 단어 중에서 선택된 어느 하나의 단위로 입력하는 것을 특징으로 한다.
또한, 입력되는 질의어는 색인어로 변환되고 에이작스 방식으로 상기 자동완성 데이터베이스부로부터 호출하여 검색하는 것을 특징으로 한다.
이러한 목적을 달성하기 위하여 안출한 본 발명은, 문서정보를 수집 등록하고 등록된 문서정보로부터 색인어 정보와 빈도수 정보를 추출하여 색인 데이터베이스에 저장하며 색인어 정보의 자동완성 목록 정보를 생성하여 자동완성 데이터베이스에 저장하고 등록된 문서정보를 수정하는 프로세스, 자동완성 데이터베이스로부터 사용자 인터페이스를 통하여 입력되는 질의어를 색인어로 변환하고 빈도수 1 이상으로 검색되는 상기 색인어를 자동완성 목록 정보에 포함시키는 프로세스, 자동완성 목록의 색인어를 상기 질의어로 변환하고 사용자 인터페이스로 제시하며 외부로부터 사용자 인터페이스로 선택 입력된 질의어를 색인어로 변환하며 변환된 색인 어로 검색된 문서정보를 출력하는 프로세스를 포함하여 이루어지는 검색 결과가 보장된 질의어 유형별 자동완성 방법의 프로그램 소스를 기록한 기록매체의 구성을 제시한다.
바람직하게, 질의어의 자동완성 목록 프로세스는 질의어의 입력 통계 정보와 자동완성 데이터베이스의 빈도수 정보와 질의어의 가나다 순서 정보 중에서 선택된 어느 하나 이상으로 순위를 조절하는 프로세스를 특징으로 한다.
또한, 입력되는 질의어 프로세스는 음소, 음절, 어절, 단어 중에서 선택된 어느 하나의 단위로 입력되는 경우마다 에이작스 방식으로 자동완성 데이터베이스부를 호출하고 검색하는 프로세스를 특징으로 하는 한다.
이러한 목적을 달성하기 위하여 안출한 본 발명은, 문서정보를 등록받고 등록받은 문서정보로부터 색인어와 빈도수 정보를 추출하여 자동완성 데이터베이스를 구축하며 외부로부터 사용자 인터페이스로 입력되는 질의어를 색인어로 변환하고 자동완성 데이터베이스로부터 색인어가 포함되는 색인어의 자동완성 목록을 사용자 인터페이스를 통하여 제공하며 사용자 인터페이스를 통하여 선택 입력되는 질의어를 색인어로 변환하고 변환된 색인어가 포함되는 문서정보를 상기 사용자 인터페이스로 제공하는 서버시스템, 서버시스템과 접속하고 유선통신경로와 무선통신경로 중에서 선택된 통신경로로 질의어와 검색된 문서정보의 데이터를 송수신하는 공중통신망, 및 공중통신망에 접속하고 검색할 질의어를 사용자 인터페이스로 입력하여 서버 시스템에 전달하며 서버 시스템이 제공하는 질의어의 자동완성 목록을 사용자 인터페이스로 표시하고 선택된 하나의 질의어를 이벤트 신호와 함께 입력하여 서버 시스템에 제공하며 서버 시스템이 검색하여 제공하는 문서정보를 표시하는 컴퓨터로 이루어지는 단말장치를 포함하는 구성을 제시한다.
바람직하게, 서버시스템은 문서정보를 등록받고 색인어와 빈도수 정보를 추출하며 자동완성 데이터베이스를 구축하는 문서색인 서버, 질의어를 외부로부터 사용자 인터페이스로 입력하고 색인어로 변환하며 색인어가 포함되는 색인어 목록 정보를 추출하고 질의어로 변환하여 사용자 인터페이스로 제공하며 선택 입력된 질의어를 색인어로 변환하여 검색된 문서정보를 제공하는 자동완성 서버, 문서색인 서버에 의하여 생성된 자동완성 목록정보를 빈도수 정보와 연계상태로 기록하는 자동완성 데이터베이스, 문서색인서버에 접속하여 수집된 문서정보를 등록하는 문서수집부 및 문서색인 서버로부터 제공되는 색인어 정보를 기록하고 자동완성 서버의 검색에 의하여 제공하는 색인 데이터베이스를 포함하여 이루어지는 구성을 특징으로 한다.
또한, 공중통신망은 서버시스템과 단말장치를 무선통신경로로 접속하고 데이터 신호를 전송하는 무선통신망 및 서버시스템과 단말장치를 유선통신경로로 접속하고 데이터 신호를 전송하는 유선통신망을 포함하여 이루어지는 구성을 특징으로 한다.
따라서, 본 발명에 의하면 입력되는 질의어를 검색하여 결과가 보장되는 경 우에만 자동완성으로 제시하므로 검색 결과의 신뢰도를 높이는 사용상 편리한 효과가 있다.
또한, 본 발명은 검색 결과가 보장되는 경우에만 자동완성으로 제시하므로 검색의 실패를 방지하고 검색을 신속하게 하는 산업적 이용효과가 있다.
그리고, 본 발명은 문서정보의 추가와 삭제 등에 의한 질의어의 발생 빈도수 값을 실시간으로 반영하고 유형별 정보를 그룹화하여 개선상태로 제공하는 사용상 편리한 효과가 있다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
이하, 도면을 참조하여 본 발명의 일실시예에 대하여 상세히 설명한다.
실시 예
본 발명을 설명하기 위하여 첨부된 것으로, 도 4 는 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 시스템의 기능 구성도 이며, 도 5 는 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 시스템의 서버 시스템 상세 기능 구성도 이고, 도 6 은 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 방법 순서도 이며, 도 7 은 본 발명의 일례에 의한 것으로 문서정보의 추가와 삭제에 의한 빈도수 갱신 상태 설명도 이다.
도 4 를 참조하면, 본 발명의 검색 결과가 보장된 질의어 유형별 자동완성 시스템은 서버시스템(100), 공중통신망(110) 그리고 단말장치(120)를 포함하여 구성된다.
서버시스템(100)은, 문서정보를 등록받으며 색인어를 추출하고 자동완성 데이터베이스를 구축하며 질의어를 입력하여 색인어로 변환하며 자동완성 데이터베이스로부터 상기 색인어가 포함되는 색인어를 검색하고 질의어로 변환하여 제공한다.
상세하게는 문서정보를 등록받고 등록받은 문서정보로부터 색인어와 빈도수 정보를 추출하여 자동완성 데이터베이스를 구축하며 외부로부터 사용자 인터페이스로 입력되는 질의어를 색인어로 변환하고 자동완성 데이터베이스로부터 색인어가 포함되는 색인어의 자동완성 목록을 사용자 인터페이스를 통하여 제공하며 사용자 인터페이스를 통하여 선택 입력되는 질의어를 색인어로 변환하고 변환된 색인어가 포함되는 문서정보를 사용자 인터페이스로 제공한다.
상기 공중통신망(110)은, 상기 서버시스템(100) 및 단말장치(300)와 유선통신경로와 무선통신경로 중에서 선택된 통신경로로 접속하고 데이터 신호를 송수신 또는 전송한다.
상기 단말장치(300)는, 검색할 질의어를 사용자 인터페이스(USER INTERFACE : UI)를 통하여 입력하고 상기 공중통신망(110)을 통하여 상기 서버시스템(100)에 제공하며, 상기 서버시스템(100)이 제공하는 정보를 사용자 인터페이 스(USER INTERFACE : UI)로 표시하며, 표시되는 질의어 목록 중에서 하나를 선택하여 검색 이벤트 신호와 함께 사용자 인터페이스로 입력하며 검색되어 제공된 문서정보를 확인하는 컴퓨터 단말장치로 이루어진다.
도 5 를 참조하여 서버 시스템(100)을 설명하면, 문서수집부(110), 문서색인서버(120), 자동완성 데이터베이스(140), 자동완성서버(130), 색인 데이터베이스(150)를 포함하는 구성이다.
문서수집부(110)는 수집된 문서정보를 상기 문서색인서버(120)에 등록하는 것이고, 수집된 문서정보는 웹페이지 문서정보, 서식 문서정보, 이미지 문서정보, 동영상 문서정보, 텍스트 문서정보, 멀티미디어 문서정보를 포함하는 콘텐츠(CONTENTS) 문서정보이다.
상기 문서색인서버(120)는 문서정보를 등록받고 색인어를 추출하며 자동완성 목록정보의 데이터베이스를 구축하는 것으로, 문서등록부(121), 문서색인부(123), 데이터베이스 생성부(124), 문서편집부(122)를 포함하는 구성이고, 문서등록부(121)는 문서수집부(110)가 제공하는 새로운 정보의 문서를 도면에 도시하지 않은 별도의 문서정보 저장 데이터베이스에 기록하여 등록한다.
문서색인부(123)가 등록된 문서정보로부터 상기 부가정보를 추출하는 방식에는, 입력된 문서정보로부터 색인어를 추출하는 방식과 텍스트 프로세싱(TEXT PROCESSING)으로 지정된 정보를 추출하는 방식이 있으며, 방식 중에서 선택된 어느 하나 이상으로 부가정보 추출 작업을 한다. 또한, 상기 추출된 부가정보는 문서정 보에 연계되는 상태로 상기 색인 데이터베이스에 기록하여 저장한다.
상기 문서색인부(123)가 상기 문서등록부(121)에 의하여 등록된 문서정보로부터 색인어 정보가 포함되는 부가정보 추출 방식 중에서 상기의 전자에 해당하는 색인어 추출하는 방식은, 등록받은 문서정보로부터 형태소 해석, N-gram의 색인 방식 중에서 선택된 방식으로 색인어가 포함되는 부가정보를 추출하여 상기 색인 데이터베이스에 저장한다.
즉, 색인어 추출방식에는 형태소 해석 방식과 N-gram의 색인 방식이 있으며, 등록된 문서정보로부터 선택된 방식으로 색인어를 추출한다.
상기 형태소는 의미를 갖는 단어 혹은 단어의 일부로 그 이상 작은 단위로는 의미를 가지지 못하는 것을 말한다.
상기 형태소 해석은 최장일치법이라고도 부르며, 형태소 해석에서 단어나 문절의 구분 방법으로 복수의 가능성이 있을 때에 가장 긴 문자수를 포함한 해석법을 채용하는 방법이다.
상기 N-gram 색인 방식은 인접한 N 개의 음절을 말한다. 일례로, ‘한국과학기술’의 경우, ‘한국’, ‘국과’, ‘과학’, ‘학기’, ‘기술’의 음절이고, 상기 각 음절이 질의어로 활용된다. 이와 같은 음절 중에서 의미 없는 엔그람(N-gram)의 질의어는 부적합한 문서정보를 검색할 수 있으므로 이러한 상태를 방지하기 위하여 각각의 음절에 가중치를 부여한다.
또한, 상기 문서색인부(123)는 상기 등록받은 문서정보로부터 추출된 색인어 중에서 불용어 사전에 포함된 불필요한 색인어를 제거한다.
상기 불용어(STOPWORD, 不用語)는 인터넷 검색 시에 검색 용어로 사용하지 않는 단어, 일례로, 관사 전치사 조사 접속사 등과 같이 검색 색인어로 의미가 없는 단어이다.
상기 데이터베이스 생성부(124)는 상기 색인 데이터베이스(150)에 저장되는 색인어로부터 자동완성으로 제공되는 유형별로 색인어를 검색하여 자동완성 데이터베이스(140)에 기록하고 빈도수(document frequency) 정보를 다시 계산하여 관리하는 것으로 각 문서정보에서 발생하는 각각의 빈도수 정보를 기록하고, 상기 빈도수의 값이 0 이면 자동완성 목록의 대상으로부터 제외한다.
하나의 문서정보에 지정된 색인어가 포함되는지 여부를 표시하는 것이 출현 빈도수(이하, 빈도수라 한다.)이고, 상기 하나의 문서정보에 질의어가 출현되는 경우 1 의 값이 주어지며 출현 되지 않는 경우는 0 의 값이 주어진다.
상기 자동완성 데이터베이스(140)는 상기 문서색인 서버(120)에 의하여 생성된 색인어의 자동완성 목록정보를 빈도수 정보와 함께 기록한다.
상기 자동완성 서버(130)는 상기 자동완성 데이터베이스(140)를 검색하여 색인어가 포함되는 색인어 정보를 추출하고 질의어로 변환하여 제공하는 것으로, 질의어 입력부(131); 데이터베이스 검색부(132); 색인어 결정부(133); 제시부(134); 선택부(135); 서비스 연동부(136)를 포함하는 구성이고, 상기 질의어 입력부(131) 는 검색 질의어를 사용자 인터페이스로 입력받고 색인어로 변환하는 것으로, 상기 질의어가 음소, 음절, 어절, 단어 중에서 선택된 어느 하나에 의한 단위 글자로 사용자 인터페이스(User Interface : UI)를 통하여 입력될 때마다 자동완성 데이터베이스를 에이작스(AJAX) 방식으로 호출하여 검색하도록 한다.
상기 에이작스(Asynchronous JavaScript and XML : AJAX) 애플리케이션(APPLICATION) 방식은 필요한 데이터만을 웹서버(web server)에 요청하여 제공받은 후 클라이언트(client)에서 데이터 처리하는 방식이다.
일반적으로 웹(web) 서버에서 검색 또는 요청된 내용에 의하여 웹 페이지를 작성 제공하고, 새로운 내용을 요청하는 경우 새로운 웹페이지를 작성하여 제공한다.
이러한 경우 최초 웹 페이지가 가지고 있던 내용과 새로운 웹페이지의 내용에는 유사한 내용을 가지고 있는 경우가 많다. 즉, HTML 코드가 중복되는 상태에서 동일한 HTML 코드의 내용을 다시 한 번 전송하므로 많은 대역폭(bandwidth)을 낭비하며, 대역폭의 낭비는 시간과 금전적 손실을 발생하고, 사용자와 실시간 대화 서비스를 어렵게 한다.
이러한 AJAX 방식은 웹 서버에서 처리되던 일부의 데이터를 클라이언트(CLIENT) 또는 접속된 단말기에서 처리하므로 웹서버와 클라이언트 사이에 교환되는 데이터 량이 줄어들고 대역폭이 줄어들고, 웹서버에서의 전체 데이터 처리량이 줄어들어 응답성이 향상되어 대화 형식의 데이터 교환이 가능하다.
상기 AJAX 방식은 응용할 수 없는 브라우저가 있고, HTTP 클라이언트의 기능이 한정되며, 보안상의 문제가 있고, 스크립트 작성으로 Debugging이 용이하지 않는 등의 단점이 있으나, 웹 페이지를 거의 고정한 상태에서 고속화면 전환이 가능하고, 클라이언트 또는 단말기에 데이터 처리의 일부를 위임하므로 서버의 부하(LOAD)가 줄어드는 동시에 데이터 처리 시간이 짧으며 비동기 데이터 통신이 가능하고, 적은 데이터 량에 의하여 대역폭을 줄이고, 통신시간이 줄어드는 등의 장점에 의하여 많이 사용되는 방식이다.
상기 데이터베이스 검색부(132)는 상기 질의어 입력부가 입력하여 변환한 색인어를 상기 자동완성 데이터베이스로부터 검색하는 것으로, 상기 색인어를 전방일치와 후방일치 방식으로 각각 검색하여 목록으로 작성한다.
상기 색인어 결정부(133)는 상기 자동완성 데이터베이스(140)에 저장된 색인어의 빈도수 정보를 확인하고, 상기 질의어 빈도수 정보가 1 이상의 값인 것을 자동완성 목록으로 제공하도록 결정하여 자동완성 목록 정보로 제공한다.
상기 제시부(134)는 상기 색인어 결정부(133)가 제공하는 자동완성 목록 정보를 질의어 정보로 변환하여 사용자 인터페이스로 제공하는 것으로, 질의어 입력 통계 정보와 빈도수 정보와 가나다 순서 정보 중에서 선택된 어느 하나 이상의 정보를 이용하여 목록에서의 표시되는 순위 또는 순서를 조절한다.
상기 선택부(135)는 입력된 질의어와 상기 제시부(134)가 질의어로 변환하여 제공하는 자동완성 목록을 사용자 인터페이스로 제공하고 선택된 질의어 정보를 입 력하여 색인어로 변환하며, 상기 서비스 연동부(136)는 상기 선택부(135)가 입력하여 제공하는 색인어 정보를 검색 이벤트 신호에 의하여 검색하고, 상기 색인 데이터베이스(150)로부터 검색된 문서정보를 제공하는 것으로, 상기 검색은 API 호출에 의하여 검색한다.
상기 API(Application Program Interface ; 응용프로그램 인터페이스)는 운영체계나 다른 응용프로그램에게 처리요구를 할 수 있도록 하는 컴퓨터 운영체계나 다른 응용프로그램에 의해 미리 정해진 특정한 방법이다.
API는 운영체계나 프로그램의 인터페이스로서 사용자와 직접적으로 대하게 되는 그래픽 사용자 인터페이스나 명령형 인터페이스와는 다르다.
상기 API는 응용프로그램이 운영체계나 데이터베이스 관리시스템과 같은 시스템 프로그램과 통신할 때 사용되는 언어나 메시지 형식을 말한다. API는 프로그램 내에서 실행을 위해 특정 서브루틴에 연결을 제공하는 함수를 호출함으로써 구현된다.
즉, 하나의 API는 함수 호출에 의해 요청되는 작업을 수행하기 위해 이미 존재하거나 또는 연결되어야 하는 몇 개의 프로그램 모듈이나 루틴으로 이루어진다.
일반적으로 서버(SERVER)는 컴퓨터를 활용하고, 네트워크와 통신을 수행하며, 컴퓨터 연산 처리를 수행하고, 다양한 기능을 수행하는 구성 요소를 포함하며, 이러한 구성 요소 각각은 서버의 프로세서(processor), 메모리(memory), 입출력 수단 등에 의하여 작동된다.
상기와 같은 구성의 본 발명에 의한 서버 시스템(100)은 문서정보를 등록받고 색인하며 자동완성 DB(140)를 구축하는 문서 색인 서버(120)와 사용자가 입력한 질의어를 색인어로 변환하고 상기 색인어가 포함되는 색인어를 자동완성 DB(140)로부터 검색하여 질의어로 변환한 목록으로 제공하는 자동완성 제공 서버(130)와 문서정보를 수집하는 문서수집부(110)와 색인어 및 색인어의 유형별 정보를 포함하여 기록하는 자동완성 데이터베이스(140)와 색인어 정보를 기록하는 색인 데이터베이스(150)를 포함한다.
상기 문서 색인 서버(120)는 문서정보를 등록받는 문서등록부(121), 문서정보 내 색인어들을 추출하여 색인하는 문서 색인부(123), DB 생성부(124) 및 문서 편집부(122)를 포함한다.
상기 문서등록부(121)는, 문서 등록기, 지식 관리 시스템, 문서 수집기 등이 포함되는 문서수집부(110)를 통하여 문서정보를 등록받는다. 상기 등록받는 문서정보는 웹(web) 페이지 문서정보, 텍스트(text) 문서정보, 서식 문서정보, 이미지 문서정보, 동영상 문서정보 등의 모든 콘텐츠를 포함한다.
문서 색인부(123)는, 형태소 해석, N-gram 등의 색인방식 중에서 선택된 색인 방식으로 검출된 색인어(질의어)들을 추출하여 색인 데이터베이스(150)에 저장한다.
문서 색인부(123)가 색인어를 추출하는 방식은 등록된 문서정보로부터 특정 한 색인어를 추출하거나 텍스트 프로세싱을 통하여 특정 정보를 추출하는 등의 부가정보 작업을 수행한다.
이때 문서등록부(121)로부터 추출된 부가 정보를 색인 데이터베이스(150)에 추가하고, 불용어 사전 등을 이용하여 불필요한 색인어를 미리 제거한다.
데이터베이스 생성부(124)는, 색인 데이터베이스(150)에 저장되는 색인어 정보 중에서 자동완성으로 제공되는 유형별 색인어 정보를 추출하여 색인어 정보와 함께 자동완성 데이터베이스(140)에 기록하고, 그 발생 빈도수 (Document Frequency) 정보를 다시 계산한다.
상기 빈도수 정보는 해당 정보들이 문서 내에서 발생한 빈도수 정보를 기록한 것이고, 이 값이 0 이면, 해당 색인어 정보는 자동완성 목록으로 제시할 대상으로부터 제외된다.
상기 문서 편집부(122)는, 이미 등록된 문서정보에 대한 수정 또는 삭제를 수행한다. 문서정보가 수정 또는 삭제됨에 따라 해당 문서정보 내의 색인어들과 빈도수 값은 변경되어야 하므로 상기 데이터베이스 생성부(124)에 영향을 미친다.
본 발명은 시스템에 입력 및 기록되는 문서정보로부터 색인어를 검색 및 추출하고, 시스템에서 관리하는 색인어 사전에 기록된 색인어에 상기 검색된 색인어를 별도 표시하여 관리한다.
상기 질의어와 색인어는 약간의 차이가 있으나 일반적으로 같은 의미로 사용된다. 즉, 질의어는 사용자와의 인터페이스에 의한 것으로 사용자가 입력하거나 선 택하도록 표시되는 것이고, 상기 질의어는 시스템에 입력되어 색인어로 변환되며, 색인어는 질의어로 변환되어 제시 또는 출력된다.
또한, 일례로 특정한 논문 정보가 시스템에 입력되는 경우, 상기 논문 정보로부터 상위 5 개의 색인어 정보를 검출하여 대표 색인어로 추출한다.
상기 검색되고 추출되어 할당된 상위 5 개의 색인어는 시스템의 색인어 사전에 빈도수 필드를 두고 색인어로서 선정된 빈도수를 증가시킨다.
상기와 같은 본 발명은, 신규 문서정보가 추가되는 경우에 색인어 추출이 수행되고 색인어 사전에 색인어들의 빈도수 정보가 자동적으로 누적 계산되어 변경되므로 실시간(real-time)으로 자동완성 목록을 갱신(update)할 수 있는 장점이 있다.
일례로 특정 문서정보를 삭제하면, 빈도수 필드의 해당 색인어의 빈도수 정보가 각각 1 씩 감소된다. 이러한 방식을 통하여 특정한 문서정보의 추가 또는 삭제되는 경우에 따른 대응을 실시간으로 처리할 수 있고, 하기의 도 7 의 설명에서 상세히 설명한다.
시스템에 구비되는 검색 엔진에서의 색인 데이터베이스는 색인어 사전과 인물 사전 등을 구비한다. 상기 인물 사전은 URI 서버로부터 직접 웹 서비스를 통해 전달받은 인물명으로 구성한다. 즉, 말뭉치 등으로부터 확보한 색인어 목록을 가지고 있는 것이 아니라, 논문 정보 등과 같은 서비스 대상 문서정보의 저자(인물)들 을 실시간으로 추가한다.
그러나 색인어 사전과 마찬가지로 실시간에 의한 빈도수 정보 값을 유지하므로 자동완성으로 목록을 제공하고 문서정보의 추가, 삭제 등에 대응하는 방식은 동일하다.
도 7 은 문서정보의 추가와 삭제에 의한 빈도수 갱신 상태 설명도 이다.
도 7 을 상세히 설명하면 1 번 문서정보가 등록되는 경우에 5 개의 색인어들이 추출되어 색인 데이터베이스(150)와 자동완성 데이터베이스(140)에 추가 기록된다. 상기 색인어들이 자동완성 방식에 의한 유형별 정보이면 하나의 문서정보로부터 추출된 정보들이므로 그 빈도수는 각각 1 로 한다.
상기 도 7 에서의 2 번 문서정보가 등록되는 경우에 5 개의 색인어들이 추출되는데, “OWL"과 ”Semantic Annotation"이 1 번 문서정보에서 이미 추출된 색인어들이므로 그 빈도수는 2가 되며, 나머지 3개 색인어들은 처음 추출된 것들이므로 그 빈도수 정보는 1 이 된다.
상기 도 7 에서의 1 번째 문서정보가 삭제되면, 1 번 문서정보에 의한 5 개의 색인어들에 해당하는 빈도수가 각 1 씩 감소하게 된다.
종래 기술에서는 검색 결과를 생성한 색인어들만을 자동완성 방식으로 제시할 수 있는 방안이 소개되었고, 여기에서는 사용자 질의가 성공한 경우에 이를 해당 색인어의 검색 성공과 실패의 여부를 확인하는 플래그(flag)를 부착하는 단순한 방식을 사용하였다.
상기와 같은 종래 기술에서는 검색의 실패를 일으킨 색인어를 포함하는 문서정보가 추후 추가되더라도 사용자가 해당 질의어를 직접 입력하여 검색을 시도하기 전까지는 자동완성 목록에서 제시되지 않는 문제점이 있었다.
상기와 같은 문제를 극복하여, 문서정보 등록 또는 편집 시점에 즉각적으로 자동완성 대상 질의어들의 빈도수 정보를 조정함으로써 시간적 차이를 두지 않고 검색 결과를 실시간(REAL-TIME)으로 보장하는 자동완성 목록을 제공하는 것이 본 발명의 기술적 사상이다.
종래 기술에 의한 OntoFrame은 개체 중심적 통합 검색을 제공하는데, 상기 개체는 질의어의 하위 집합(Subset)이다.
상기 입력된 질의어가 인물, 주제어 등 특정 질의어 유형이 포함되어 매칭되므로 검색되는 경우는 질의어 페이지가 구성되고, 그렇지 않은 경우는 일반 검색 결과 페이지가 구성된다.
질의어의 유형별 확인은 검색 엔진을 호출하는 방식으로 이루어지고, 입력된 질의어를 색인어로 변환하며, 색인어에 대해 검색 엔진 내 색인어 사전과 인물 사전을 동시에 참조한다. 이때, 빈도수 값이 1 이상인 색인어와 인물명을 검색하면서, 상기 입력된 질의어가 지역별 유형인지 인물별 유형인지 등등의 유형별 정보도 함께 검색한다.
하기는 본 발명의 일례에 의한 검색 엔진 프로그램이다.
API: SearchResultList getAutoComplete(String SearchTerm)
호출 예: getAutoComplete(“sem”)
결과값 예:
[Sem Borst, Person]
[Semantic Annotation, Topic]
[Semantic Web, Topic]
[Semih Ergintav, Person]
[Semyon M. Meerkov, Person]
본 발명에 의한 자동완성 인터페이스에서는 검색 결과값에 의한 색인어 유형을 인식하고 아이콘, 색상, 트리 분류 등의 방식으로 표시할 수 있다.
자동완성 서버(130)는 사용자 질의어를 입력받고 색인어로 변환하는 질의어 입력부(131), 색인어를 포함하는 자동완성 데이터베이스(140) 안에서 대응되는 색인어들을 검색하는 데이터베이스 검색부(132), 상기 자동완성 데이터베이스(140) 안에 기록 저장된 빈도수 정보를 확인하고 자동완성 제공 여부를 결정하는 색인어 결정부(133), 자동완성 목록을 질의어로 변환하고 사용자 인터페이스(UI)를 통하여 검색 인터페이스로 제공하는 제시부(134), 상기 제시된 질의어들을 포함하는 자동완성 목록 중 특정 질의어를 선택할 수 있도록 사용자 인터페이스(UI)를 제공하고 선택된 질의어를 색인어로 변환하는 선택부(135) 및 상기 선택된 색인어를 검색 버 튼이나 키보드 조작에 의한 이벤트 신호에 따라 검색 서비스로 검색된 문서정보를 제공하는 서비스 연동부(136)를 포함한다.
상기 질의어 입력부(131)는, 사용자 인터페이스 방식으로 제공되는 검색창을 통해 질의어를 입력받고 색인어로 변환한다. 상기 입력되는 색인어는 음소, 음절, 어절, 단어 단위에 의한 한 글자가 입력될 때마다 데이터베이스 검색부(132)를 에이작스 (Asynchronous JavaScript and XML : AJAX) 방식으로 호출한다.
상기 데이터베이스 검색부(132)는, 상기 입력된 검색어에 대해 자동완성 데이터베이스(140)를 검색하여 상기 검색어를 포함하는 검색어들이 존재하는지의 여부를 검색하여 확인한다.
상기 검색은 일례로, “대평”에 대해 “대평중학교”가 검색되는 것처럼 앞 부분이 일치하는 전방일치와 “대평”에 대해 “심대평”이 검색되는 것처럼 뒷부분이 일치하는 후방일치 방식으로 수행한다.
상기 색인어 결정부(133)는, 상기 데이터베이스 검색부(132)를 통해 질의어가 포함되는 것으로 확인 또는 매칭(matching)되어 검색된 검색어들 중, 빈도수 값이 1 이상인 것들을 자동완성 목록으로 제시하도록 결정한다.
상기 빈도수 값이 1 이상이라는 의미는 해당 색인어(질의어)를 포함하는 문서정보가 검색 시스템 내에 존재하는 것을 의미한다.
상기 제시부(134)는, 상기 색인어 결정부(133)를 통해 얻어진 색인어들을 질의어로 변환하고 자동완성 목록으로 제시한다. 일반적인 자동완성 방식에 따라 사용자가 입력한 질의어 입력 통계 정보, 빈도수 정보, 가나다 순서 정보 중에서 선 택된 어느 하나 이상을 이용하여 자동완성 목록 내에서의 배치되고 표시되는 순위 또는 순서를 조절하거나, 해당 질의어가 자동완성 데이터베이스(140) 안에서 가지는 빈도수 정보 값 또는 가나다 순서 정보를 이용하여 자동완성 목록의 순위를 조절한다.
상기 순위(순서)를 조절하거나 결정하는 방식은 새로운 방식이 개발되는 경우 적용될 수 있다.
상기 선택부(135)는 사용자 인터페이스(UI)를 통하여 상기 단말장치(120)에 질의어로 제시된 자동완성 목록 중 특정 질의어를 지정하여 선택하면 상기 선택된 질의어를 색인어로 변환하여 입력한다. 상기 제시된 질의어 목록의 선택은 단말장치(120)에 구비되는 키보드의 상하 버튼이나 마우스 등을 이용하여 특정 질의어를 지정하고 하나의 질의어를 선택한다.
상기 선택된 질의어(색인어) 정보는 해당 이벤트 신호 정보와 함께 상기 서비스 연동부(136)에 전달된다.
상기 서비스 연동부(136)는, 상기 선택된 질의어를 입력하고 검색 버튼이나 엔터 키 등의 키보드 조작에 의한 이벤트 신호에 따라 색인 데이터베이스(150)로부터 API 호출을 통하여 색인 정보를 검색하고 해당 문서정보를 제공하는 서비스를 처리한다.
도 6 은 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 방법 순서도 이다.
상기 도 6 을 참조하여 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 방법을 설명하면, 수정하는 과정; 결정하는 과정; 출력하는 과정; 을 포함하는 구성이다.
상기 수정하는 과정은 문서정보를 수집 등록하고 색인어를 추출하여 색인 데이터베이스에 저장하며 자동완성으로 제공할 색인어를 생성하여 자동완성 데이터베이스에 저장하고 등록된 문서정보를 수정 또는 삭제하는 것으로, 문서수집부에 의하여 문서정보를 수집하는 과정(S100), 상기 수집된 문서정보를 문서등록부에 의하여 도면에 도시되지 않은 별도의 문서정보 데이터베이스에 기록하여 저장하는 과정과, 상기 등록된 문서정보로부터 문서 색인부에 의하여 색인어가 포함되는 부가정보를 추출하고 색인 데이터베이스에 저장하는 과정(S110), 상기 색인 데이터베이스에 저장되는 정보로부터 데이터베이스 생성부에 의하여 자동완성으로 제공할 색인어를 생성하고 자동완성 데이터베이스에 저장하는 과정(S120), 상기 등록한 문서정보를 문서 편집부에 의하여 수정하거나 삭제하는 과정(S130)을 포함하여 이루어진다.
상기 색인어 추출 방식에는 형태소 해석 색인 방식과 N-gram 색인 방식이 있으며, 상기 형태소 해석 색인 방식과 N-gram 색인 방식 중에서 선택된 어느 하나의 방식을 이용한다.
상기 색인어 추출 방식을 이용하지 않는 경우에는 텍스트 프로세싱 방식을 이용할 수 있다.
상기 결정하는 과정은 상기 자동완성 데이터베이스(140)로부터 사용자 인터페이스로 입력되는 색인어를 검색하여 빈도수 값이 1 이상을 검색 색인어로 결정하는 것이고, 상기 입력되는 색인어는 음소, 음절, 어절, 단어 중에서 선택된 어느 하나의 단위로 입력되는 경우마다 에이작스(AJAX) 방식으로 데이터베이스 검색부(132)를 호출한다(S140~S160).
상기 출력하는 과정은 상기 결정된 색인어를 질의어로 변환하여 자동완성 목록으로 제시하고 선택된 색인어의 정보를 검색하여 해당 문서정보를 출력하는 것으로(S170~S190), 상기 질의어의 자동완성 목록은 사용자에 의하여 입력되는 질의어 입력 통계 정보와 자동완성 데이터베이스의 빈도수 정보와 가나다 순서 정보 중에서 선택된 어느 하나 이상에 의하여 순위(순서)를 조절한다.
상기와 같은 구성의 본 발명은 상기 시스템에 대한 상술한 설명에 의하여 모두 수행 된다.
상기의 본 발명에 의한 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 기록 장치이다. 예를 들어, ROM, RAM, Cache, 하드 디스크, 광디스크, 플로피 디스크, 자기 테이프 등이 있다. 또한, 캐리어 웨이브의 형태로 구현되는 것도 포함하며, 예를 들어 인터넷을 통한 전송 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상에서 본 발명은 기재된 구체 예에 대해서만 상세히 설명되었지만 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.
도 1 은 일반적인 데이터베이스 시스템으로부터 정보를 검색하는 시스템의 기능 구성도,
도 2 는 일례에 의한 것으로 데이터를 검색하기 위하여 입력되고 검색되는 질의어를 자동완성 방식으로 표시하는 상태 도시도,
도 3 은 종래 기술의 일례에 의한 것으로 질의어를 입력하고 검색에 실패한 상태
도 4 는 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 시스템의 기능 구성도,
도 5 는 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 시스템의 서버 시스템 상세 기능 구성도,
도 6 은 본 발명의 일례에 의한 것으로 검색 결과가 보장된 질의어 유형별 자동완성 방법 순서도,
도 7 은 본 발명의 일례에 의한 것으로 문서정보의 추가와 삭제에 의한 빈도수 갱신 상태 설명도.
** 도면의 주요 부분에 대한 부호 설명 **
100 : 서버 시스템 200 : 공중통신망
300 : 단말장치 110 : 문서수집부
120 : 문서색인서버 121 : 문서등록부
123 : 문서색인부 124 : 데이터베이스 생성부
122 : 문서편집부 140 : 자동완성 데이터베이스
130 : 자동완성 서버 131 : 질의어 입력부
132 : 데이터베이스 검색부 133 : 색인어 결정부
134 : 제시부 135 : 선택부
136 : 서비스 연동부 150 : 색인 데이터베이스

Claims (31)

  1. 문서정보를 등록받고 상기 등록받은 문서정보로부터 색인어 정보와 빈도수 정보를 추출하여 기록하며 상기 추출된 색인어 정보로부터 자동완성 목록정보를 생성하는 문서색인 서버;
    상기 문서색인 서버에 의하여 생성된 상기 자동완성 목록정보를 상기 빈도수 정보와 연계상태로 기록하는 자동완성 데이터베이스; 및
    상기 자동완성 데이터베이스를 검색하여 상기 색인어 정보가 포함되는 자동완성 목록정보를 추출하고 질의어로 변환하여 사용자 인터페이스로 제공하며 선택 입력된 상기 질의어를 색인어로 변환하고 상기 색인어가 포함되는 문서정보를 검색하여 상기 사용자 인터페이스로 제공하는 자동완성 서버; 를 포함하여 이루어지는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  2. 제 1 항에 있어서,
    수집된 문서정보를 상기 문서색인서버에 등록하는 문서수집부; 및
    상기 문서색인서버로부터 제공되는 상기 색인어 정보를 기록하고 상기 자동완성 서버로 상기 색인어 정보를 제공하는 색인 데이터베이스; 를 더 포함하여 이루어지는 것을 특징으로 하는 검색결과가 보장된 질의어 유형별 자동완성 시스템.
  3. 제 2 항에 있어서, 상기 문서수집부는,
    웹페이지 문서정보, 서식 문서정보, 이미지 문서정보, 동영상 문서정보, 텍스트 문서정보, 멀티미디어 문서정보를 포함하는 콘텐츠 문서정보를 하나 이상 수집하는 구성으로 이루어지는 것을 특징으로 하는 검색결과가 보장된 질의어 유형별 자동완성 시스템.
  4. 제 2 항에 있어서, 상기 문서색인 서버는,
    상기 문서수집부의 수집된 문서정보를 등록하는 문서등록부;
    상기 문서등록부의 문서정보로부터 상기 색인어를 추출하여 상기 색인 데이터베이스에 저장하는 문서 색인부; 및
    상기 색인 데이터베이스에 저장되는 상기 색인어로부터 자동완성 목록으로 제공되는 색인어 정보를 검색하여 상기 자동완성 데이터베이스에 기록하고 빈도수 정보를 갱신하여 관리하는 데이터베이스 생성부; 를 포함하여 이루어지는 구성을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  5. 제 4 항에 있어서, 상기 문서 색인부는,
    상기 문서등록부에 등록된 상기 문서정보로부터 상기 색인어를 추출하는 것 과 텍스트 프로세싱으로 지정된 상기 색인어 정보를 추출하는 것 중에서 선택된 어느 하나 이상으로부터 상기 색인어 정보가 포함되는 부가정보를 추출하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  6. 제 4 항에 있어서, 상기 문서색인부는,
    상기 문서등록부에 등록된 문서정보로부터 형태소 해석 방식, 엔그람(N-gram)의 방식 중에서 선택된 어느 하나의 방식으로 상기 색인어를 추출하여 상기 색인 데이터베이스에 저장하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  7. 제 6 항에 있어서, 상기 문서색인부는,
    상기 추출한 색인어가 포함되는 부가정보를 해당 문서정보와 연계시켜 상기 색인 데이터베이스에 기록하여 저장하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  8. 제 4 항에 있어서, 상기 문서색인 서버는,
    상기 문서등록부에 등록된 상기 문서정보를 수정하고 삭제하는 문서편집부; 를 더 포함하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  9. 제 4 항에 있어서, 상기 문서색인부는,
    상기 문서등록부에 등록된 상기 문서정보로부터 추출된 상기 색인어 중에서 불용어 사전에 포함된 불필요한 상기 색인어를 제거하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  10. 제 4 항에 있어서, 상기 데이터베이스 생성부는,
    상기 문서정보들의 상기 빈도수 정보들을 상기 자동완성 데이터베이스 단위의 자동완성 목록 대상으로 누적 계산하여 기록하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  11. 제 10 항에 있어서, 상기 데이터베이스 생성부는,
    상기 빈도수 정보의 값이 0 이면 누적 계산되는 자동완성 목록 대상으로부터 제외하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유 형별 자동완성 시스템.
  12. 제 1 항에 있어서, 상기 자동완성 서버는,
    검색할 상기 질의어를 사용자 인터페이스로 입력받아 상기 색인어로 변환하는 질의어 입력부;
    상기 질의어 입력부의 상기 색인어를 상기 자동완성 데이터베이스로부터 검색하는 데이터베이스 검색부;
    상기 자동완성 데이터베이스에 저장된 색인어의 빈도수 정보를 확인하고 자동완성 목록 정보로 결정하여 제공하는 색인어 결정부;
    상기 색인어 결정부가 제공하는 상기 자동완성 목록 정보를 상기 질의어로 변환하여 상기 사용자 인터페이스로 제공하는 제시부;
    상기 입력된 질의어와 상기 제시부가 제공한 상기 자동완성 목록의 상기 질의어를 상기 사용자 인터페이스로 제공하고 이벤트 신호와 함께 선택된 상기 질의어 정보를 입력하여 상기 색인어로 변환하는 선택부; 및
    상기 선택부가 입력한 상기 색인어 정보와 검색 이벤트 신호에 의하여 상기 문서정보를 검색하고 제공하는 서비스 연동부; 를 포함하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  13. 제 12 항에 있어서, 상기 질의어 입력부는,
    상기 질의어가 음소, 음절, 어절, 단어 중에서 선택된 어느 하나에 의한 단위 글자로 입력하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  14. 제 13 항에 있어서, 상기 질의어 입력부는,
    상기 질의어가 입력될 때마다 자동완성 데이터베이스를 에이작스(AJAX) 방식으로 호출하여 색인어를 검색하는 구성을 포함하여 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  15. 제 12 항에 있어서, 상기 질의어 입력부는,
    상기 질의어 정보를 상기 사용자 인터페이스(UI)로 입력하는 구성을 포함하여 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  16. 제 12 항에 있어서, 상기 데이터베이스 검색부는,
    상기 색인어를 전방일치와 후방일치 방식으로 각각 검색하여 상기 자동완성 목록으로 작성하는 구성을 포함하여 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  17. 제 12 항에 있어서, 상기 색인어 결정부는,
    상기 색인어의 상기 빈도수 정보가 1 이상인 것을 상기 자동완성 목록에 포함시켜 제공하도록 결정하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  18. 제 12 항에 있어서, 상기 제시부는,
    상기 자동완성 목록을 상기 질의어의 입력 통계 정보와 상기 질의어의 빈도수 정보와 상기 질의어의 가나다 순서 정보 중에서 선택된 어느 하나 이상을 이용하여 상기 자동완성 목록에서의 순위를 조절하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  19. 제 12 항에 있어서, 상기 서비스 연동부는,
    상기 색인어 정보를 에피아이(API) 호출에 의하여 상기 문서정보를 검색하는 구성으로 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동 완성 시스템.
  20. (a)문서정보를 수집 등록하고 상기 등록된 문서정보로부터 색인어 정보와 빈도수 정보를 추출하여 색인 데이터베이스에 저장하며 상기 색인어 정보의 자동완성 목록 정보를 생성하여 자동완성 데이터베이스에 저장하고 등록된 문서정보를 수정하는 단계;
    (b)상기 자동완성 데이터베이스로부터 사용자 인터페이스를 통하여 입력되는 질의어를 상기 색인어로 변환하고 상기 빈도수 1 이상으로 검색되는 상기 색인어를 상기 자동완성 목록 정보에 포함시키는 단계; 및
    (c)상기 자동완성 목록의 상기 색인어를 상기 질의어로 변환하고 상기 사용자 인터페이스로 제시하며 외부로부터 상기 사용자 인터페이스로 선택 입력된 상기 질의어를 상기 색인어로 변환하며 상기 변환된 색인어로 검색된 상기 문서정보를 출력하는 단계;
    를 포함하여 이루어지는 검색 결과가 보장된 질의어 유형별 자동완성 방법.
  21. 제 20 항에 있어서, 상기 (a)단계는,
    상기 문서정보를 문서수집부에 의하여 수집하는 단계;
    상기 수집된 문서정보를 문서등록부에 의하여 등록하는 단계;
    상기 등록된 문서정보로부터 문서 색인부에 의하여 상기 색인어를 추출하고 상기 색인 데이터베이스에 저장하는 단계;
    상기 색인 데이터베이스에 저장되는 상기 색인어 정보로부터 데이터베이스 생성부에 의하여 상기 자동완성 목록으로 제공할 상기 색인어를 추출하고 상기 자동완성 데이터베이스에 저장하는 단계; 및
    상기 등록된 문서정보를 문서 편집부에 의하여 수정하거나 삭제하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법.
  22. 제 21 항에 있어서, 상기 색인어 추출은,
    형태소 해석 방식, 엔그람(N-gram) 색인 방식 중에서 선택된 어느 하나의 방식으로 상기 색인어를 추출하는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법.
  23. 제 21 항에 있어서,
    상기 (a)단계는
    상기 색인 데이터베이스에 저장되는 상기 색인어에는 부가정보가 포함되고 불용어 사전을 이용하여 불필요한 상기 색인어를 제거하고 상기 자동완성 데이터베 이스에는 각 문서정보의 갱신된 빈도수 정보를 저장하는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법.
  24. 제 20 항에 있어서, 상기 (b)단계에서 입력되는 질의어는,
    음소, 음절, 어절, 단어 중에서 선택된 어느 하나의 단위로 입력하는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법.
  25. 제 24 항에 있어서, 상기 입력되는 질의어는,
    색인어로 변환되고 에이작스 방식으로 상기 자동완성 데이터베이스부로부터 호출하여 검색하는 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법.
  26. 문서정보를 수집 등록하고 상기 등록된 문서정보로부터 색인어 정보와 빈도수 정보를 추출하여 색인 데이터베이스에 저장하며 상기 색인어 정보의 자동완성 목록 정보를 생성하여 자동완성 데이터베이스에 저장하고 등록된 문서정보를 수정하는 문서정보 수집 및 등록 프로세스;
    상기 자동완성 데이터베이스로부터 사용자 인터페이스를 통하여 입력되는 질의어를 상기 색인어로 변환하고 상기 빈도수 1 이상으로 검색되는 상기 색인어를 상기 자동완성 목록 정보에 포함시키는 색인어 추출 및 저장 프로세스; 및
    상기 자동완성 목록의 상기 색인어를 상기 질의어로 변환하고 상기 사용자 인터페이스로 제시하며 외부로부터 상기 사용자 인터페이스로 선택 입력된 상기 질의어를 상기 색인어로 변환하며 상기 변환된 색인어로 검색된 상기 문서정보를 출력하는 검색 프로세스; 를
    포함하여 이루어지는 검색 결과가 보장된 질의어 유형별 자동완성 방법의 프로그램 소스를 기록한 기록매체.
  27. 제 26 항에 있어서, 상기 색인어 추출 및 저장 프로세스는, 상기 질의어의 입력 통계 정보와 상기 자동완성 데이터베이스에서의 질의어 빈도수 정보와 상기 질의어의 가나다 순서 정보 중에서 선택된 어느 하나 이상으로 순위를 조절하는 프로세스인 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법의 프로그램 소스를 기록한 기록매체.
  28. 제 26 항에 있어서, 상기 검색 프로세스는, 음소, 음절, 어절, 단어 중에서 선택된 어느 하나의 단위로 입력되는 경우마다 에이작스 방식으로 상기 자동완성 데이터베이스를 호출하여 검색하는 프로세스인 것을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 방법의 프로그램 소스를 기록한 기록매체.
  29. 문서정보를 등록받고 상기 등록받은 문서정보로부터 색인어와 빈도수 정보를 추출하여 자동완성 데이터베이스를 구축하며 외부로부터 사용자 인터페이스로 입력되는 질의어를 상기 색인어로 변환하고 상기 자동완성 데이터베이스로부터 상기 색인어가 포함되는 색인어의 자동완성 목록을 상기 사용자 인터페이스를 통하여 제공하며 상기 사용자 인터페이스를 통하여 선택 입력되는 질의어를 상기 색인어로 변환하고 상기 변환된 색인어가 포함되는 상기 문서정보를 상기 사용자 인터페이스로 제공하는 서버시스템;
    상기 서버시스템과 접속하고 유선통신경로와 무선통신경로 중에서 선택된 통신경로로 상기 질의어와 검색된 상기 문서정보의 데이터를 송수신하는 공중통신망; 및
    상기 공중통신망에 접속하고 검색할 상기 질의어를 상기 사용자 인터페이스로 입력하여 상기 서버 시스템에 전달하며 상기 서버 시스템이 제공하는 상기 질의어의 자동완성 목록을 상기 사용자 인터페이스로 표시하고 선택된 하나의 상기 질의어를 이벤트 신호와 함께 입력하여 상기 서버 시스템에 제공하며 상기 서버 시스템이 검색하여 제공하는 상기 문서정보를 표시하는 컴퓨터로 이루어지는 단말장치; 를 포함하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  30. 제 29 항에 있어서, 상기 서버시스템은,
    상기 문서정보를 등록받고 상기 색인어와 상기 빈도수 정보를 추출하며 상기 자동완성 데이터베이스를 구축하는 문서색인 서버;
    상기 질의어를 외부로부터 상기 사용자 인터페이스로 입력하고 상기 색인어로 변환하며 상기 색인어가 포함되는 색인어 목록 정보를 추출하고 상기 질의어로 변환하여 상기 사용자 인터페이스로 제공하며 상기 선택 입력된 질의어를 상기 색인어로 변환하여 검색된 상기 문서정보를 제공하는 자동완성 서버;
    상기 문서색인 서버에 의하여 생성된 상기 자동완성 목록정보를 상기 빈도수 정보와 연계상태로 기록하는 상기 자동완성 데이터베이스;
    상기 문서색인서버에 접속하여 수집된 상기 문서정보를 등록하는 문서수집부; 및
    상기 문서색인 서버로부터 제공되는 상기 색인어 정보를 기록하고 상기 자동완성 서버의 검색에 의하여 제공하는 색인 데이터베이스; 를 포함하여 이루어지는 구성을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
  31. 제 29 항에 있어서, 상기 공중통신망은,
    상기 서버시스템과 상기 단말장치를 상기 무선통신경로로 접속하고 상기 데이터 신호를 전송하는 무선통신망; 및
    상기 서버시스템과 상기 단말장치를 상기 유선통신경로로 접속하고 상기 데이터 신호를 전송하는 유선통신망; 을 포함하여 이루어지는 구성을 특징으로 하는 검색 결과가 보장된 질의어 유형별 자동완성 시스템.
KR1020080105464A 2008-10-01 2008-10-27 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체 KR101051422B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2008/006551 WO2010038923A1 (en) 2008-10-01 2008-11-07 System and method of auto-complete with query type under guarantee of search results and storage media having program source thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080096831 2008-10-01
KR20080096831 2008-10-01

Publications (2)

Publication Number Publication Date
KR20100037512A KR20100037512A (ko) 2010-04-09
KR101051422B1 true KR101051422B1 (ko) 2011-07-25

Family

ID=42214700

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080105464A KR101051422B1 (ko) 2008-10-01 2008-10-27 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR101051422B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112013029069A2 (pt) 2011-05-18 2017-02-07 Koninklijke Philips Nv sistema para realizar uma pesquisa de um documento em uma coleção de documentos, estação de trabalho, método de realização de uma pesquisa de um documento e produto de programa de computador

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100659370B1 (ko) 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR20070039771A (ko) * 2005-10-10 2007-04-13 엔에이치엔(주) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
KR20070098252A (ko) * 2006-03-31 2007-10-05 엔에이치엔(주) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
KR20070101974A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 휴대 단말기 및 상기 휴대 단말기의 문자 메시지 처리 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070039771A (ko) * 2005-10-10 2007-04-13 엔에이치엔(주) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
KR100659370B1 (ko) 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR20070098252A (ko) * 2006-03-31 2007-10-05 엔에이치엔(주) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
KR20070101974A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 휴대 단말기 및 상기 휴대 단말기의 문자 메시지 처리 방법

Also Published As

Publication number Publication date
KR20100037512A (ko) 2010-04-09

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
AU2019201531B2 (en) An in-app conversational question answering assistant for product help
US10423649B2 (en) Natural question generation from query data using natural language processing system
KR100815215B1 (ko) 웹사이트 통합 검색 장치 및 방법
JP3703080B2 (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US7370061B2 (en) Method for querying XML documents using a weighted navigational index
US20140032529A1 (en) Information resource identification system
US20100145902A1 (en) Methods and systems to train models to extract and integrate information from data sources
JP3266586B2 (ja) データ分析システム
US8868556B2 (en) Method and device for tagging a document
US8589778B2 (en) System and method for processing multi-modal communication within a workgroup
US20070260450A1 (en) Indexing parsed natural language texts for advanced search
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
US20100094826A1 (en) System for resolving entities in text into real world objects using context
JP2008529179A (ja) 自然言語によってモバイル情報にアクセスするための方法及び装置
CN110377884A (zh) 文档解析方法、装置、计算机设备及存储介质
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN111126073B (zh) 语义检索方法和装置
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
KR101051422B1 (ko) 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체
US20180293508A1 (en) Training question dataset generation from query data
JP2997469B2 (ja) 自然言語理解方法および情報検索装置
WO2010038923A1 (en) System and method of auto-complete with query type under guarantee of search results and storage media having program source thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130924

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160630

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170703

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180823

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 9