WO2012046904A1 - 다중 자원 기반 검색정보 제공 장치 및 방법 - Google Patents

다중 자원 기반 검색정보 제공 장치 및 방법 Download PDF

Info

Publication number
WO2012046904A1
WO2012046904A1 PCT/KR2010/007239 KR2010007239W WO2012046904A1 WO 2012046904 A1 WO2012046904 A1 WO 2012046904A1 KR 2010007239 W KR2010007239 W KR 2010007239W WO 2012046904 A1 WO2012046904 A1 WO 2012046904A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
resource
information
entity
entities
Prior art date
Application number
PCT/KR2010/007239
Other languages
English (en)
French (fr)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2012046904A1 publication Critical patent/WO2012046904A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Definitions

  • the present invention relates to an apparatus and method for providing multi-resource-based search information, and more particularly, to an apparatus and method for providing multi-resource based search information by recognizing an entity of an input document using an entity name dictionary for each resource, Mapping the relationship between the recognized entity and the entity to multiple integrated ontologies in different multiple resources and performing inference on the integrated ontology to expand the integrated knowledge base, Searching the integrated knowledge base to obtain search information corresponding to the search word for each resource, assigning a weight according to a ratio of each resource to the obtained search information, and calculating search result information obtained by sorting the calculated result Based search information providing apparatus and method.
  • a search information providing device is a device that collects / classifies / accumulates information and extracts it as needed.
  • the search information providing device is a device that collects, processes and processes information and data predicted to be necessary by the information demander, and quickly finds information suitable for the request from the database which is stored in a form that is easy to find and provides to the information requester .
  • the search result output from the search information providing device may be informed by telephone or transmitted by facsimile, and the search result may be transmitted to a home or office of the requester having the computer via the Internet.
  • a reference search is a search for bibliographic references in the literature that are dealing with the subject that the requester wants to know.
  • a search can retrieve general, numeric, and factual data.
  • the specialized search is to retrieve not only the bibliographic data but also the entire sentence or the original text from the database which has accumulated the full text of the document, if necessary.
  • the conventional search information providing apparatus has been limited in that it can not present the individual resources such as papers, research reports, and patents independently and merely presenting the respective information related to science and technology.
  • the present invention has been made to solve the above problems of the related art, and an object of the present invention is to provide search information fused with multiple resources to a search word input by a user, Based search information providing apparatus and method capable of providing a search result obtained by calculating a weight according to a ratio of resources.
  • a database management method comprising: storing a database storing entity name dictionary and context pattern information; recognizing an entity of an input document using the entity name dictionary for each resource; And a knowledge base for expanding the integrated knowledge base by performing inference on the integrated ontology and storing the relation between the recognized entity and the entity in a different integrated resource
  • a search module for searching the integrated knowledge base for search information corresponding to the search word when the search word is input by a user, a module, and a user, and assigning a weight according to a ratio of each resource to the obtained search information, And provides search result information obtained by sorting the calculated results, Based search information providing apparatus is provided.
  • the database includes at least one category, a name of an entity belonging to each category, an entity name to which an identifier of each entity name is mapped, an entity name database storing a dictionary, a context pattern information database storing pattern information about contexts between entities, And a normalization dictionary database.
  • the object recognition and relationship generation module recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and when the recognized term is registered in the entity name dictionary, Extracting a context between the recognized entities based on the context pattern information and normalizing the extracted context based on the normalization dictionary database when the entity recognizing unit recognizes two or more entities, And a relationship generation unit for generating a relationship between the two.
  • the entity recognizer assigns a category and an identifier to each recognized entity.
  • the relation generation unit expresses a relationship between the extracted entity and the generated entity in terms of a subject, a relation name (Predicate), and an object (Object).
  • the knowledge base building module stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources as an integrated ontology expressing connection relations between multiple resources.
  • the search result providing module classifies the search information acquired for each resource by research subjects, calculates a weight by a ratio of each resource input by the user to the number of search for each resource per research subject, The results are ranked by the highest research subjects.
  • the search result providing module arranges and provides the calculated results in a predetermined order or in a sequence requested by the user.
  • a method for providing search information based on multiple resources comprising the steps of: (a) recognizing an entity of an input document by using an entity name dictionary for each resource; (B) mapping the recognized entity to the integrated ontology in different multi-resources and storing the same, and performing inference on the integrated ontology, (C) if the search word is input by the user, searching the integrated knowledge base to obtain search information corresponding to the search word for each resource; (d) And providing search result information in which the calculated results are sorted.
  • the multi-resource-based search This method is provided for information.
  • the step (a) recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizing the term as an entity when the recognized term is registered in the entity name dictionary, Extracting a context between the recognized entities based on the context pattern information when the entities are two or more, and generating a relationship between the entities by normalizing the extracted context based on the previously stored normalization dictionary .
  • step (c) includes the steps of providing a search word input screen when a search is requested by the user, receiving a search word and a ratio of a resource and a resource for the search word through the search word input screen, And acquiring search information corresponding to the input search word for each resource.
  • the step (d) includes the steps of classifying search information obtained for each resource by a research subject, applying a weight according to a ratio of each resource to the number of searches for each resource for each research subject, And ranking them in the order of higher research subjects.
  • the search result information is provided in a predefined or ordered order requested by the user.
  • a recording medium in which a program for performing a method for providing multiple resource-based search information is recorded and readable in an electronic device.
  • search information obtained by fusing multiple resources with respect to a search word input by a user and providing a search result that calculates a weight according to the ratio of resources when the ratio of each resource is input can be provided. Therefore, it is possible to provide information services from various perspectives.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating a method of providing search information based on multiple resources according to an embodiment of the present invention.
  • FIG. 3 is an exemplary view of a search word input screen according to the present invention.
  • FIG. 4 is an exemplary view showing a search result information providing screen according to the present invention.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention.
  • a multi-resource-based search information providing apparatus 100 includes a database 110, an object recognition and relationship generating module 120, a knowledge base building module 130, A search module 150, and a search result providing module 160.
  • the database 110 includes an object name dictionary database 112 in which one or more categories, object names belonging to each category, object names to which the identifiers of individual object names are mapped, database 112, context pattern information A database 114, and a normalization dictionary database 116 for normalizing the context.
  • the entity recognition and relation generation module 120 recognizes an entity of an input document by using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information.
  • the entity recognition and relationship generation module 120 includes an entity recognition unit 122 and a relationship generation unit 124.
  • the entity recognizer 122 recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary. At this time, the entity recognition unit 122 assigns a category and an identifier to each recognized entity.
  • the relation generating unit 124 extracts a context between the recognized entities based on the context pattern information, And the extracted context is normalized to generate the relationship between the entities.
  • the entity recognizer 122 recognizes a notebook, a monitor, an SSD, and a mobile processor entity in the sentence.
  • the relationship generation unit 124 extracts only the context corresponding to the previously stored context pattern information, for example, " Bebe verb + past participle + preposition ".
  • the relation generation unit 124 unifies the tense of the corresponding context, for example, "was” to "be” and uses similar expressions such as "similar to” and “similar with” and “similar to” to create a relationship between entities by performing context normalization.
  • the relationship generation unit 124 expresses the relationship between the extracted entity and the generated entity in terms of a subject, a relationship name (Predicate), and an object (Object).
  • the method for the object recognition and relation generation module 120 to generate the object recognition and the relation is performed for each resource, and the resource refers to a patent, a thesis, a report, an academic document, a standard, a statistic, an electronic document and the like.
  • the knowledge base building module 130 maps and stores the relationships between entities and entities recognized from different multiple resources into an integrated ontology and extends the integrated knowledge base by performing inference on the integrated ontology.
  • the knowledge base building module 130 stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources in the integrated ontology represented by the connection relation among multiple resources.
  • the integrated knowledge base generated by the knowledge base building module 130 is stored in the knowledge base DB 140.
  • the search module 150 searches the integrated knowledge base and acquires search information corresponding to the search word for each resource.
  • the search module 150 searches the integrated knowledge base to search information about a smart card, such as a patent, a paper, a report, Statistics, and electronic documents.
  • the search result providing module 160 provides search information obtained by sorting the calculated results by assigning weights according to ratios of the resources to the search information obtained by the search module 150.
  • the search result providing module 160 classifies search information obtained for each resource by research subjects, applies a weight according to the ratio of each resource input by the user to the number of search for each resource per research subject, , And the calculated results are ranked and provided in order of higher research subjects.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • a user inputs a "smart card” as a search word and inputs a ratio of each resource to 50% of a thesis, 30% of a patent, and 20% of a report.
  • the search information obtained for each resource was classified into 2 subjects, 3 patents, 5 reports, 5 patents, 5 patents, 1 report, and 3 patents. Ten patents, and one report, the search result providing module calculates the number of searches by multiplying the corresponding resource ratio.
  • the search result providing module 160 provides search results in the order of the C company 4.5, the B company 4.2, and the A company 2.9 by ranking the calculation results for each research subject.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • the search information providing apparatus 100 configured as described above extracts the implicit information through text mining in multiple resources such as a paper, a patent, and a report, merges with the explicit information such as metadata, This is put on the service platform based on Semantic Web technology, enabling information service from various viewpoints.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention.
  • a multi-resource-based search information providing apparatus 100 includes a database 110, an object recognition and relationship generating module 120, a knowledge base building module 130, A search module 150, and a search result providing module 160.
  • the database 110 includes an object name dictionary database 112 in which one or more categories, object names belonging to each category, object names to which the identifiers of individual object names are mapped, database 112, context pattern information A database 114, and a normalization dictionary database 116 for normalizing the context.
  • the entity recognition and relation generation module 120 recognizes an entity of an input document by using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information.
  • the entity recognition and relationship generation module 120 includes an entity recognition unit 122 and a relationship generation unit 124.
  • the entity recognizer 122 recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary. At this time, the entity recognition unit 122 assigns a category and an identifier to each recognized entity.
  • the relation generating unit 124 extracts a context between the recognized entities based on the context pattern information, And the extracted context is normalized to generate the relationship between the entities.
  • the entity recognizer 122 recognizes a notebook, a monitor, an SSD, and a mobile processor entity in the sentence.
  • the relationship generation unit 124 extracts only the context corresponding to the previously stored context pattern information, for example, " Bebe verb + past participle + preposition ".
  • the relation generation unit 124 unifies the tense of the corresponding context, for example, "was” to "be” and uses similar expressions such as "similar to” and “similar with” and “similar to” to create a relationship between entities by performing context normalization.
  • the relationship generation unit 124 expresses the relationship between the extracted entity and the generated entity in terms of a subject, a relationship name (Predicate), and an object (Object).
  • the method for the object recognition and relation generation module 120 to generate the object recognition and the relation is performed for each resource, and the resource refers to a patent, a thesis, a report, an academic document, a standard, a statistic, an electronic document and the like.
  • the knowledge base building module 130 maps and stores the relationships between entities and entities recognized from different multiple resources into an integrated ontology and extends the integrated knowledge base by performing inference on the integrated ontology.
  • the knowledge base building module 130 stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources in the integrated ontology represented by the connection relation among multiple resources.
  • the integrated knowledge base generated by the knowledge base building module 130 is stored in the knowledge base DB 140.
  • the search module 150 searches the integrated knowledge base and acquires search information corresponding to the search word for each resource.
  • the search module 150 searches the integrated knowledge base to search information about a smart card, such as a patent, a paper, a report, Statistics, and electronic documents.
  • the search result providing module 160 provides search information obtained by sorting the calculated results by assigning weights according to ratios of the resources to the search information obtained by the search module 150.
  • the search result providing module 160 classifies search information obtained for each resource by research subjects, applies a weight according to the ratio of each resource input by the user to the number of search for each resource per research subject, , And the calculated results are ranked and provided in order of higher research subjects.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • a user inputs a "smart card” as a search word and inputs a ratio of each resource to 50% of a thesis, 30% of a patent, and 20% of a report.
  • the search information obtained for each resource was classified into 2 subjects, 3 patents, 5 reports, 5 patents, 5 patents, 1 report, and 3 patents. Ten patents, and one report, the search result providing module calculates the number of searches by multiplying the corresponding resource ratio.
  • the search result providing module 160 provides search results in the order of the C company 4.5, the B company 4.2, and the A company 2.9 by ranking the calculation results for each research subject.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • the search information providing apparatus 100 configured as described above extracts the implicit information through text mining in multiple resources such as a paper, a patent, and a report, merges with the explicit information such as metadata, This is put on the service platform based on Semantic Web technology, enabling information service from various viewpoints.
  • FIG. 2 is a flowchart illustrating a method for providing search information based on multiple resources by a search information providing apparatus according to an embodiment of the present invention.
  • FIG. 3 is an exemplary view of a search word input screen according to the present invention.
  • FIG. 5 is a diagram illustrating an example of a search result information providing screen according to the embodiment of FIG.
  • the search information providing apparatus recognizes an entity of an input document using an entity name dictionary for each resource (S200), and creates a relationship between the recognized entities using the context pattern information (S202).
  • the search information providing apparatus recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary.
  • the retrieval information providing device then extracts the context between the recognized entities based on the context pattern information and normalizes the extracted context based on the previously stored normalization dictionary when the recognized entity is two or more To create relationships between entities.
  • the search information providing device maps and stores the relationship between the entity and the entity recognized in the different multi-resources into the integrated ontology (S206), and performs inference on the integrated ontology to expand the integrated knowledge base (S208). That is, the search information providing apparatus extracts internal information through text mining in multiple resources such as a paper, a patent, and a report, merges with external information such as metadata, and puts it on a service platform based on a semantic web technology, To provide information services in the Internet.
  • step S208 After the execution of step S208, if the search word is input by the user (S210), the search information providing apparatus searches the integrated knowledge base and acquires search information corresponding to the search word for each resource (S212).
  • the search information providing apparatus provides a search word input screen as shown in FIG.
  • the search word input screen 300 includes a search word input area 310 for inputting a search word, a resource selection area 320 for selecting a resource and a ratio for the resource, do.
  • the user inputs a search word desired to be searched in the search word input area 310 and selects at least one of a patent, a thesis, a report, an academic document, a standard, statistics, and an electronic document in the resource selection area 320 . At this time, the user can input a ratio of the selected resources together.
  • the resource selection area 320 is configured as a slide bar type in which two resources can be selected. However, it is natural that the resource selection area 320 can be formed in various forms that can select a plurality of resources such as three or four.
  • search term input screen 300 may further include a year range designation area for designating a year range.
  • the search information providing apparatus searches the integrated knowledge base for search information corresponding to the input search word Acquired by each resource.
  • the search information providing apparatus After the execution of step S212, the search information providing apparatus provides a weight according to the ratio of each resource to the acquired search information (S214), and provides search result information obtained by sorting the calculated result (S216) .
  • the search information providing apparatus classifies the search information obtained for each resource by research subjects, and calculates the search information by applying a weight according to the ratio of each resource to the search number of each resource by the research subject. Then, the search information providing apparatus ranks and provides the computed results in the order of higher research subjects. At this time, the search information providing device arranges and provides the calculated results in a predetermined order or order requested by the user.
  • the search result information providing screen provided by the search information providing apparatus is as shown in FIG. 4, the search result information providing screen 400 includes a search word providing region 410, a resource providing region 420, and a search result providing region 430 do.
  • the search word providing region 410 displays a search word input by a user
  • the resource providing region 420 displays a resource selected by the user and a ratio of the resource.
  • the search result providing region 430 is a region in which a result obtained by applying a weight according to the resource ratio to the number of searches of each resource by the research subject is provided. In this case, to be.
  • the search results are provided in the order of the A company 10, the B company 8, and the C company 7 in the order of higher research subjects.
  • the user may change the resource or resource ratio using the slide bar of the resource providing area 420. Then, the search result providing area 430 is provided with a search result reflecting the changed resource or resource ratio.
  • the apparatus and method for providing multi-resource-based search information according to the present invention provide search information that fuses multiple resources to a search word input by a user, and when the ratio of each resource is input, It is suitable for providing the calculated search result and having a high necessity of providing information service from various viewpoints according to the demand of the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다중 자원 기반 검색정보 제공 장치 및 방법에 관한 것으로서, 개체명 사전 및 문맥 패턴 정보가 저장된 데이터베이스, 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 개체 인식 및 관계 생성 모듈, 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 지식베이스 구축 모듈, 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 검색 모듈, 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 검색 결과 제공 모듈을 포함한다. 따라서, 본 발명에 따르면, 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과의 제공이 가능하므로, 사용자의 요구에 따라 다양한 관점에서의 정보 서비스가 가능하다.

Description

다중 자원 기반 검색정보 제공 장치 및 방법
본 발명은 다중 자원 기반 검색정보 제공 장치 및 방법에 관한 것으로, 더욱 상세하게는 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하며, 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한 후, 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하고, 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여 및 연산하여 그 연산된 결과를 정렬한 검색결과정보를 제공하는 다중 자원 기반 검색정보 제공 장치 및 방법에 관한 것이다.
일반적으로 검색 정보 제공 장치는 정보를 수집/분류/축적하여 필요에 따라 추출할 수 있도록 하는 장치이다.
정보화 사회에 있어서 인간의 지적 활동에 필요 불가결한 행위의 하나는 첨단과학기술에 의존한 정보의 수집과 축적 및 검색과 이용이라고 할 수 있다. 개인적으로는 필요한 정보나 데이터를 보다 신속, 정확하게 입수하여 연구개발이나 의사결정에 활용할 수 있는 방법을 모색하고, 사회적으로는 사회 각 부문에서의 다양한 정보요구를 충족시킬 수 있는 방법이 필요하다. 그러므로, 정보검색으로 충족시킬 수 있는 검색 정보 제공 장치를 어떻게 구축, 유지, 운영하느냐가 중요하다.
그래서 검색 정보 제공 장치는 정보 수요자가 필요하다고 예측되는 정보나 데이터를 미리 수집, 가공, 처리하여 찾기 쉬운 형태로 축적해 놓은 데이터베이스로부터 요구에 적합한 정보를 신속하게 찾아내어 정보 요구자에게 제공하는 장치를 말한다. 이러한 형태에는 검색 정보 제공 장치에서 출력된 검색결과를 전화로 알려주거나 팩스로 전송하는 경우가 있고, 인터넷을 통해 컴퓨터를 보유하고 있는 요구자의 가정이나 사무실에 온라인으로 검색결과를 전송해 줄 수 있다.
그리고 데이터베이스에 축적되어 있는 정보의 종류에 따라 참조검색/사실검색/전문(full-text)검색으로 구분된다. 참조검색은 요구자가 알고자 하는 주제를 핵심적으로 다루고 있는 문헌의 서지사항을 검색하는 것이다. 사실검색은 일반데이터나 수치데이터 및 사실데이터를 검색할 수 있는 것이다. 전문검색은 문헌의 전문을 축적해 놓은 데이터베이스로부터 서지적 데이터뿐만 아니라 해당문장이나 원문 전부를 필요에 따라 검색해서 볼 수 있는 것이다.
그러나 종래의 검색 정보 제공 장치는 논문, 연구보고서, 특허 등의 서로 다른 자원을 독립적으로 그 자체만 제시할 뿐 과학기술과 관련된 이들 각각의 정보들을 융합하여 제시하지는 못하는 한계가 있었다.
따라서 정보의 홍수 속에서 서로 다른 다중 자원을 융합한 검색 정보를 사용자의 요구에 따라 기술분야별로 분류하여 제공함으로써 해당 기술분야에 대한 연구개발과 연구동향 파악에 필요한 기술분야별 융합 정보를 서비스하여 시기적절하게 과학기술을 활용할 수 있도록 할 필요성이 대두되었다.
본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과를 제공할 수 있는 다중 자원 기반 검색정보 제공 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 서로 다른 다중 자원을 융합하여 사용자의 요구에 따라 다양한 관점에서의 정보 서비스를 가능하게 하는 다중 자원 기반 검색정보 제공 장치 및 방법을 제공하는데 있다.
본 발명의 한 측면에 따르면, 개체명 사전 및 문맥 패턴 정보가 저장된 데이터베이스, 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 개체 인식 및 관계 생성 모듈, 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 지식베이스 구축 모듈, 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 검색 모듈, 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 검색 결과 제공 모듈을 포함하는 다중 자원 기반 검색정보 제공 장치가 제공된다.
상기 데이터베이스는 하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스, 개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스, 문맥을 정규화하기 위한 정규화 사전 데이터베이스를 포함한다.
상기 개체 인식 및 관계 생성 모듈은 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 개체 인식부, 상기 개체 인식부에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 관계 생성부를 포함한다.
상기 개체 인식부는 상기 인식된 각 개체에 범주 및 식별자를 부여한다.
상기 관계 생성부는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현한다.
상기 지식베이스 구축 모듈은 상기 서로 다른 다중 자원에서 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계를 표현한 통합 온톨로지로 저장한다.
상기 검색 결과 제공 모듈은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다.
또한, 상기 검색 결과 제공 모듈은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공한다.
본 발명의 다른 측면에 따르면, 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법에 있어서, (a) 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 단계, (b) 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 단계, (c) 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 단계, (d) 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 단계를 포함하는다중 자원 기반 검색정보 제공 방법이 제공된다.
상기 (a) 단계는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 단계, 상기 인식된 개체가 2개 이상인 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하는 단계, 기 저장된 정규화 사전을 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 단계를 포함한다.
상기 (c) 단계는 상기 사용자에 의해 검색이 요청된 경우, 검색어 입력 화면을 제공하는 단계, 상기 검색어 입력 화면을 통해 검색어 및 그 검색어에 대한 자원과 자원별 비율을 입력받는 단계, 상기 통합 지식베이스를 검색하여 상기 입력된 검색어에 해당하는 검색정보를 자원별로 획득하는 단계를 포함한다.
상기 (d) 단계는 상기 자원별로 획득된 검색정보를 연구주체별로 분류하는 단계, 상기 연구주체별 각 자원의 검색 건수에 각 자원의 비율에 따른 가중치를 적용하여 연산하는 단계, 상기 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공하는 단계를 포함한다.
상기 검색결과정보는 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공한다.
본 발명의 또 다른 측면에 따르면, 다중 자원 기반 검색정보 제공 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록 매체가 제공된다.
본 발명에 따르면, 서로 다른 다중 자원을 융합하여 사용자의 요구에 따라 다양한 관점에서의 정보 서비스가 가능하고, 의사 결정을 지원하기 위한 여러 서비스들을 제공함으로써 단편적 지식에 의한 의사 결정 오류를 방지하고 정확한 결정이 가능한 효과가 있다.
또한, 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과의 제공이 가능하므로, 사용자의 요구에 따라 다양한 관점에서의 정보 서비스가 가능하다.
도 1은 본 발명의 실시예에 따른 다중 자원 기반 검색정보 제공 장치의 구성을 개략적으로 나타낸 블럭도.
도 2는 본 발명의 실시예에 따른 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법을 나타낸 흐름도.
도 3은 본 발명에 따른 검색어 입력 화면의 예시도.
도 4는 본 발명에 따른 검색 결과 정보 제공 화면을 나타낸 예시도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명의 실시예에 따른 다중 자원 기반 검색정보 제공 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 1을 참조하면, 다중 자원 기반 검색정보 제공 장치(이하, 검색 정보 제공 장치로 칭함)(100)는 데이터베이스(110), 개체 인식 및 관계 생성 모듈(120), 지식베이스 구축 모듈(130), 검색 모듈(150), 검색결과 제공 모듈(160)을 포함한다.
상기 데이터베이스(110)는 하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스(112), 개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스(114), 문맥을 정규화하기 위한 정규화 사전 데이터베이스(116)를 포함한다.
상기 개체 인식 및 관계 생성 모듈(120)은 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성한다.
상기와 같은 개체 인식 및 관계 생성 모듈(120)은 개체 인식부(122)와 관계 생성부(124)로 구성된다.
상기 개체 인식부(122)는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식한다. 이때, 상기 개체 인식부(122)는 상기 인식된 각 개체에 범주 및 식별자를 부여한다.
상기 관계 생성부(124)는 상기 개체 인식부(122)에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스(116)를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.
예를 들어, "notebook consists of monitor, SSD, and mobile processor" 문장의 경우, 상기 개체 인식부(122)는 상기 문장에서 notebook, monitor, SSD, mobile processor의 개체를 인식하게 된다.
이때, 2개 이상의 개체가 인식되었으므로, 상기 관계 생성부(124)는 기 저장된 문맥 패턴 정보 예를 들면, "Be동사 + 과거분사형 + 전치사"에 부합하는 문맥만을 추출한다.
그런 다음 상기 관계 생성부(124)는 상기 정규화 사전을 근거로 해당 문맥의 시제 예를 들면 "was"를 "be"로 통일하고, 유사표현 예를 들면, “similar to"와 "similar with"를 "similar to"로 통일하는 등의 문맥 정규화를 수행하여 개체간의 관계를 생성한다.
상기 관계 생성부(124)는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현한다.
상기 개체 인식 및 관계 생성 모듈(120)이 개체 인식 및 관계를 생성하는 방법은 자원별로 이루어지고, 여기서 자원은 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등을 말한다.
상기 지식베이스 구축 모듈(130)은 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한다.
이때, 상기 지식베이스 구축 모듈(130)은 상기 서로 다른 다중 자원에서 각각 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계로 표현한 통합 온톨로지로 저장한다.
상기 지식 베이스 구축 모듈(130)에 의해 생성된 통합 지식베이스는 지식 베이스 DB(140)에 저장된다.
상기 검색 모듈(150)은 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득한다.
예들 들면, 상기 사용자에 의해 "스마트카드"라는 검색어가 입력된 경우, 상기 검색 모듈(150)은 상기 통합 지식베이스를 검색하여 스마트카드에 대한 검색정보를 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등의 자원별로 획득한다.
상기 검색결과 제공 모듈(160)은 상기 검색 모듈(150)에서 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공한다.
즉, 상기 검색 결과 제공 모듈(160)은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수 있다.
예를 들어, 사용자가 "스마트 카드"를 검색어로 입력하고, 논문 50%, 특허 30%, 보고서 20%로 각 자원의 비율을 입력한 경우에 대하여 설명하기로 한다.
상기 자원별로 획득된 검색정보를 연구주체별로 분류한 결과 A기업은 논문 2건, 특허 3건, 보고서 5건이고, B 기업은 논문 5건, 특허 5건, 보고서 1건, C기업은 논문 3건, 특허 10건, 보고서 1건인 경우, 상기 검색 결과 제공 모듈은 각 검색 건수에 해당 자원 비율을 곱하여 연산한다.
즉, A기업의 경우 2*0.5 + 3*0.3 + 5*0.2 = 2.9, B기업의 경우 5*0.5 + 5*0.3 + 1*0.2 = 4.2, C기업의 경우 3*0.5 + 10*0.3 + 1*0.2 = 4.5의 연산결과를 갖게 된다.
그러면, 상기 검색결과 제공 모듈(160)은 상기 연산 결과를 연구주체별로 랭킹하여 C기업 4.5, B기업 4.2, A기업 2.9의 순으로 검색결과를 제공하게 된다.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수도 있다.
상기와 같이 구성된 검색 정보 제공 장치(100)는 논문, 특허, 보고서 등 다중 자원 내에서 텍스트 마이닝을 통해 내적 정보(Implicit Information)를 추출하여 메타데이터와 같은 외형적 정보(Explicit Information)와 융합하고, 이를 시맨틱 웹 기술 기반의 서비스 플랫폼에 올려 다양한 관점에서의 정보 서비스를 가능하게 한다.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명의 실시예에 따른 다중 자원 기반 검색정보 제공 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 1을 참조하면, 다중 자원 기반 검색정보 제공 장치(이하, 검색 정보 제공 장치로 칭함)(100)는 데이터베이스(110), 개체 인식 및 관계 생성 모듈(120), 지식베이스 구축 모듈(130), 검색 모듈(150), 검색결과 제공 모듈(160)을 포함한다.
상기 데이터베이스(110)는 하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스(112), 개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스(114), 문맥을 정규화하기 위한 정규화 사전 데이터베이스(116)를 포함한다.
상기 개체 인식 및 관계 생성 모듈(120)은 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성한다.
상기와 같은 개체 인식 및 관계 생성 모듈(120)은 개체 인식부(122)와 관계 생성부(124)로 구성된다.
상기 개체 인식부(122)는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식한다. 이때, 상기 개체 인식부(122)는 상기 인식된 각 개체에 범주 및 식별자를 부여한다.
상기 관계 생성부(124)는 상기 개체 인식부(122)에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스(116)를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.
예를 들어, "notebook consists of monitor, SSD, and mobile processor" 문장의 경우, 상기 개체 인식부(122)는 상기 문장에서 notebook, monitor, SSD, mobile processor의 개체를 인식하게 된다.
이때, 2개 이상의 개체가 인식되었으므로, 상기 관계 생성부(124)는 기 저장된 문맥 패턴 정보 예를 들면, "Be동사 + 과거분사형 + 전치사"에 부합하는 문맥만을 추출한다.
그런 다음 상기 관계 생성부(124)는 상기 정규화 사전을 근거로 해당 문맥의 시제 예를 들면 "was"를 "be"로 통일하고, 유사표현 예를 들면, “similar to"와 "similar with"를 "similar to"로 통일하는 등의 문맥 정규화를 수행하여 개체간의 관계를 생성한다.
상기 관계 생성부(124)는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현한다.
상기 개체 인식 및 관계 생성 모듈(120)이 개체 인식 및 관계를 생성하는 방법은 자원별로 이루어지고, 여기서 자원은 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등을 말한다.
상기 지식베이스 구축 모듈(130)은 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한다.
이때, 상기 지식베이스 구축 모듈(130)은 상기 서로 다른 다중 자원에서 각각 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계로 표현한 통합 온톨로지로 저장한다.
상기 지식 베이스 구축 모듈(130)에 의해 생성된 통합 지식베이스는 지식 베이스 DB(140)에 저장된다.
상기 검색 모듈(150)은 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득한다.
예들 들면, 상기 사용자에 의해 "스마트카드"라는 검색어가 입력된 경우, 상기 검색 모듈(150)은 상기 통합 지식베이스를 검색하여 스마트카드에 대한 검색정보를 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등의 자원별로 획득한다.
상기 검색결과 제공 모듈(160)은 상기 검색 모듈(150)에서 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공한다.
즉, 상기 검색 결과 제공 모듈(160)은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수 있다.
예를 들어, 사용자가 "스마트 카드"를 검색어로 입력하고, 논문 50%, 특허 30%, 보고서 20%로 각 자원의 비율을 입력한 경우에 대하여 설명하기로 한다.
상기 자원별로 획득된 검색정보를 연구주체별로 분류한 결과 A기업은 논문 2건, 특허 3건, 보고서 5건이고, B 기업은 논문 5건, 특허 5건, 보고서 1건, C기업은 논문 3건, 특허 10건, 보고서 1건인 경우, 상기 검색 결과 제공 모듈은 각 검색 건수에 해당 자원 비율을 곱하여 연산한다.
즉, A기업의 경우 2*0.5 + 3*0.3 + 5*0.2 = 2.9, B기업의 경우 5*0.5 + 5*0.3 + 1*0.2 = 4.2, C기업의 경우 3*0.5 + 10*0.3 + 1*0.2 = 4.5의 연산결과를 갖게 된다.
그러면, 상기 검색결과 제공 모듈(160)은 상기 연산 결과를 연구주체별로 랭킹하여 C기업 4.5, B기업 4.2, A기업 2.9의 순으로 검색결과를 제공하게 된다.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수도 있다.
상기와 같이 구성된 검색 정보 제공 장치(100)는 논문, 특허, 보고서 등 다중 자원 내에서 텍스트 마이닝을 통해 내적 정보(Implicit Information)를 추출하여 메타데이터와 같은 외형적 정보(Explicit Information)와 융합하고, 이를 시맨틱 웹 기술 기반의 서비스 플랫폼에 올려 다양한 관점에서의 정보 서비스를 가능하게 한다.
도 2는 본 발명의 실시예에 따른 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법을 나타낸 흐름도, 도 3은 본 발명에 따른 검색어 입력 화면의 예시도, 도 4는 본 발명에 따른 검색 결과 정보 제공 화면을 나타낸 예시도이다.
도 2를 참조하면, 검색 정보 제공 장치는 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고(S200), 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성한다(S202).
즉, 상기 검색 정보 제공 장치는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식한다.
그런 다음 상기 검색 정보제공 장치는 상기 인식된 개체가 2개 이상인 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 기 저장된 정규화 사전을 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.
상기 S202의 수행 후 상기 검색 정보제공 장치는 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고(S206), 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한다(S208). 즉, 상기 검색 정보 제공 장치는 논문, 특허, 보고서 등 다중 자원 내에서 텍스트 마이닝을 통해 내적 정보를 추출하여 메타데이터와 같은 외형적 정보와 융합하고, 이를 시맨틱 웹 기술 기반의 서비스 플랫폼에 올려 다양한 관점에서의 정보 서비스를 가능하게 한다.
상기 S208의 수행 후, 사용자에 의해 검색어가 입력되면(S210), 상기 검색 정보 제공 장치는 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득한다(S212).
즉, 상기 사용자에 의해 검색이 요청되면, 상기 검색 정보 제공 장치는 도 3과 같은 검색어 입력 화면을 제공한다. 상기 검색어 입력 화면에 대해 도 3을 참조하면, 검색어 입력 화면(300)에는 검색어를 입력하기 위한 검색어 입력 영역(310), 자원 및 그 자원에 대한 비율을 선택하기 위한 자원선택 영역(320)을 포함한다.
상기 사용자는 상기 검색어 입력영역(310)에서 검색을 원하는 검색어를 입력하고, 상기 자원선택 영역(320)에서 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 중 적어도 하나의 자원을 선택한다. 이때, 상기 사용자는 상기 선택된 자원에 대한 비율을 함께 입력할 수 있다.
여기에서는 자원선택 영역(320)을 2개의 자원을 선택할 수 있는 슬라이드 바 형식으로 구성하였으나, 3개, 4개 등의 다수개의 자원을 선택할 수 있는 다양한 형태로 할 수 있음은 당연하다.
부가적으로 상기 검색어 입력 화면(300)은 연도범위를 지정하기 위한 연도 범위 지정 영역을 더 포함할 수 있다.
상기 사용자가 상기 검색어 입력 화면(300)을 통해 검색어 및 그 검색어에 대한 자원과 자원별 비율을 입력하면, 상기 검색 정보 제공 장치는 상기 통합 지식베이스를 검색하여 상기 입력된 검색어에 해당하는 검색정보를 자원별로 획득한다.
상기 S212의 수행 후, 상기 검색 정보 제공 장치는 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고(S214), 그 연산된 결과를 정렬한 검색결과정보를 제공한다(S216).
즉, 상기 검색 정보 제공 장치는 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 상기 연구주체별 각 자원의 검색 건수에 각 자원의 비율에 따른 가중치를 적용하여 연산한다. 그런 다음 상기 검색 정보 제공 장치는 상기 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다. 이때, 상기 검색 정보 제공 장치는 미리 정의된 또는 사용자에 의해 요청된 순서대로 상기 연산된 결과를 정렬하여 제공한다.
상기 검색 정보 제공 장치가 제공하는 검색결과 정보 제공 화면은 도 4와 같다. 도 4를 참조하여 검색결과 정보 제공 화면(400)에 대해 설명하면, 검색결과 정보 제공 화면(400)은 검색어 제공 영역(410), 자원 제공영역(420), 검색결과 제공 영역(430)을 포함한다.
상기 검색어 제공 영역(410)은 사용자에 의해 입력된 검색어가 표시되고, 상기 자원 제공 영역(420)에는 사용자에 의해 선택된 자원과 그 자원의 비율이 표시된다.
상기 검색결과 제공영역(430)은 연구주체별 각 자원의 검색 건수에 해당 자원 비율에 따른 가중치를 적용하여 연산한 결과가 제공되는 영역으로, 여기에서는 연산결과가 높은 연구주체 순으로 랭킹하여 제공된 형태이다.
예를 들면, 상기 검색결과 제공 영역(430)에는 A기업 10, B기업 8, C기업 7의 순으로 연산된 결과가 높은 연구주체 순으로 랭킹하여 검색결과가 제공된다.
사용자는 상기 자원 제공 영역(420)의 슬라이드 바를 이용하여 자원 또는 자원 비율을 변경할 수도 있다. 그러면, 상기 검색결과 제공 영역(430)에는 상기 변경된 자원 또는 자원비율을 반영한 검색결과가 제공된다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
이상과 같이 본 발명의 다중 자원 기반 검색정보 제공 장치 및 방법은 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과를 제공하여 사용자의 요구에 따라 다양한 관점에서의 정보 서비스 제공 필요성이 높은 것에 적합하다.

Claims (14)

  1. 개체명 사전 및 문맥 패턴 정보가 저장된 데이터베이스;
    각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 개체 인식 및 관계 생성 모듈;
    서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 지식베이스 구축 모듈;
    사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 검색 모듈; 및
    상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 검색 결과 제공 모듈;
    을 포함하는 다중 자원 기반 검색정보 제공 장치.
  2. 제1항에 있어서,
    상기 데이터베이스는,
    하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스;
    개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스; 및
    문맥을 정규화하기 위한 정규화 사전 데이터베이스를 포함하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 개체 인식 및 관계 생성 모듈은,
    상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 개체 인식부; 및
    상기 개체 인식부에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 관계 생성부를 포함하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.
  4. 제3항에 있어서,
    상기 개체 인식부는 상기 인식된 각 개체에 범주 및 식별자를 부여하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.
  5. 제3항에 있어서,
    상기 관계 생성부는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.
  6. 제1항에 있어서,
    상기 지식베이스 구축 모듈은 상기 서로 다른 다중 자원에서 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계로 표현한 통합 온톨로지로 저장하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.
  7. 제1항에 있어서,
    상기 검색 결과 제공 모듈은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공하는 것을 특징으로 하는 다중 자원을 통합한 지식베이스를 이용한 다중 관점 기반 검색정보 제공 장치.
  8. 제1항에 있어서,
    상기 검색 결과 제공 모듈은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공하는 것을 특징으로 하는 다중 자원을 통합한 지식베이스를 이용한 다중 관점 기반 검색정보 제공 장치.
  9. 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법에 있어서,
    (a) 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 단계;
    (b) 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 단계;
    (c) 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 단계; 및
    (d) 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 단계;
    를 포함하는 다중 관점 기반 검색정보 제공 방법.
  10. 제9항에 있어서,
    상기 (a) 단계는,
    상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 단계;
    상기 인식된 개체가 2개 이상인 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하는 단계; 및
    기 저장된 정규화 사전을 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 단계를 포함하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.
  11. 제9항에 있어서,
    상기 (c) 단계는,
    상기 사용자에 의해 검색이 요청된 경우, 검색어 입력 화면을 제공하는 단계;
    상기 검색어 입력 화면을 통해 검색어 및 그 검색어에 대한 자원과 자원별 비율을 입력받는 단계; 및
    상기 통합 지식베이스를 검색하여 상기 입력된 검색어에 해당하는 검색정보를 자원별로 획득하는 단계를 포함하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.
  12. 제9항에 있어서,
    상기 (d) 단계는,
    상기 자원별로 획득된 검색정보를 연구주체별로 분류하는 단계;
    상기 연구주체별 각 자원의 검색 건수에 각 자원의 비율에 따른 가중치를 적용하여 연산하는 단계;
    상기 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공하는 단계를 포함하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.
  13. 제9항에 있어서,
    상기 검색결과정보는 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.
  14. 제9항 내지 제13항에 있어서, 다중 관점 기반 검색정보 제공 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록 매체.
PCT/KR2010/007239 2010-10-07 2010-10-21 다중 자원 기반 검색정보 제공 장치 및 방법 WO2012046904A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0097796 2010-10-07
KR1020100097796A KR101055363B1 (ko) 2010-10-07 2010-10-07 다중 자원 기반 검색정보 제공 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2012046904A1 true WO2012046904A1 (ko) 2012-04-12

Family

ID=44933035

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/007239 WO2012046904A1 (ko) 2010-10-07 2010-10-21 다중 자원 기반 검색정보 제공 장치 및 방법

Country Status (2)

Country Link
KR (1) KR101055363B1 (ko)
WO (1) WO2012046904A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407208A (zh) * 2015-07-29 2017-02-15 清华大学 一种城市管理本体知识库的构建方法及***
CN107203618A (zh) * 2017-05-24 2017-09-26 苏州唯亚信息科技股份有限公司 适用于研发企业的数据归类方法
CN112819171A (zh) * 2021-02-04 2021-05-18 深圳市永达电子信息股份有限公司 一种基于表函数的数据搜索方法、***及计算机存储介质
CN114547253A (zh) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 一种基于知识库应用的语义搜索方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101724398B1 (ko) * 2016-01-07 2017-04-18 서강대학교산학협력단 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421091B1 (ko) * 2000-05-31 2004-03-10 노영희 의미망 지식베이스를 이용한 개념기반 정보검색시스템
JP2005078245A (ja) * 2003-08-29 2005-03-24 Victor Co Of Japan Ltd デンドログラムを用いたコンテンツ検索装置
KR20090114779A (ko) * 2008-04-30 2009-11-04 한국과학기술정보연구원 대용량 데이터베이스의 의미기반 기술용어 발굴 방법
KR20100054587A (ko) * 2008-11-14 2010-05-25 한국과학기술정보연구원 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421091B1 (ko) * 2000-05-31 2004-03-10 노영희 의미망 지식베이스를 이용한 개념기반 정보검색시스템
JP2005078245A (ja) * 2003-08-29 2005-03-24 Victor Co Of Japan Ltd デンドログラムを用いたコンテンツ検索装置
KR20090114779A (ko) * 2008-04-30 2009-11-04 한국과학기술정보연구원 대용량 데이터베이스의 의미기반 기술용어 발굴 방법
KR20100054587A (ko) * 2008-11-14 2010-05-25 한국과학기술정보연구원 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407208A (zh) * 2015-07-29 2017-02-15 清华大学 一种城市管理本体知识库的构建方法及***
CN106407208B (zh) * 2015-07-29 2019-06-18 清华大学 一种城市管理本体知识库的构建方法及***
CN107203618A (zh) * 2017-05-24 2017-09-26 苏州唯亚信息科技股份有限公司 适用于研发企业的数据归类方法
CN112819171A (zh) * 2021-02-04 2021-05-18 深圳市永达电子信息股份有限公司 一种基于表函数的数据搜索方法、***及计算机存储介质
CN112819171B (zh) * 2021-02-04 2024-04-09 深圳市永达电子信息股份有限公司 一种基于表函数的数据搜索方法、***及计算机存储介质
CN114547253A (zh) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 一种基于知识库应用的语义搜索方法

Also Published As

Publication number Publication date
KR101055363B1 (ko) 2011-08-08

Similar Documents

Publication Publication Date Title
Segev et al. Context-based matching and ranking of web services for composition
WO2012070840A2 (ko) 컨센서스 검색 장치 및 방법
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
WO2017150820A1 (ko) 지식베이스 기반의 개념그래프 확장 시스템
WO2011162446A1 (ko) 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
WO2012046904A1 (ko) 다중 자원 기반 검색정보 제공 장치 및 방법
WO2012046906A1 (ko) 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
WO2012050252A1 (ko) 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
WO2010123264A2 (en) Online community post search method and apparatus based on interactions between online community users and computer readable storage medium storing program thereof
WO2012144683A1 (ko) 유망 기술 라이프 사이클을 이용한 유망 단계 판단 장치 및 방법
WO2012144685A1 (ko) 기술 추이 시각화 장치 및 방법
WO2017057858A1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR20030069640A (ko) 계층적 및 개념적 클러스터링에 의한 정보검색 시스템 및그 방법
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
WO2020242086A1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
WO2013008978A1 (ko) 개체 식별 결과 검색 시스템 및 방법
WO2012144684A1 (ko) 기술의 발전 속도 예측 장치 및 방법
WO2012030049A2 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
WO2017179778A1 (ko) 빅데이터를 이용한 검색 방법 및 장치
WO2019112223A1 (ko) 전자 문서 검색 방법 및 그 서버
WO2012046905A1 (ko) 다중 자원의 통합에 의한 자원 검색 장치 및 방법
WO2015133774A1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
Huang et al. Pandasearch: A fine-grained academic search engine for research documents
WO2022092497A1 (ko) 유사 사건 정보제공시스템 및 그 방법
WO2010093101A1 (ko) 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10858180

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10858180

Country of ref document: EP

Kind code of ref document: A1