KR20160009916A - Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus - Google Patents

Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus Download PDF

Info

Publication number
KR20160009916A
KR20160009916A KR1020140090447A KR20140090447A KR20160009916A KR 20160009916 A KR20160009916 A KR 20160009916A KR 1020140090447 A KR1020140090447 A KR 1020140090447A KR 20140090447 A KR20140090447 A KR 20140090447A KR 20160009916 A KR20160009916 A KR 20160009916A
Authority
KR
South Korea
Prior art keywords
query
translation
language
wikipedia
word
Prior art date
Application number
KR1020140090447A
Other languages
Korean (ko)
Other versions
KR101616031B1 (en
Inventor
고영중
김성호
Original Assignee
동아대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동아대학교 산학협력단 filed Critical 동아대학교 산학협력단
Priority to KR1020140090447A priority Critical patent/KR101616031B1/en
Publication of KR20160009916A publication Critical patent/KR20160009916A/en
Application granted granted Critical
Publication of KR101616031B1 publication Critical patent/KR101616031B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a query translation system and method for a cross-language information search engine using linguistic resources from Wikipedia and a parallel corpus, which can easily establish a multilingual dictionary from Wikipedia and increase the performance of translation by using a small parallel corpus. The query translation system comprises: a query input module in which a query expressed in a source language is inputted; a query division module for dividing the inputted query expressed in the source language into translatable units; a query translation module for translating the query or extracting a translation candidate by using a set of the established linguistic resources from Wikipedia, with the divided query; a query selection module for eliminating translation ambiguity through the operation of calculating a meaning relationship between queries which are immediately translated or have a translation candidate and then selecting the best translated word; and a query output module for outputting the query to perform search with the query expressed in a final target language.

Description

위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법{Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus}FIELD OF THE INVENTION [0001] The present invention relates to a query language translation system and a method for translating a query language of a cross-language searcher using a language resource of Wikipedia and a parallel corpus,

본 발명은 교차언어 검색기의 질의어 번역에 관한 것으로, 구체적으로 위키피디아로부터 손쉽게 다국어 사전을 구축하고 소규모 병렬코퍼스를 사용해서도 번역의 성능을 높일 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법에 관한 것이다.The present invention relates to a query language translation of an cross-language search machine, and more particularly, to a cross language searcher using a language resource of Wikipedia and parallel corpus, which can easily build a multilingual dictionary from Wikipedia and improve the performance of translation even using a small- And more particularly, to a system and method for translating a query.

전통적인 정보검색(Information retrieval) 시스템은 질의어(query)로 표현된 사용자의 정보 의도(Inforamtion needs)를 바탕으로 사용자가 원하는 모든 적합한 문서를 찾아주는 것이 주요 목적이다.The traditional information retrieval system is based on the user's information needs expressed in the query, and it is the main purpose of the user to find all the appropriate documents desired by the user.

하지만, WWW(World Wide Web)의 특성에 따라 인터넷 사용자가 전 세계적으로 늘어나고 있고, 그에 따라서 각 국의 사용자 언어로 표현된 문서는 기하급수적으로 늘고 있다.However, according to the characteristics of the World Wide Web (WWW), the number of Internet users is increasing worldwide, and documents expressed in user languages of each country are increasing exponentially.

이러한 상황에서 전통적인 정보 검색 시스템은 단일 언어로 작성된 문서만을 다루기 때문에 다른 언어로 표현된 유용한 문서는 검색하지 못하는 단점을 가진다. In this situation, traditional information retrieval systems deal with only documents written in a single language, so they have the disadvantage that they can not retrieve useful documents expressed in other languages.

따라서, 교차언어 정보검색(Cross-language information retrieval) 시스템은 이러한 전통적인 정보검색 시스템의 한계를 넘어서 질의어에 적합한 유용한 다국어 문서(Multilingual document)를 사용자에게 제공할 수 있다는 장점을 가진다. Thus, the cross-language information retrieval system has the advantage that it can provide users with a useful multilingual document suitable for a query language beyond the limit of the conventional information retrieval system.

이러한 사용자의 요구 변화로 인해서 점차적으로 다국어(Multilingual)를 처리할 수 있는 교차언어 정보검색 시스템(Cross-language information retrieval)의 필요성이 대두되고 있다.The need for cross-language information retrieval (Cross-language Information Retrieval) that can handle multilinguality gradually due to the change of users' needs is emerging.

교차언어 검색이란 예를 들어 한국어로 질의문을 작성해도 영어로 작성된 관련 문서도 검색 가능하게 하는 기술을 의미하며 이 기술의 핵심 기술이 번역 기술이다.Cross-language search means, for example, a technology that makes it possible to search related documents written in English even if the query is written in Korean. The core technology of this technology is translation technology.

종래의 질의 번역은 몇 가지 기술을 활용하여 진행되어 왔는데, 첫째 다국어 사전을 구축하여 번역하는 기술, 둘째 대규모의 병렬코퍼스를 이용하여 단어의 번역 확률을 추정하여 활용하는 방법 등이 있다.Conventional query translation has been carried out using several techniques. First, there is a technique for constructing and translating a multilingual dictionary, and second, a method for estimating and utilizing the probability of translation of a word using a large-scale parallel corpus.

하지만, 이들 기술들은 다국어 사전 구축과 대규모 병렬 코퍼스 구축이라는 고비용의 데이터 생성의 과정이 필요하다.However, these technologies require high cost data generation processes such as multilingual dictionary construction and large parallel corpus construction.

이와 같이 교차언어 정보검색은 원본 언어(Source language)로 표현된 질의어를 기반으로 목적 언어(Target language)로 쓰인 문서들까지 검색하는 시스템을 말한다.Thus, cross-language information retrieval is a system for retrieving documents written in a target language based on a query language expressed in a source language.

이러한 원본 언어로 표현된 질의어를 목적 언어로 번역하기 위해서는 번역을 위한 사전이나 병렬 말뭉치(Parallel corpus) 등의 정보 집합이 필요하다.In order to translate the query language expressed in the original language into the target language, it is necessary to have a set of information such as a dictionary for translation or a parallel corpus.

하지만, 이러한 지식 기반의 정보 집합의 구축은 방대한 양의 정보를 필요로 함으로 복잡한 전처리 과정이 필요하고, 정보에 대한 수정 및 보완이 용이하지 않는 단점을 가진다.However, the construction of such a knowledge-based information set requires a complicated preprocessing process because it requires a large amount of information, and has a disadvantage that it is not easy to correct or supplement information.

대한민국 등록특허 제10-0956413호Korean Patent No. 10-0956413 대한민국 등록특허 제10-0385863호Korean Patent No. 10-0385863

본 발명은 이와 같은 종래 기술의 교차언어 정보검색 시스템에서의 문제를 해결하기 위한 것으로, 위키피디아로부터 손쉽게 다국어 사전을 구축하고 소규모 병렬코퍼스를 사용해서도 번역의 성능을 높일 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention solves the problem of the conventional cross-language information retrieval system. The present invention provides a language resource of Wikipedia which can easily build a multi-lingual dictionary from Wikipedia and improve the translation performance even using a small parallel corpus. A system and method for translating a query of a cross-language searcher using parallel corpus.

본 발명은 위키피디아로부터 양질의 다국어 사전을 자동으로 추출하고 소량의 병렬코퍼스로부터 추출된 신뢰도가 낮은 번역 확률을 다국어 사전 정보와 결합하여 높은 성능의 질의문 번역을 할 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention relates to a system and method for automatically extracting a high quality multilingual dictionary from Wikipedia, combining the low-reliability translation probability extracted from a small amount of parallel corpus with the multilingual dictionary information, A system and method for translating a query of a cross-language searcher using a corpus.

본 발명은 신뢰성이 높고, 단어나 구, 고유명사 등의 정보를 방대하게 포함하고 있는 위키피디아를 활용하여 한국어와 영어간의 이중 어휘 목록(Bilingual lexicon) 및 동의어(Synonym), 다의어(Polysemy) 정보를 자동으로 구축하여 질의어 번역을 수행하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention uses a bilingual dictionary (bilingual lexicon), synonym, and polysemy information between Korean and English, which is highly reliable, and utilizes a wikipedia that includes vocabulary, phrase, proper noun, And to provide a system and method for translating a query of a cross-language searcher using a parallel language and a language resource of Wikipedia which performs translation of a query word.

본 발명은 질의 번역 과정에서 발생하는 번역의 모호성을 해결하기 위해서 여러 의미(sense)를 가진 후보 단어들 중에 최적의 단어를 선정하기 위한 과정을 거쳐 최종적으로 번역된 질의어를 얻는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.In order to solve the ambiguity of the translation occurring during the translation process of the query, the present invention uses a language resource of the Wikipedia, which obtains the final translated query through the process of selecting the optimal word among the candidate words having various senses A system and method for translating a query of a cross-language searcher using a corpus.

본 발명은 번역된 질의어에 대한 검색의 성능을 향상시키기 위해서 위키피디아의 본문 단어의 연결(Link) 정보를 바탕으로 무작위 행보 알고리즘(Random walk algorithm)을 활용하여 질의어 확장을 수행하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.In order to improve the performance of a search for a translated query, the present invention is based on link information of a body word of Wikipedia, and a language resource of a Wikipedia that performs a query expansion using a random walk algorithm A system and method for translating a query of a cross-language searcher using a corpus.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

이와 같은 목적을 달성하기 위한 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템은 원본 언어로 표현된 질의어가 입력되는 질의 입력 모듈;입력된 원본 언어로 표현된 질의어를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈;분할된 질의어를 가지고, 구축된 위키피디아의 언어 자원 집합을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈;바로 번역되거나 번역 후보군을 갖는 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈;최종 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈;을 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a system for translating a query of a cross-language searcher using language resources and parallel corpus of Wikipedia according to the present invention includes a query input module for inputting a query term expressed in a source language, A query translation module for translating query terms or extracting translation candidates by using a set of language resources of a structured Wikipedia with a divided query term, a query translation module A query selection module for eliminating translation ambiguities by selecting an optimal translation word by calculating mutual semantic relations between the query words output from the query module and a query output module for outputting a query to perform a search with a query term expressed in the final target language; .

여기서, 질의 번역 모듈은 언어 자원 집합만으로 번역되지 않는 질의어의 경우에는 기계 판독 사전을 이용하여 단어에 대한 번역 후보군을 추출하는 것을 특징으로 한다.Here, the query translation module extracts a translation candidate group for a word using a machine-readable dictionary in the case of a query word that is not translated with only a language resource set.

다른 목적을 달성하기 위한 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법은 위키피디아 사전을 구축하는 단계;질의 입력 및 입력 질의의 분리를 통하여 원시 입력 질의를 처리하는 단계;단어별 번역 후보 생성 및 번역 단어 선택 과정을 통하여 목적 언어 번역 질의를 출력하는 질의 번역 단계;질의어 연관 단어 가중치 계산, 상위 K개 단어 선택을 통하여 확장된 목적 언어 번역 질의를 하는 질의 확장 단계;를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method of translating a query language of a cross-language searcher using a language resource of Wikipedia and a parallel corpus in accordance with the present invention includes constructing a Wikipedia dictionary, processing a raw input query by inputting a query, A query translation step of outputting a target language translation query through a word-based translation candidate generation and a translation word selection process, a query expansion step of performing an extended target language translation query through calculation of a weighted word-related word, .

여기서, 위키피디아 사전을 구축하는 단계는, 단어나 구, 개체명을 번역하기 위한 이중어휘 사전구축, 같은 뜻을 다른 단어로 표현한 동의어 사전 구축, 다른 뜻을 같은 단어로 표현한 다의어 사전구축 과정을 포함하는 것을 특징으로 한다.Here, the step of constructing the Wikipedia dictionary involves constructing a dual vocabulary dictionary for translating words, phrases, and object names, constructing a thesaurus expressing the same meaning in different words, and constructing a dictionary of terms .

그리고 이중어휘 사전구축은 위키피디아의 인터 위키 정보를 활용하여 한국어와 영어 간의 이중 어휘 목록을 구축하는 것을 특징으로 한다.In addition, the dual vocabulary dictionary builds a dual vocabulary list between Korean and English using Wikipedia's interwiki information.

그리고 동의어 사전 구축에 의한 동의어 집합은, 질의 번역 이전의 경우에는 다양하게 입력된 사용자 질의어에 대한 처리를 위하여 원본 언어의 동의어를 처리하고, 질의 번역 이후의 경우에는 번역된 질의어 이외에 같은 의미의 다른 표현을 추가하기 위해 번역된 목적 언어를 대상으로 동의어를 처리하는 것을 특징으로 한다.The thesaurus set by the thesaurus construction process the synonyms of the original language for the processing of the various inputted user query words before the translation of the query, And to process the synonyms for the translated target language.

그리고 동의어 집합은 한국어 위키피디아의 '넘겨주기 문서'와 영어 위키피디아의 'Redirect'를 대상으로 추출하는 것을 특징으로 한다.And the synonym set is characterized by extracting 'redirect document' of English Wikipedia and 'Redirect' of English Wikipedia.

그리고 다의어 사전구축에 의한 다의어 집합은, 번역의 모호성을 가지고 있는 질의어에 대한 의미 후보군을 추출하기 위한 데이터로 '동음이의어 문서'만을 추출하여 구축하고, 모호성을 가지고 있는 원본 단어와 원본 단어가 해석될 수 있는 여러 주제들, 그 주제에 해당하는 목적 단어로 구축되는 것을 특징으로 한다.In this paper, we propose a method of extracting meaning words from a set of ambiguous words. In this paper, we propose a method of extracting meaning words from a set of ambiguous words. And a target word corresponding to the subject.

그리고 단어별 번역 후보 생성 과정은, 동의어 사전을 이용한 동의어 처리, 이중 어휘 사전을 이용한 단어별 목적 언어 단어 생성, 다의어 사전을 이용한 다의어 처리를 하여 위키피디아 사전 기반 번역 후보 생성 단계를 포함하는 것을 특징으로 한다.The word-by-word translation candidate generation process is characterized by including a synonym process using a synonym dictionary, a target language word generation using a bilingual dictionary using words, and a Wikipedia dictionary-based translation candidate generation process using a plural word dictionary .

그리고 번역 단어 선택 과정은, 질의어 번역 후보 열이 추출되면, 병렬코퍼스 기반 번역 확률을 추출하는 단계와, 인덱싱 코퍼스 기반 상호 정보량 계산 단계와, 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하는 단계를 통하여, 최적의 번역 질의어를 추출하는 것을 특징으로 한다.The translation word selection process comprises the steps of extracting parallel query corpus-based translation probabilities when a query query translation column is extracted, calculating an indexing corpus-based mutual information amount, and selecting an optimal translation query word using the translation probability and the mutual information amount And extracts an optimal translation query word.

이와 같은 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법은 다음과 같은 효과를 갖는다.The system and method for translating a query of a cross-language searcher using Wikipedia language resource and parallel corpus according to the present invention have the following effects.

첫째, 위키피디아의 언어자원과 병렬 코퍼스를 이용하여 높은 정확도로 사용자의 질의문을 번역할 수 있다.First, users' queries can be translated with high accuracy using Wikipedia language resources and parallel corpus.

둘째, 위키피디아를 언어학적 자원으로 활용함으로써 언어확장성을 높이고, 소량의 병렬 코퍼스만을 요구함으로써 높은 정확률뿐만 아니라 구축 비용을 최소화할 수 있다.Second, using Wikipedia as a linguistic resource increases language scalability and requires only a small amount of parallel corpus, so that not only high accuracy but also construction cost can be minimized.

셋째, 여러 의미(sense)를 가진 후보 단어들 중에 최적의 단어를 선정하기 위한 과정을 거쳐 최종적으로 번역된 질의어를 얻어 질의 번역 과정에서 발생하는 번역의 모호성을 해결할 수 있다.
Third, it is possible to solve the ambiguity of the translation occurring in the query translation process by obtaining the final translated query through the process of selecting the optimal word among the candidate words having various sense.

도 1은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템의 구성도
도 2는 본 발명에 따른 교차언어 검색 과정을 나타낸 플로우 차트
도 3은 단어별 번역 후보 생성 과정을 나타낸 플로우 차트
도 4는 번역 단어 선택 과정을 나타낸 플로우 차트
도 5는 질의어 번역 후보 열의 일 예를 나타낸 구성도
도 6은 병렬코퍼스 기반 번역 확률 추출 계산식을 나타낸 구성도
도 7은 인덱싱 코퍼스 기반 상호 정보량 계산식을 나타낸 구성도
도 8은 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택 계산식을 나타낸 구성도
도 9는 최적의 번역 질의어의 일 예를 나타낸 구성도
1 is a block diagram of a system for translating a query term of an cross-language search machine according to the present invention;
2 is a flowchart showing a cross-language search process according to the present invention.
3 is a flowchart showing a word-by-word translation candidate generation process
4 is a flowchart showing a translation word selection process
5 is a block diagram showing an example of a query term translation candidate sequence
6 is a diagram showing a parallel corpus-based translation probability extraction calculation equation
7 is a diagram showing a calculation formula of an indexing corpus-based mutual information amount
8 is a diagram showing an optimal translation query selection equation using translation probability and mutual information amount.
9 is a block diagram showing an example of an optimal translation query word

이하, 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.Hereinafter, a preferred embodiment of a system and method for translating a query of a cross-language searcher using language resources and parallel corpus of Wikipedia according to the present invention will be described in detail.

본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.The features and advantages of the query language translation system and method of the cross language searcher using the language resources of Wikipedia and the parallel corpus according to the present invention will be apparent from the detailed description of each embodiment below.

도 1은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템의 구성도이다.1 is a configuration diagram of a query translation system of an cross-language searcher according to the present invention.

본 발명은 교차언어 정보검색 시스템을 구현하기 위해서 비교적 널리 연구되어지고 있는 질의어 번역(Query translation) 방법을 사용한다.The present invention uses a query translation method that has been widely studied to implement a cross-language information retrieval system.

하지만, 단순한 질의어 번역의 경우에는 질의 단어의 번역 모호성(Translation ambiguity)이 존재하며, 이는 질의어 번역의 고질적인 문제로 교차언어 정보검색 시스템의 성능을 저하시키는 원인이 된다. However, in the case of a simple query translation, there is a translation ambiguity of the query word, which causes the performance of the cross-language information retrieval system to deteriorate due to the persistent problem of the query translation.

따라서 본 발명은 위키피디아가 다국어로 서비스되고 있으며, 신뢰성이 높고, 단어나 구, 고유명사 등의 정보를 방대하게 포함하고 있다는 장점을 활용하여 한국어와 영어 간의 이중 어휘 목록(Bilingual lexicon) 및 동의어(Synonym), 다의어(Polysemy) 정보를 자동으로 구축하여 질의어 번역을 수행한다.Therefore, the present invention utilizes bilingual lexicon between Korean and English and synonyms (Korean, English, Japanese) by utilizing the advantage that Wikipedia is served in multiple languages, has high reliability, and includes information such as words, phrases, ), And Polysemy information to automatically translate the query.

그리고 질의 번역 과정에서 발생하는 번역의 모호성을 해결하기 위해서 여러 의미(sense)를 가진 후보 단어들 중에 최적의 단어를 선정하기 위한 과정을 거쳐 최종적으로 번역된 질의어를 얻게 된다.In order to solve the ambiguity of the translation occurring in the query translation process, the final translated query is obtained through the process of selecting the optimal word among the candidate words having various senses.

번역된 질의어에 대한 검색의 성능을 향상시키기 위해서 위키피디아의 본문 단어의 연결(Link) 정보를 바탕으로 무작위 행보 알고리즘(Random walk algorithm)을 활용하여 질의어 확장을 수행한다.In order to improve the performance of the retrieval of the translated query, query expansion is performed by using a random walk algorithm based on link information of Wikipedia body words.

본 발명에 따른 교차언어 검색기의 질의어 번역 시스템은 도 1에서와 같이, 원본 언어로 표현된 질의어 Qs가 입력되는 질의 입력 모듈(10)과, 입력된 원본 언어로 표현된 질의어 Qs를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈(20)과, 분할된 질의어를 가지고, 미리 구축했던 위키피디아의 언어 자원 집합(60)을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈(30)과, 바로 번역되거나 번역 후보군을 가진 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈(40)과, 최종적으로 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈(50)을 포함한다.As shown in FIG. 1, the system for translating a query of a cross-language searcher according to the present invention comprises a query input module 10 for inputting a query term Qs expressed in a source language, and a query input unit 10 for converting a query term Qs expressed in the input source language into a translable unit A query translation module (30) for translating a query term or extracting a translation candidate group using a pre-established Wikipedia language resource set (60) with a divided query term; A query selection module 40 for calculating translational semantics between query words having a translation or translation candidate group and selecting an optimal translation word to eliminate translation ambiguity; And a query output module 50 for outputting a query to perform a search.

여기서, 질의 번역 모듈(30)은 언어 자원 집합만으로 번역되지 않는 질의어의 경우에는 기계 판독 사전을 이용하여 단어에 대한 번역 후보군을 추출한다.Here, the query translation module 30 extracts a translation candidate group for a word using a machine-readable dictionary in the case of a query word that is not translated with only a language resource set.

이와 같은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템은 위키피디아로부터 다국어 사전뿐 아니라 동의어, 다의어 정보를 추출하여 다국어 언어자원을 구축하고, 병렬코퍼스를 확보하여 번역확률을 추출하며, 이 두 가지 정보를 결합하여 가장 높은 번역 질의어를 찾아주는 알고리즘을 이용하여 질의문을 번역한다. The system for translating a query of a cross-language searcher according to the present invention extracts not only a multilingual dictionary from Wikipedia but also synonym and plural word information to construct a multilingual language resource, acquires a parallel corpus to extract a translation probability, The query is translated using an algorithm that combines and finds the highest translation query.

이와 같은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템은 위키피디아에 존재하는 여러 가지 정보를 이용하여 번역에 유용한 어휘(특히, 고유명사)들에 대한 다국어 사전(동의어, 다의어 포함)을 inter-wiki link, redirect page와 disambiguation page 등을 이용하여 손쉽게 구축할 수 있도록 한 것이다.The query language translation system of the cross-language searcher according to the present invention uses a variety of information existing in Wikipedia to translate a multi-lingual dictionary (including synonyms and pluripotential words) useful for translation (particularly, proper nouns) , a redirect page, and a disambiguation page.

또한, 병렬코퍼스를 이용해서 Giza ++ 툴을 사용하면 병렬코퍼스에 출현한 단어들의 번역 확률을 얻을 수 있다.In addition, using the parallel corpus, the Giza ++ tool can be used to obtain the translation probability of words appearing in the parallel corpus.

본 발명에서는 이러한 병렬코퍼스 구축에 많은 비용이 소비된다는 문제를 해결하기 위하여, 적은 양의 병렬코퍼스를 사용하고도 높은 성능의 질의 번역을 수행할 수 있는 번역 기술을 포함한다.The present invention includes a translation technique capable of performing a high-quality query translation using a small amount of parallel corpus in order to solve the problem of consuming a large amount of cost in constructing the parallel corpus.

그리고 소스 언어의 번역가능한 타겟단어들의 리스트를 다국어사전을 통해 구할 수 있고 번역 확률과 인덱싱 코퍼스에서 두 단어가 동시에 출현하는 정도를 상호정보량으로 구축한 수치를 활용하여 하나의 번역 질의문을 만들어 낸다.A list of translatable target words in the source language can be obtained through a multilingual dictionary, and the translation probability and the degree of simultaneous appearance of two words in the indexing corpus are used to generate a translation query using numerical values.

본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법을 구체적으로 설명하면 다음과 같다.A method of translating a query language of an intersecting language searcher using a language resource of Wikipedia and parallel corpus according to the present invention will be described in detail as follows.

도 2는 본 발명에 따른 교차언어 검색 과정을 나타낸 플로우 차트이다.2 is a flowchart illustrating a cross-language search process according to the present invention.

본 발명에 따른 교차언어 검색 과정은, 이중어휘 사전구축,동의어 사전 구축,다의어 사전구축 과정을 통하여 위키피디아 사전을 구축하는 단계(S201)와, 질의 입력 및 입력 질의의 분리를 통하여 원시 입력 질의를 처리하는 단계(S202)와, 위키피디아 사전, 기계판독 사전을 이용한 단어별 번역 후보 생성(S203a) 및 병렬코퍼스, 색인 데이터를 이용한 번역 단어 선택(S203b) 과정을 통하여 목적 언어 번역 질의를 출력하는 질의 번역 단계(S203)와, 위키피디아 컨셉 링크 그래프 생성, 무작위 행보 알고리즘을 이용한 질의어 연관 단어 가중치 계산, 상위 K개 단어 선택을 통하여 확장된 목적 언어 번역 질의를 하는 질의 확장 단계(S204)를 포함한다.The cross-language search process according to the present invention includes a step (S201) of constructing a Wikipedia dictionary through a bilingual dictionary construction, a thesaurus construction, and a polyanguage dictionary construction process and a step of processing a raw input query by separating a query input and an input query (Step S202), a query translation step of outputting a target language translation query through a process of generating a word-based translation candidate using a machine dictionary, a parallel corpus, and a translation word selection using the index data (S203b) (S203), generating a Wikipedia concept link graph, computing a query word association weight using a random walk algorithm, and expanding a query (S204) for performing an extended target language translation query by selecting upper K words.

위키피디아 사전을 구축하는 단계(S201)에서 위키피디아의 언어 자원 집합(60)은 다음과 같이 생성한다.In the step of constructing the Wikipedia dictionary (S201), the language resource set (60) of Wikipedia is generated as follows.

언어 자원 집합 생성을 위하여 먼저, 전처리 작업으로 위키피디아에 포함된 정보를 바탕으로 이중 어휘 목록, 동의어 집합, 다의어 집합을 생성한다.In order to generate a language resource set, a preprocessing task first generates a dual lexical item list, a synonym set, and a plural dictionary set based on the information contained in Wikipedia.

1. 단어나 구, 개체명을 번역하기 위한 이중 어휘 목록1. Dual vocabulary list for translating words, phrases, and object names

2. 같은 뜻을 다른 단어로 표현한 동의어 집합2. A set of synonyms that express the same meaning in different words

3. 다른 뜻을 같은 단어로 표현한 다의어 집합3. A set of terms that express different meanings in the same word

먼저, 이중 어휘 목록은 위키피디아가 다국어로 서비스되고 있으며, 다국First, the dual vocabulary list is served by Wikipedia in multiple languages,

어 연결 정보인 인터 위키 정보를 위키피디아의 '일반 문서'에서 제공하고있다는 점을 활용하여 구축한다.It is based on the fact that Wikipedia provides "interwiki information", which is a connection information, in "general document" of Wikipedia.

한국어 위키피디아에서 어떠한 하나의 개체를 설명하고 있는 일반 문서는 같은 주제에 대해서 한국어 이외의 다른 언어로 표현된 문서가 존재할 수 있다.A general document describing a single object in Korean Wikipedia can have documents expressed in languages other than Korean for the same topic.

위키피디아의 경우에는 같은 주제에 대해서 다른 언어로 표현된 문서가 서비스되고 있다면, 인터 위키 정보를 본문에서 하이퍼텍스트 형태로 제공하여, 다른 언어로 쓰인 주제를 볼 수 있도록 하였다.In the case of Wikipedia, if a document in a different language is being served on the same subject, the interwiki information is provided as a hypertext in the text so that the subject in another language can be viewed.

따라서, 본 발명에서는 이러한 위키피디아의 인터 위키 정보를 활용하여, 한국어와 영어 간의 이중 어휘 목록을 구축한다.Therefore, in the present invention, a bilingual list between Korean and English is constructed using the Wikipedia's interwiki information.

표 1은 한국어와 영어의 이중 어휘 목록을 구축한 데이터베이스 Scheme 및 구축된 예시이다.Table 1 shows a database Scheme constructing a dual vocabulary list of Korean and English, and an example of the construction.

Figure pat00001
Figure pat00001

두 번째는 동의어 집합을 생성하는 과정이다.The second is the process of generating a synonym set.

동의어 집합은 질의어 번역 이전과 질의어 번역 이후에 각각 사용된다. 질의 번역 이전의 경우에는 다양하게 입력된 사용자 질의어에 대한 처리하기 위하여 원본 언어의 동의어를 처리한다.The synonym sets are used before query translation and after query translation, respectively. In the case of query translation before, we process the synonyms of the original language to process various input user query terms.

질의 번역 이후의 경우에는 번역된 질의어 이외에 같은 의미의 다른 표현을 추가하기 위해 번역된 목적 언어를 대상으로 동의어를 처리한다.After the translation of the query, the synonym is processed for the translated target language in order to add another expression of the same meaning in addition to the translated query.

동의어 집합은 한국어 위키피디아의 '넘겨주기 문서'와 영어 위키피디아의 'Redirect'를 대상으로 추출한다.A set of synonyms is extracted from Korean Wikipedia's "Redirection Document" and English Wikipedia's "Redirect".

표 2는 동의어 집합을 구축한 데이터베이스 Scheme 및 구축된 예시이다.Table 2 shows a database schema and a constructed example of a synonym set.

Figure pat00002
Figure pat00002

마지막으로, 다의어 집합을 생성하는 과정이다.Finally, it is the process of generating a set of polynomials.

다의어 집합은 번역의 모호성을 가지고 있는 질의어에 대한 의미 후보군을 추출하기 위한 데이터이다.A set of polynomials is data for extracting meaning candidates for a query having ambiguity of translation.

다의어 집합을 구축하기 위해서는 '동음이의어 문서'만을 추출하여 구축하고, 모호성을 가지고 있는 원본 단어와 원본 단어가 해석될 수 있는 여러 주제들, 그리고 그 주제에 해당하는 목적 단어로 구축된다.In order to construct a set of plural terms, only 'homonyms document' is extracted and constructed, and the original words that have ambiguity and various topics in which the original words can be interpreted and the target words corresponding to the subject are constructed.

표 4는 다의어 집합을 구축한 데이터베이스 Scheme 및 구축된 예시이다.Table 4 shows a database Scheme constructing a set of polynomials and an example constructed.

Figure pat00003
Figure pat00003

그리고 위키피디아 사전, 기계판독 사전을 이용한 단어별 번역 후보 생성(S203a) 및 병렬코퍼스, 색인 데이터를 이용한 번역 단어 선택(S203b) 과정을 구체적으로 설명하면 다음과 같다.The process of generating a word-based translation candidate using a dictionary of Wikipedia, a machine-readable dictionary (S203a), and a translation word selection using a parallel corpus and index data (S203b) will be described in detail.

도 3은 단어별 번역 후보 생성 과정을 나타낸 플로우 차트이고, 도 4는 번역 단어 선택 과정을 나타낸 플로우 차트이다.FIG. 3 is a flowchart illustrating a word-by-word translation candidate generation process, and FIG. 4 is a flowchart illustrating a translation word selection process.

단어별 번역 후보 생성 과정은 도 3에서와 같이, 동의어 사전을 이용한 동의어 처리, 이중 어휘 사전을 이용한 단어별 목적 언어 단어 생성, 다의어 사전을 이용한 다의어 처리를 하여 위키피디아 사전 기반 번역 후보 생성 단계(S301)와, 기계 판독 사전을 이용한 위키피디아 사전에 없는 질의어에 대한 번역 후보 생성을 하는 기계 판독 사전 기반 번역 후보 생성 단계(S302)를 통하여 도 5에서와 같은 질의어 번역 후보 열을 추출한다.(S303)As shown in FIG. 3, the process of generating a word-based translation candidate includes processing a synonym process using a synonym dictionary, generating a target language word for each word using a dual lexical dictionary, and generating a Wikipedia dictionary-based translation candidate (S301) And a machine translation dictionary-based translation candidate generation step (S302) for generating translation candidates for query terms not in the Wikipedia dictionary using a machine-readable dictionary (S303).

그리고 번역 단어 선택 과정은 도 4에서와 같이, 질의어 번역 후보 열이 추출되면(S303), 병렬코퍼스 기반 번역 확률을 추출하고(S310), 인덱싱 코퍼스 기반 상호 정보량 계산(S320) 및 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하여(S330), 최적의 번역 질의어를 추출한다.(S340)4, the query word translation candidate sequence is extracted (S303), the parallel corpus-based translation probability is extracted (S310), the indexing corpus-based mutual information amount calculation (S320) and the translation probability and the mutual information amount (S330), and extracts an optimal translation query term (S340)

도 6은 병렬코퍼스 기반 번역 확률 추출 계산식을 나타낸 것이고, 도 7은 인덱싱 코퍼스 기반 상호 정보량 계산식을 나타낸 것이다.FIG. 6 shows a parallel-corpus-based translation probability extraction formula, and FIG. 7 shows a formula for calculating the mutual information amount based on the indexing corpus.

그리고 도 8은 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택 계산식을 나타낸 것이다.FIG. 8 shows an optimal translation query selection formula using translation probability and mutual information.

이와 같이, 구축한 언어자원 집합을 이용하여 질의어를 번역하거나 번역 후보군을 추출하기 위하여, 먼저 입력된 원본 질의어의 불용어(Stopword)를 제거하고, 번역 가능한 단어나 구로 분할하는 작업을 거친다.In this way, in order to translate a query word or extract a translation candidate group using the constructed language resource set, a stopword of the original query word input is first removed, and the translation word or phrase is segmented into translational words or phrases.

이는 질의어가 단어뿐만 아니라 구나 개체명 단위로 번역될 수 있기 때문이다.This is because the query term can be translated into not only words but also object names.

예를 들어, NTCIR-5 데이터의 영어 질의 집합의 1번 질의어인 'Time Warner, American Online (AOL), Merger, Impact'을 번역 가능한 단어나 구로 분할한다고 하면, 'Time', 'Warner', 'Time Warner', 'American', 'Online', 'American Online', 'AOL', 'Merger', 'Impact'로 질의어가 분할된다.For example, if you divide Time Warner, American Online (AOL), Merger, and Impact, which are query # 1 of the English query set of NTCIR-5 data, into words and phrases that can be translated, Time Warner ',' American ',' Online ',' American Online ',' AOL ',' Merger ', and' Impact '.

다음으로, 미리 구축해 두었던 언어 자원 집합을 이용하여, 분할된 질의어를 번역하게 된다.Next, the divided query words are translated using the language resource set that has been established in advance.

구축된 언어 자원 집합을 이용한 질의어 번역은 분할된 질의 단어를 바탕으로 먼저, 동의어 집합을 거쳐 원본 질의어의 동의어를 처리한다.The query translation using the constructed language resource set first processes the synonyms of the original query through the set of synonyms based on the divided query words.

이후에 분할된 질의 단어가 모호성을 가지고 있다면, 다의어 집합을 이용해 질의어에 대한 번역 후보군을 추출하고, 분할된 질의 단어가 모호성을 가지지 않는다면, 이중 어휘 목록을 이용하여 바로 번역하게 된다.If the divided query words have ambiguity, the translation candidates for the query are extracted by using a set of plural terms, and if the divided query words do not have ambiguity, the translation is directly performed using the dual vocabulary list.

따라서, 위의 NTCIR의 영어 테스트 질의를 언어 자원 집합을 이용하여, 질의어를 번역하면 표 4와 같은 결과를 얻을 수 있다.Therefore, if the query language is translated using NTCIR 's English language test query using the language resource set, the results shown in Table 4 can be obtained.

Figure pat00004
Figure pat00004

이후에 각각의 질의어가 번역된 결과에 따라 분할된 질의어 중 최장으로 일치된 번역 단어가 있다면, 최장 일치된 단어만 사용되게 된다.Thereafter, if there is the longest matched translation word among the divided query terms according to the result of translation of each query term, only the longest matched word is used.

아울러, 중복된 번역의 경우에는 중복을 제거하게 된다. 그리하여, 최종적으로 언어 자원 집합을 이용하여 번역된 단어는 'Time Warner => 타임워너','American Online => AOL', 'Merger => 인수 합병'으로 번역된다.In addition, redundant translation is eliminated. Finally, the translated words are translated into 'Time Warner => Time Warner', 'American Online => AOL', and 'Merger => Merger Acquisitions' using language resource sets.

하지만, 'Impect'와 같이 위키피디아에 존재하지 않는 단어의 경우와 같이 언어자원 집합을 이용해서는 번역되지 않는 단어가 발생하게 된다.However, words such as 'Impect' that do not exist in Wikipedia are not translated using language resource sets.

이와 같이 번역되지 않는 질의어의 경우에는 기계 판독 사전을 사용하여 번역한다.In the case of query words that are not translated in this way, they are translated using machine-readable dictionaries.

예를 들어, 번역되지 않은 'Impact'라는 단어는 '충돌', '충격', '영향', '효과', '꽉 밀어 넣다', '강한 충격을 주다' 등의 여러 의미로 해석될 수 있다.For example, an untranslated word 'Impact' can be interpreted in many ways, such as 'crash', 'shock', 'impact', 'effect', 'pushing tight' .

따라서, 이러한 번역 모호성을 가지는 단어에 대해서는 다의어 집합과 같이 번역될 수 있는 모든 후보군을 추출하고, 앞서 번역된 단어들 간의 의미 관계를 계산하여 최종적으로 가장 최적의 번역 단어를 선정하게 된다.Therefore, for a word having such a translation ambiguity, all candidates that can be translated, such as a set of plural terms, are extracted, and the semantic relation between the previously translated words is calculated to finally select the most optimal translation word.

도 9는 최적의 번역 질의어의 일 예를 나타낸 것이다.9 shows an example of an optimal translation query word.

그리고 표 5는 원본 질의어를 바탕으로 언어 자원 집합과 기계 판독 사전을 이용하여 번역된 예를 나타낸 것이다.Table 5 shows an example of translation using a language resource set and a machine-readable dictionary based on the original query language.

Figure pat00005
Figure pat00005

이와 같이 번역이 확정된 단어의 경우에는 하나의 번역 후보만을 가지게 되고, 번역이 확정되지 않은 단어의 경우에는 여러 개의 번역 후보를 가지고 있다. In the case of a word whose translation has been confirmed in this way, it has only one translation candidate, and in the case of a word whose translation has not been confirmed, it has several translation candidates.

최종적으로 번역이 확정되지 않는 단어의 경우에는 확정된 단어들과의 의미 관계를 계산하여, 가장 최적의 번역 단어를 선정하게 된다In the case of a word whose final translation is not confirmed, the semantic relation with the determined words is calculated and the most optimal translation word is selected

이와 같은 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법은 위키피디아 활용과 소량의 병렬코퍼스를 이용함으로써 보다 확장성 높고, 저비용의 고성능 질의문 번역기를 개발함으로써 다국어로 작성되는 빅데이터 분석에 활용될 수 있도록 한 것이다.The system and method for translating a query of a cross-language searcher using Wikipedia language resources and parallel corpus according to the present invention can be applied to a multi-lingual query language translation system by using a wikipedia and a small amount of parallel corpus to develop a more scalable and low- To be used in big data analysis.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.As described above, it will be understood that the present invention is implemented in a modified form without departing from the essential characteristics of the present invention.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.It is therefore to be understood that the specified embodiments are to be considered in an illustrative rather than a restrictive sense and that the scope of the invention is indicated by the appended claims rather than by the foregoing description and that all such differences falling within the scope of equivalents are intended to be embraced therein It should be interpreted.

10. 질의 입력 모듈 20. 질의 분할 모듈
30. 질의 번역 모듈 40. 질의 선택 모듈
50. 질의 출력 모듈 60. 언어 자원 집합
10. Query input module 20. Query division module
30. Query translation module 40. Query selection module
50. Query output module 60. Language resource set

Claims (9)

원본 언어로 표현된 질의어가 입력되는 질의 입력 모듈;
입력된 원본 언어로 표현된 질의어를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈;
분할된 질의어를 가지고, 구축된 위키피디아의 언어 자원 집합을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈;
바로 번역되거나 번역 후보군을 갖는 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈;
최종 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈;을 포함하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템.
A query input module for inputting a query term expressed in a source language;
A query division module for dividing a query into a translation unit of a query term expressed in an input original language;
A query translation module for translating query terms or extracting translation candidates using a set of language resources of a structured Wikipedia with a divided query term;
A query selection module for eliminating translation ambiguity through an operation of selecting an optimal translation word by calculating a mutual semantic relationship between query words having a translation or a candidate word;
And a query output module for outputting a query term to perform a search with a query term expressed in an ultimate target language. The system for translating a query language of a cross-language searcher using Wikipedia language resources and parallel corpus.
위키피디아 사전을 구축하는 단계;
질의 입력 및 입력 질의의 분리를 통하여 원시 입력 질의를 처리하는 단계;
단어별 번역 후보 생성 및 번역 단어 선택 과정을 통하여 목적 언어 번역 질의를 출력하는 질의 번역 단계;
질의어 연관 단어 가중치 계산, 상위 K개 단어 선택을 통하여 확장된 목적 언어 번역 질의를 하는 질의 확장 단계;를 포함하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
Steps to build a Wikipedia dictionary;
Processing a raw input query through query input and input query separation;
A query translation step of outputting a target language translation query through a word-based translation candidate generation and a word selection process;
And a query expansion step of performing an extended target language translation query through calculation of a query word weighting value and a top K word selection, and a query translation method of a cross language searcher using Wikipedia language resources and parallel corpus.
제 2 항에 있어서, 위키피디아 사전을 구축하는 단계는,
단어나 구, 개체명을 번역하기 위한 이중어휘 사전구축, 같은 뜻을 다른 단어로 표현한 동의어 사전 구축, 다른 뜻을 같은 단어로 표현한 다의어 사전구축 과정을 포함하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
3. The method of claim 2, wherein constructing the Wikipedia dictionary comprises:
A bilingual dictionary construction for translating a word or phrase, an object name, a thesaurus construction in which the same meaning is expressed by another word, and a construction of a dictionary of a dictionary of a different meaning expressed by the same word, A method of query translation of a cross - language searcher using corpus.
제 3 항에 있어서, 이중어휘 사전구축은 위키피디아의 인터 위키 정보를 활용하여 한국어와 영어 간의 이중 어휘 목록을 구축하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.4. The method of claim 3, wherein the dual vocabulary dictionary construction uses a Wikipedia's interwiki information to construct a dual vocabulary list between Korean and English, and a method of translating query terms of a cross-language searcher using Wikipedia language resources and parallel corpus. 제 3 항에 있어서, 동의어 사전 구축에 의한 동의어 집합은,
질의 번역 이전의 경우에는 다양하게 입력된 사용자 질의어에 대한 처리를 위하여 원본 언어의 동의어를 처리하고,
질의 번역 이후의 경우에는 번역된 질의어 이외에 같은 의미의 다른 표현을 추가하기 위해 번역된 목적 언어를 대상으로 동의어를 처리하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
4. The method of claim 3,
In the case of query translation before, it processes the synonyms of the original language to process various input user queries,
In the latter case, synonyms are processed for the translated target language to add other expressions of the same meaning in addition to the translated query term. In this case, the translation of the query language of the cross language searcher using Wikipedia language resources and parallel corpus .
제 5 항에 있어서, 동의어 집합은 한국어 위키피디아의 '넘겨주기 문서'와 영어 위키피디아의 'Redirect'를 대상으로 추출하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.6. The method according to claim 5, wherein the synonym set is extracted from Korean Wikipedia's 'redirection document' and English Wikipedia 'Redirect', and a method of translating a query of a cross-language searcher using Wikipedia language resources and parallel corpus. 제 3 항에 있어서, 다의어 사전구축에 의한 다의어 집합은,
번역의 모호성을 가지고 있는 질의어에 대한 의미 후보군을 추출하기 위한 데이터로 '동음이의어 문서'만을 추출하여 구축하고,
모호성을 가지고 있는 원본 단어와 원본 단어가 해석될 수 있는 여러 주제들, 그 주제에 해당하는 목적 단어로 구축되는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
4. The method according to claim 3,
We extract and construct 'homonyms document' as data for extracting semantic candidates for query terms with ambiguous translation,
A method for translating a query of a cross-language searcher using Wikipedia language resources and parallel corpus, characterized in that it is constructed of a source word having ambiguity and a plurality of topics in which an original word can be interpreted and a target word corresponding to the topic.
제 2 항에 있어서, 단어별 번역 후보 생성 과정은,
동의어 사전을 이용한 동의어 처리, 이중 어휘 사전을 이용한 단어별 목적 언어 단어 생성, 다의어 사전을 이용한 다의어 처리를 하여 위키피디아 사전 기반 번역 후보 생성 단계를 포함하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
3. The method according to claim 2, wherein the word-
The method of claim 1 or 2, wherein the step of generating the dictionary candidate based on the Wikipedia dictionary comprises the step of generating synonyms using the synonym dictionary, generating the target language words using the double dictionary dictionary, A method of translating a query language of an intersecting language searcher.
제 2 항에 있어서, 번역 단어 선택 과정은,
질의어 번역 후보 열이 추출되면, 병렬코퍼스 기반 번역 확률을 추출하는 단계와,
인덱싱 코퍼스 기반 상호 정보량 계산 단계와,
번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하는 단계를 통하여, 최적의 번역 질의어를 추출하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
3. The method according to claim 2,
Extracting a parallel translation corpus based translation probability when a query term translation candidate string is extracted,
An indexing corpus-based mutual information amount calculating step,
And selecting an optimal translation query word using a translation probability and a mutual information amount, and extracting an optimal translation query term through a step of selecting an optimal translation query term using the translation probability and the mutual information amount.
KR1020140090447A 2014-07-17 2014-07-17 Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus KR101616031B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140090447A KR101616031B1 (en) 2014-07-17 2014-07-17 Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140090447A KR101616031B1 (en) 2014-07-17 2014-07-17 Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus

Publications (2)

Publication Number Publication Date
KR20160009916A true KR20160009916A (en) 2016-01-27
KR101616031B1 KR101616031B1 (en) 2016-04-28

Family

ID=55309262

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140090447A KR101616031B1 (en) 2014-07-17 2014-07-17 Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus

Country Status (1)

Country Link
KR (1) KR101616031B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897274A (en) * 2017-01-09 2017-06-27 北京众荟信息技术股份有限公司 Method is repeated in a kind of comment across languages
KR20190141891A (en) * 2018-06-15 2019-12-26 부산외국어대학교 산학협력단 Method and Apparatus for Sentence Translation based on Word Sense Disambiguation and Word Translation Knowledge
US10572604B2 (en) 2017-09-25 2020-02-25 Samsung Electronics Co., Ltd. Sentence generating method and apparatus
KR102395811B1 (en) * 2021-11-24 2022-05-09 주식회사 엘솔루 Method of Augmenting Korean Classical Literature Corpus for Machine Translation Model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000073477A (en) * 1999-05-11 2000-12-05 정선종 Method and device of korean-to-english query translation using mutual information
KR100956413B1 (en) 2008-05-21 2010-05-06 한국과학기술정보연구원 Method and system for language-cross search
KR20130120381A (en) * 2010-06-03 2013-11-04 톰슨 라이센싱 Semantic enrichment by exploiting top-k processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000073477A (en) * 1999-05-11 2000-12-05 정선종 Method and device of korean-to-english query translation using mutual information
KR100385863B1 (en) 1999-05-11 2003-06-02 한국전자통신연구원 Method and device of korean-to-english query translation using mutual information
KR100956413B1 (en) 2008-05-21 2010-05-06 한국과학기술정보연구원 Method and system for language-cross search
KR20130120381A (en) * 2010-06-03 2013-11-04 톰슨 라이센싱 Semantic enrichment by exploiting top-k processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D.Nguyen 외, WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, 9th Workshop CLEF 2008/2009, pp.58-65, 2009. *
김성호, 위키피디아에 기반한 영어-한국어 간의 교차언어 정보검색에서의 질의어 번역 및 확장, 동아대 석사학위 논문, 2011.* *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897274A (en) * 2017-01-09 2017-06-27 北京众荟信息技术股份有限公司 Method is repeated in a kind of comment across languages
CN106897274B (en) * 2017-01-09 2020-07-14 北京众荟信息技术股份有限公司 Cross-language comment replying method
US10572604B2 (en) 2017-09-25 2020-02-25 Samsung Electronics Co., Ltd. Sentence generating method and apparatus
US10990765B2 (en) 2017-09-25 2021-04-27 Samsung Electronics Co., Ltd. Sentence generating method and apparatus
KR20190141891A (en) * 2018-06-15 2019-12-26 부산외국어대학교 산학협력단 Method and Apparatus for Sentence Translation based on Word Sense Disambiguation and Word Translation Knowledge
KR102395811B1 (en) * 2021-11-24 2022-05-09 주식회사 엘솔루 Method of Augmenting Korean Classical Literature Corpus for Machine Translation Model

Also Published As

Publication number Publication date
KR101616031B1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
US20070011132A1 (en) Named entity translation
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
KR20160060253A (en) Natural Language Question-Answering System and method
CN103488648A (en) Multilanguage mixed retrieval method and system
JPS6211932A (en) Information retrieving method
KR101616031B1 (en) Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus
CN111428031B (en) Graph model filtering method integrating shallow semantic information
Lardilleux et al. The contribution of low frequencies to multilingual sub-sentential alignment: a differential associative approach
Aasha et al. Machine translation from English to Malayalam using transfer approach
Nasharuddin et al. Cross-lingual information retrieval
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases
Dadashkarimi et al. A probabilistic translation method for dictionary-based cross-lingual information retrieval in agglutinative languages
Bajpai et al. Cross language information retrieval: In indian language perspective
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JP2004348514A (en) Parallel translation word extraction method, parallel translation word dictionary construction method, and translation memory construction method
Giang et al. Building Structured Query in Target Language for Vietnamese English Cross Language Information Retrieval Systems
Pishartoy et al. Extending capabilities of English to Marathi machine translator
Wang et al. Web-based pattern learning for named entity translation in Korean–Chinese cross-language information retrieval
Tohti et al. Efficient Term Extraction and Indexing Approach in Small-Scale Web Search of Uyghur Language.
Mohamed et al. Semantic relatedness based query translation disambiguation approach for cross-language web search
Simões et al. Enriching a portuguese wordnet using synonyms from a monolingual dictionary
Liu et al. A CLIR-oriented OOV translation mining method from bilingual webpages
JPH04130578A (en) Retrieving method and device for unregistered word
JP2002269085A (en) Device and method for machine translation
Liu et al. Shared Word Embedding Space Modeling Method Based on Orthogonal Projection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190409

Year of fee payment: 4