KR101706827B1 - Apparatus and method for extracting social relation between entity - Google Patents

Apparatus and method for extracting social relation between entity Download PDF

Info

Publication number
KR101706827B1
KR101706827B1 KR1020140172915A KR20140172915A KR101706827B1 KR 101706827 B1 KR101706827 B1 KR 101706827B1 KR 1020140172915 A KR1020140172915 A KR 1020140172915A KR 20140172915 A KR20140172915 A KR 20140172915A KR 101706827 B1 KR101706827 B1 KR 101706827B1
Authority
KR
South Korea
Prior art keywords
sentence
dependent
trigram
dependency
trigrams
Prior art date
Application number
KR1020140172915A
Other languages
Korean (ko)
Other versions
KR20160067469A (en
Inventor
김학수
최맹식
송영길
이현구
Original Assignee
강원대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강원대학교산학협력단 filed Critical 강원대학교산학협력단
Priority to KR1020140172915A priority Critical patent/KR101706827B1/en
Publication of KR20160067469A publication Critical patent/KR20160067469A/en
Application granted granted Critical
Publication of KR101706827B1 publication Critical patent/KR101706827B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

개체 간 사회 관계 추출 장치 및 방법이 개시된다. 개체 간 사회 관계 추출 장치는 제1 문장 내 어절을, 지배소와 의존소로 구분하고, 상기 지배소로 구분된 어절을 중앙에 두고, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 제1 의존 트라이그램을 생성하는 프로세서와, 상기 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 연산부를 포함한다.Disclosed is an apparatus and method for extracting social relations between entities. The apparatus for extracting social relations between entities is characterized in that a first-sentence internal word is divided into a dominant locus and a dependent locus, a word locus divided into the dominant locus is located at the center, A processor for generating a trigram; comparing the first dependency trigram with a second dependency trigram generated in association with a second sentence to be compared with the first sentence; 1 and the second sentence as a sentence having a similar relationship.

Description

개체 간 사회 관계 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING SOCIAL RELATION BETWEEN ENTITY}[0001] APPARATUS AND METHOD FOR EXTRACTING SOCIAL RELATION BETWEEN ENTITY [0002]

본 발명의 실시예들은 복수의 문장 각각에 연관된 의존 트라이그램을 비교한 결과에 기초하여, 유사한 관계를 가진 문장을 선별하는 기술에 관한 것이다.Embodiments of the present invention are directed to techniques for selecting sentences having similar relationships based on a result of comparing dependent trigrams associated with each of a plurality of sentences.

최근 사회망(Social Network)에 대한 관심이 급증하면서, 사회망 분석(Social Network Analysis: SNA)에 관한 연구가 사회망 서비스(Social Network Service: SNS)의 개발과 사회 문제 분석이라는 관점에서 다양하게 진행되고 있다.Recently, as the interest in social network has increased rapidly, research on Social Network Analysis (SNA) has been variously carried out from the viewpoint of social network service (SNS) development and social problem analysis .

사회망 분석에 관한 연구는 예컨대, SNS 메시지, 웹포털(web portal) 사이트 기사로부터 수많은 문장을 획득하고, 획득한 문장으로부터 유사한 관계를 가진 문장을 선별하여, 사회적 관계 인프라를 구축할 수 있다.A study on social network analysis can construct a social relationship infrastructure by acquiring a large number of sentences from an SNS message, a web portal site article, and selecting sentences having similar relations from acquired sentences.

이때, 유사한 관계를 가지는 문장을 선별하기 위해, 문장을 트리 커널 구성에 기반하여 구조를 분석할 수 있으나, 주로 의존 문법을 사용하는 한국어로 이루어진 문장에 적용하기에는 어려움이 있다.In order to select sentences with similar relations, the structure can be analyzed based on the tree kernal structure, but it is difficult to apply the sentences to Korean sentences using dependency grammar.

본 발명은 제1 문장 내 어절을 지배소와 의존소로 구분하고, 구분된 지배소와 의존소를 이용하여 생성된 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별 함으로써, 문장 간의 구문을 효율적으로 비교하여, 문장 내 개체(예컨대, 인명, 지명, 기관명) 간의 관계 확인을 통해, 문장을 효과적으로 선별하는 것을 목적으로 한다.The present invention relates to a method and apparatus for classifying a first sentence word into a dominant locus and a dependent locus, a first dependency trigram generated by using a dominant dominant locus and a dependency locus, and a second sentence And comparing the first and second sentences as a sentence having a similar relationship according to a result of the comparison, thereby efficiently comparing the sentence-to-sentence syntax, The name of the institution, the name of the institution, and the name of the institution).

본 발명은 입력된 키워드 간의 관계확인 요청에 연동하여, 상기 키워드 각각에 대응하는 문장들 간의 관계를 표시 함으로써, 키워드와 연관된 문장들 간의 관계를 용이하게 확인할 수 있게 하는 것을 목적으로 한다.An object of the present invention is to enable a user to easily check a relationship between sentences associated with a keyword by displaying a relationship between sentences corresponding to each of the keywords, in association with a request for confirming the relationship between inputted keywords.

상기의 목적을 이루기 위한 개체 간 사회 관계 추출 장치는 제1 문장 내 어절을, 지배소와 의존소로 구분하고, 상기 지배소로 구분된 어절을 중앙에 두고, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 제1 의존 트라이그램을 생성하는 프로세서와, 상기 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 연산부를 포함한다.In order to achieve the above object, there is provided a system for extracting a social relation between entities, comprising a first sentence word classifying section for classifying the first sentence class into a dominant dominant and a dependent dominant dominant dominant dominant class, A processor for comparing the first dependency trigram and a second dependency trigram generated in association with a second sentence to be compared with the first sentence, And an operation unit for selecting the first and second sentences as sentences having a similar relationship according to the result.

상기의 목적을 이루기 위한 개체 간 사회 관계 추출 방법은 제1 문장 내 어절을, 지배소와 의존소로 구분하는 단계와, 상기 지배소로 구분된 어절을 중앙에 두고, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 제1 의존 트라이그램을 생성하는 단계와, 상기 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 단계를 포함한다.In order to achieve the above object, there is provided a method for extracting a social relation between entities, comprising the steps of: dividing a first sentence word into a dominant domain and a dependent domain; and centering the dominant domain and the dependent domain Comparing the first dependency trigram with a second dependency trigram generated in association with a second sentence to be compared with the first sentence, And selecting the first and second sentences as sentences having a similar relationship according to the comparison result.

일실시예에 따른 개체 간 사회 관계 추출 방법은, 제1 문장 내, 임의의 3개 어절을 이용하여, 제1 의존 트라이그램을 생성하는 단계와, 제2 문장 내, 임의의 3개 어절을 이용하여, 제2 의존 트라이그램을 생성하는 단계, 및 상기 제1 의존 트라이그램과, 상기 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 단계를 포함하여 구성할 수 있다.A method for extracting a social relation between entities according to an embodiment includes the steps of generating a first dependency trigram using an arbitrary three phrases in a first sentence and extracting a first dependency trigram using a third sentence in a second sentence And generating a second dependent trigram by comparing the first dependent trigram with the second dependent trigram and comparing the first and second sentences with a sentence having a similar relationship according to the comparison result, And a step of sorting the data.

본 발명의 실시예에 따르면, 제1 문장 내 어절을 지배소와 의존소로 구분하고, 구분된 지배소와 의존소를 이용하여 생성된 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별 함으로써, 문장 간의 구문을 효율적으로 비교하여, 문장 내 개체(예컨대, 인명, 지명, 기관명) 간의 관계 확인을 통해, 문장을 효과적으로 선별할 수 있다.According to an embodiment of the present invention, there is provided a method for classifying a first sentence in a first sentence by dividing a first sentence word into a dominant sentence and a dependent sentence, a first dependent sentence generated by using the dominant dominant sentence and the dependent sentence, Comparing the second dependency trigrams generated in association with the second sentence so as to efficiently compare the phrases between the sentences by selecting the first and second sentences as sentences having similar relations according to the comparison result, Through the identification of relationships between my objects (e.g., person, place name, institution name), the sentence can be effectively selected.

본 발명의 실시예에 따르면, 입력된 키워드 간의 관계확인 요청에 연동하여, 상기 키워드 각각에 대응하는 문장들 간의 관계를 표시 함으로써, 키워드와 연관된 문장들 간의 관계를 용이하게 확인할 수 있게 한다.According to the embodiment of the present invention, the relationship between the sentences associated with the keywords can be easily confirmed by displaying the relationship between the sentences corresponding to each of the keywords in association with the request for confirming the relationship between the input keywords.

도 1은 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치의 구성 일례를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치에서의 문장과 연관된 의존 트라이그램에 대한 생성 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치에서의 문장 각각과 연관된 의존 트라이그램 간의 유사도에 대한 평균 값 산출 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 방법을 나타내는 흐름도이다.
FIG. 1 is a diagram illustrating an example of a configuration of an apparatus for extracting inter-subject social relations according to an embodiment of the present invention.
2 is a diagram for explaining an example of generation of a dependency trigram associated with a sentence in an apparatus for extracting inter-subject social relations according to an embodiment of the present invention.
3 is a diagram for explaining an example of calculating an average value of similarities between dependent trigrams associated with each sentence in an apparatus for extracting inter-subject social relations according to an embodiment of the present invention.
4 is a flowchart illustrating a method of extracting a social relation between entities according to an embodiment of the present invention.

이하, 첨부된 도면들을 참조하여 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치 및 방법에 대해 상세히 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, an apparatus and method for extracting social relations among entities according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치의 구성 일례를 도시한 도면이다.FIG. 1 is a diagram illustrating an example of a configuration of an apparatus for extracting inter-subject social relations according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치(100)는 프로세서(101), 연산부(103) 및 출력부(105)를 포함할 수 있다.Referring to FIG. 1, an apparatus for extracting inter-subject social relations 100 according to an embodiment of the present invention may include a processor 101, an operation unit 103, and an output unit 105.

프로세서(101)는 예컨대, SNS(Social Network Service) 메시지, 웹포털(web portal) 사이트 기사로부터 적어도 하나의 문장을 획득할 수 있다. 이때, 문장은 예컨대, 한국어로 구성될 수 있다.The processor 101 may obtain at least one sentence from, for example, an SNS (Social Network Service) message, a web portal site article. At this time, the sentence may be composed of, for example, Korean.

프로세서(101)는 제1 문장 내 어절을, 지배소와 의존소로 구분하고, 상기 지배소로 구분된 어절을 중앙에 두고, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 제1 의존 트라이그램(dependency trigram)을 생성할 수 있다.The processor 101 divides the first sentence word into two parts, that is, a dominant part and a dependent part, places a center of the phrase divided by the dominant part, a dependency trigram can be generated.

상기 지배소와 의존소 구분시, 프로세서(101)는 상기 제1 문장을 구성하는 서술어를, 상기 지배소로 구분하고, 상기 서술어를 제외한 나머지 어절을, 상기 의존소로 구분할 수 있다. 이때, 프로세서(101)는 상기 제2 의존 트라이그램에서의 중앙에 위치하는 어절을 고려하여, 상기 제1 문장을 구성하는 어절을, 지배소로 구분할 수 있다.The processor 101 may classify a predicate constituting the first sentence into the dominant word and distinguishing the remaining words except the predicate by the dependent point. At this time, the processor 101 may classify the phrase constituting the first sentence into the dominant word, considering the centrally located word in the second dependent trigram.

다른 일례로서, 프로세서(101)는 인명, 지명 및 기관명 중 어느 하나에 속하는 개체에 관한 어절을 포함하는 제1 문장 내 어절 중에서, 상기 개체 간의 관계를 나타내는 어절을 상기 지배소로 구분할 수 있다.As another example, the processor 101 may distinguish among the first sentence in-word phrases, which include a phrase relating to an entity belonging to one of life, place name, and institution name, to a phrase indicating a relationship between the entities.

예컨대, 프로세서(101)는 n개(n은 자연수)의 어절(

Figure 112014118140015-pat00001
)로 이루어진 문장(S)에서 i번째 어절(
Figure 112014118140015-pat00002
)과 j번째 어절(
Figure 112014118140015-pat00003
)에 인명이 포함되어 있을 때, i번째 어절(
Figure 112014118140015-pat00004
)과 j번째 어절(
Figure 112014118140015-pat00005
)의 지배소인
Figure 112014118140015-pat00006
를 구분하고, 구분된 지배소를 이용하여 의존 트라이그램(
Figure 112014118140015-pat00007
)을 생성하여, [수학식 1]과 같이 나타낼 수 있다.For example, the processor 101 may include n (n is a natural number)
Figure 112014118140015-pat00001
) In the sentence (S)
Figure 112014118140015-pat00002
) And the j-th word (
Figure 112014118140015-pat00003
), The i-th word (
Figure 112014118140015-pat00004
) And the j-th word (
Figure 112014118140015-pat00005
) Dominance
Figure 112014118140015-pat00006
, And the dependent trigrams (
Figure 112014118140015-pat00007
), And can be expressed by the following equation (1).

Figure 112014118140015-pat00008
Figure 112014118140015-pat00008

여기서, 프로세서(101)는 인명을 나타내는 어절(

Figure 112014118140015-pat00009
,
Figure 112014118140015-pat00010
)과 인명을 나타내는 어절(
Figure 112014118140015-pat00011
,
Figure 112014118140015-pat00012
)의 지배소(
Figure 112014118140015-pat00013
)를 포함하여 의존 트라이그램(
Figure 112014118140015-pat00014
)를 생성할 수 있다. 또한, 프로세서(101)는 지배소(
Figure 112014118140015-pat00015
)에 직접적으로 의존하는 어절인 의존소(
Figure 112014118140015-pat00016
,
Figure 112014118140015-pat00017
)와 상기 지배소(
Figure 112014118140015-pat00018
)를 포함하여 의존 트라이그램(
Figure 112014118140015-pat00019
)을 생성할 수 있다.Here, the processor 101 reads a phrase
Figure 112014118140015-pat00009
,
Figure 112014118140015-pat00010
) And a phrase (
Figure 112014118140015-pat00011
,
Figure 112014118140015-pat00012
) Dominance (
Figure 112014118140015-pat00013
) And the dependency trigram (
Figure 112014118140015-pat00014
Can be generated. In addition, the processor 101 may be a microprocessor
Figure 112014118140015-pat00015
), Which are directly dependent on
Figure 112014118140015-pat00016
,
Figure 112014118140015-pat00017
) And the dominant locus
Figure 112014118140015-pat00018
) And the dependency trigram (
Figure 112014118140015-pat00019
Can be generated.

프로세서(101)는 예컨대, [표 1]에 나타낸 의존 트리를 갖는 A 문장('김근태 의장이 박근혜 대표의 시각을 정면으로 비판했다')에 연관하여, [표 2]에 나타낸 의존 트라이그램을 생성할 수 있다.The processor 101 generates the dependency trigram shown in Table 2, for example, in association with the A sentence having the dependency tree shown in [Table 1] (" Kim Geun-tae criticized Park Geun-hye's representative's face in front ' can do.

Figure 112014118140015-pat00020
Figure 112014118140015-pat00020

Figure 112014118140015-pat00021
Figure 112014118140015-pat00021

이때, 프로세서(101)는 인명을 나타내는 어절로서, '김근태'와 '박근혜'를 구분하고, 인명을 나타내는 어절의 지배소로서, '비판했다'를 구분하며, 구분된 어절 및 지배소를 포함하여 의존 트라이그램(

Figure 112014118140015-pat00022
)를 생성할 수 있다.At this time, the processor 101 distinguishes between 'Kim Geun-tae' and 'Park Geun-hye' as a word phrase representing a person's name, and as a dominant place of a word phrase indicating a person's name, 'criticized' Dependent trigram (
Figure 112014118140015-pat00022
Can be generated.

또한, 프로세서(101)는 지배소('비판했다')에 직접적으로 의존하는 어절인 의존소('의장이', '시각을', '정면으로')와 상기 지배소('비판했다')를 포함하여 의존 트라이그램(예컨대,

Figure 112014118140015-pat00023
,
Figure 112014118140015-pat00024
,
Figure 112014118140015-pat00025
)을 생성할 수 있다.Processor 101 may also be able to identify the dependencies ("chairperson", "vision", "front") and the dominant ("criticized") phrases that directly depend on the dominant ("criticized" (E. G., ≪ / RTI >
Figure 112014118140015-pat00023
,
Figure 112014118140015-pat00024
,
Figure 112014118140015-pat00025
Can be generated.

다른 일례로서, 프로세서(101)는 상기 제1 문장 내, 임의의 3개 어절을 이용하여, 상기 제1 의존 트라이그램으로서 조성문장을 생성할 수 있다.As another example, the processor 101 may generate a composition sentence as the first dependent trigram using any three words in the first sentence.

또한, 프로세서(101)는 상기 제1 문장과 비교 대상이 되는 제2 문장에 대해, 상기 제1 문장과 마찬가지로, 제2 의존 트라이그램을 생성할 수 있다.Further, the processor 101 may generate a second dependent trigram for the second sentence to be compared with the first sentence, like the first sentence.

연산부(103)는 상기 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별할 수 있다. 여기서, 제1 의존 트라이그램 및 제2 의존 트라이그램은 동일한 수의 어절로 구성될 수 있다. 예컨대, 제1 의존 트라이그램이 3개 어절로 구성될 경우, 제2 의존 트라이그램 또한 3개 어절로 구성될 수 있다.The operation unit 103 compares the first dependency trigram with the second dependency trigram that is generated in association with the second sentence to be compared with the first sentence, Two sentences can be selected as sentences with similar relations. Here, the first dependent trigram and the second dependent trigram may be composed of the same number of phrases. For example, when the first dependent trigram is composed of three words, the second dependent trigram can also be composed of three words.

구체적으로, 연산부(103)는 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램을 비교한 결과에 기초하여, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도에 대한 평균 값을 산출하고, SVM(Support Vector Machine)의 커널 값으로 상기 평균값을 대입하여, 상기 제1 및 제2 문장 간의 유사성을 확인할 수 있다. 이때, 상기 제1 및 제2 의존 트라이그램이 복수일 경우, 연산부(103)는 상기 제1 의존 트라이그램 별로, 상기 복수의 제2 의존 트라이그램과의 최대 유사도를 복수 개 결정하고, 상기 복수 개의 최대 유사도에 대한 평균값을, 상기 유사도에 대한 평균 값으로 산출할 수 있다.Specifically, the arithmetic unit 103 calculates an average value of the degree of similarity between the first and second dependent trigrams based on a result of comparing the first dependent trigram and the second dependent trigram , And the similarity between the first and second sentences can be confirmed by substituting the average value with the kernel value of SVM (Support Vector Machine). In this case, when there are a plurality of the first and second dependent trigrams, the operation unit 103 determines a plurality of maximum similarities with the plurality of second dependent trigrams for each of the first dependent trigrams, The average value for the maximum similarity can be calculated as an average value for the similarity.

연산부(103)는 예컨대, A 문장('김근태 의장이 박근혜 대표의 시각을 정면으로 비판했다')과 연관하여 생성된, n개(n은 자연수)의 제1 의존 트라이그램과, B 문장('강기갑 의원이 이명박 정부의 4대강 사업을 비난했다')과 연관하여 생성된, m개(m은 자연수)의 제2 의존 트라이그램을 [표 3]과 같이, 비교할 수 있다.The arithmetic unit 103 includes n first dependent trigrams (n is a natural number) generated in association with an A sentence ('Kim Geun-tae criticized Park Geun-hye's head in front'), The second dependent trigram of m (m is a natural number) generated in connection with the 'Four Rivers Project of Lee Myung-bak Government' is compared as shown in [Table 3].

Figure 112014118140015-pat00026
Figure 112014118140015-pat00026

연산부(103)는 상기 비교 결과에 기초하여, 상기 제1, 2 의존 트라이그램 간의 유사도에 대한 평균 값을 산출할 수 있으며, 커널 함수로서, [수학식 2]와 같이 나타낼 수 있다.The operation unit 103 can calculate an average value of the similarities between the first and second dependent trigrams based on the comparison result, and can be expressed as a kernel function as shown in the following equation (2).

Figure 112014118140015-pat00027
Figure 112014118140015-pat00027

여기서,

Figure 112014118140015-pat00028
는 A 문장의 i번째 제1 의존 트라이그램을 의미하고,
Figure 112014118140015-pat00029
는 B 문장의 j번째 제2 의존 트라이그램을 의미한다. 또한,
Figure 112014118140015-pat00030
Figure 112014118140015-pat00031
Figure 112014118140015-pat00032
의 유사도를 의미한다.here,
Figure 112014118140015-pat00028
Denotes the i-th first dependency trigram of the A sentence,
Figure 112014118140015-pat00029
Denotes the jth second dependent trigram of the B sentence. Also,
Figure 112014118140015-pat00030
The
Figure 112014118140015-pat00031
Wow
Figure 112014118140015-pat00032
.

즉, 연산부(103)는 A 문장과 B 문장에 각각 연관된 복수의 제1 의존 트라이그램과 제2 의존 트라이그램 사이의 최대 유사도에 대한 평균 값을 산출할 수 있다.That is, the operation unit 103 may calculate an average value of the maximum similarities between the plurality of first dependent trigrams and the second dependent trigrams respectively associated with the A and B statements.

또한, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도 산출시, 연산부(103)는 상기 제1 의존 트라이그램 및 상기 제2 의존 트라이그램 간의 공통 속성값에 대한 가중치를 고려하여, 유사도를 계산할 수 있다.In calculating the degree of similarity between the first and second dependent trigrams, the operation unit 103 may take into account the weights of the common attribute values between the first and second dependent trigrams, Can be calculated.

예컨대, 연산부(103)는 A, B 문장과 연관된 제1, 2 의존 트라이그램 간의 유사도(

Figure 112014118140015-pat00033
) 산출시,
Figure 112014118140015-pat00034
Figure 112014118140015-pat00035
의 공통 속성값에 대한 가중치 합을 통해, [수학식 3]과 같이 유사도를 산출할 수 있다.For example, the arithmetic unit 103 calculates the similarity between the first and second dependent trigrams associated with the A, B sentences
Figure 112014118140015-pat00033
) In calculating,
Figure 112014118140015-pat00034
Wow
Figure 112014118140015-pat00035
The degree of similarity can be calculated as shown in Equation (3).

Figure 112014118140015-pat00036
Figure 112014118140015-pat00036

여기서,

Figure 112014118140015-pat00037
,
Figure 112014118140015-pat00038
,
Figure 112014118140015-pat00039
는 제1 의존 트라이그램(
Figure 112014118140015-pat00040
)의 왼쪽, 가운데, 오른쪽 노드(node)를 의미한다. 또한,
Figure 112014118140015-pat00041
는 제1 의존 트라이그램의 각 노드를 구성하는
Figure 112014118140015-pat00042
개의 속성값 중에서
Figure 112014118140015-pat00043
번째 것의 가중치를 의미할 수 있다.here,
Figure 112014118140015-pat00037
,
Figure 112014118140015-pat00038
,
Figure 112014118140015-pat00039
Lt; RTI ID = 0.0 >
Figure 112014118140015-pat00040
Left, middle, and right nodes of the tree. Also,
Figure 112014118140015-pat00041
Lt; RTI ID = 0.0 > of the first dependent < / RTI >
Figure 112014118140015-pat00042
Of the attribute values of
Figure 112014118140015-pat00043
The weight of the second one.

속성 가중치는 각 속성이 가지는 엔트로피(entropy) 값을 계산하고, 속성별 비율에 따라, 1과 2 사이 값으로 정규화한 것으로, [수학식 4]와 같이 나타낼 수 있다.The attribute weight is calculated by calculating the entropy value of each attribute and normalized to a value between 1 and 2 according to the property-specific ratio, and can be expressed as [Equation 4].

Figure 112014118140015-pat00044
Figure 112014118140015-pat00044

Figure 112014118140015-pat00045
Figure 112014118140015-pat00046
Figure 112014118140015-pat00047
사이의
Figure 112014118140015-pat00048
번째 속성이 동일한지 여부에 따라 0 또는 1을 갖는 이진 함수이다. 여기서, 속성의 일례는 [표 4]와 같이 나타낼 수 있다.
Figure 112014118140015-pat00045
The
Figure 112014118140015-pat00046
Wow
Figure 112014118140015-pat00047
Between
Figure 112014118140015-pat00048
Is a binary function having 0 or 1, depending on whether or not the second property is the same. Here, an example of the attribute can be expressed as [Table 4].

Figure 112014118140015-pat00049
Figure 112014118140015-pat00049

출력부(105)는 입력된 키워드 간의 관계확인 요청에 연동하여, 상기 키워드 각각에 대응하는 문장들 간의 관계를 표시할 수 있다. 이때, 출력부(105)는 상기 키워드 각각에 대응하는 문장들 간의 관계를 그래프로 제공할 수 있다.The output unit 105 may display the relationship between the sentences corresponding to each of the keywords in response to the request for confirming the relationship between the input keywords. At this time, the output unit 105 may provide the relationship between the sentences corresponding to each of the keywords as a graph.

도 2는 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치에서의 문장과 연관된 의존 트라이그램에 대한 생성 일례를 설명하기 위한 도면이다.2 is a diagram for explaining an example of generation of a dependency trigram associated with a sentence in an apparatus for extracting inter-subject social relations according to an embodiment of the present invention.

도 2를 참조하면, 개체 간 사회 관계 추출 장치는 문장 내 어절을, 지배소와 의존소로 구분하고, 상기 지배소로 구분된 어절을 중앙에 두며, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 의존 트라이그램을 생성할 수 있다.Referring to FIG. 2, the apparatus for extracting social relations between entities is characterized in that a word-in-sentence is divided into a dominant locus and a dependency locus, a word locus divided into the dominant locus is located at the center, To generate dependent trigrams.

예컨대, 개체 간 사회 관계 추출 장치는 '홍길동이 장태산에게 돈을 주었다'의 제1 문장(201) 내 어절을, 지배소와 의존소로 구분하고, 상기 지배소로 구분된 어절 '주었다'를 중앙에 두며, 상기 의존소로 구분된 어절 '홍길동', '장태산', '돈' 중 선택된 2개를 '주었다'의 지배소의 양단으로, 위치시켜 제1 의존 트라이그램을 생성할 수 있다. 일례로서, 개체 간 사회 관계 추출 장치는 '주었다'의 지배소를 중앙에 두고, '주었다'의 지배소를 중심으로 왼쪽에 '홍길동'의 의존소를, 오른쪽에 '장태산'의 의존소를 각각 위치시켜, '홍길동-주었다-장태산'의 제1 의존 트라이그램_#1(203)을 생성할 수 있다. 또한, 개체 간 사회 관계 추출 장치는 '주었다'의 지배소를 중앙에 두고, '주었다'의 지배소를 중심으로 왼쪽에 '홍길동'의 의존소를, 오른쪽에 '돈'의 의존소를 각각 위치시켜, '홍길동-주었다-돈'의 제1 의존 트라이그램_#2(205)을 생성할 수 있다.For example, the system for extracting social relations between entities distinguishes the words in the first sentence (201) of "Hong Gil-dong gave money to Jang Tae-san" as a dominant place and a dependent place, , And the first dependency trigram can be generated by locating the two selected words of the dependent clauses 'Hong Gil-dong', 'Jang Tae-san', and 'Don' at the ends of the 'given'. For example, the system for extracting social relations between individuals is centered on the dominance of 'gave', and the dependence of 'Hong' and 'Jang Tae' on the left and ' The first dependent trigram_ # 1 203 of 'Hong-gil-dong-jang-tae mountain' can be generated. In addition, the system for extracting social relations between entities is centered on the dominance of 'Granted', centered on the dominant place of 'Granted' and 'Dependent of Hong' To generate the first dependency trigram_ # 2 (205) of 'Hong Kil-dong-don-don'.

또한, 개체 간 사회 관계 추출 장치는 '장태산이 홍길동의 돈을 받았다'의 제2 문장(211) 내 어절을, 지배소와 의존소로 구분하고, 상기 지배소로 구분된 어절 '받았다'를 중앙에 두며, 상기 의존소로 구분된 어절 '장태산', '돈', '홍길동' 중 선택된 2개를 '받았다'의 지배소의 양단으로, 위치시켜 제2 의존 트라이그램을 생성할 수 있다. 일례로서, 개체 간 사회 관계 추출 장치는 '받았다'의 지배소를 중앙에 두고, '받았다'의 지배소를 중심으로 왼쪽에 '장태산'의 의존소를, 오른쪽에 '홍길동'의 의존소를 각각 위치시켜, '장태산-받았다-홍길동'의 제2 의존 트라이그램_#1(213)을 생성할 수 있다. 또한, 개체 간 사회 관계 추출 장치는 '받았다'의 지배소를 중앙에 두고, '받았다'의 지배소를 중심으로 왼쪽에 '장태산'의 의존소를, 오른쪽에 '돈'의 의존소를 각각 위치시켜, '장태산-받았다-돈'의 제2 의존 트라이그램_#2(215)을 생성할 수 있다.In addition, the apparatus for extracting social relations between individuals distinguishes the words in the second sentence (211) of "Yang, Taeyang received the money of Hong Kil-dong" as a dominant place and a dependent place, The second dependent trigram can be generated by locating the selected two words selected from the dependent clauses 'Jang Tae San', 'Don', and 'Hong Gil Dong' at both ends of the 'received' dominance. As an example, the system for extracting social relations between individuals is centered on the dominance of 'received', and the dependence of 'Jang Tae-san' on the left and 'Hong Kil-dong' , And a second dependency trigram_ # 1 213 of 'Chang'atan-received-Hong' is generated. In addition, the system for extracting social relations between entities is centered on the dominance of 'received', with the dependence of 'Jang Tae San' on the left and the 'dependence of money' on the right , Thereby generating a second dependency trigram_ # 2 215 of 'Chang-tsan-received-money'.

도 3은 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 장치에서의 문장 각각과 연관된 의존 트라이그램 간의 유사도에 대한 평균 값 산출 일례를 설명하기 위한 도면이다.3 is a diagram for explaining an example of calculating an average value of similarities between dependent trigrams associated with each sentence in an apparatus for extracting inter-subject social relations according to an embodiment of the present invention.

도 3을 참조하면, 개체 간 사회 관계 추출 장치는 제1 문장과 연관된 제1 의존 트라이그램과, 제2 문장과 연관된 제2 의존 트라이그램을 비교하고, 상기 비교 결과에 기초하여, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도에 대한 평균 값을 산출할 수 있다. 이때, 개체 간 사회 관계 추출 장치는 상기 제1 및 제2 의존 트라이그램이 복수일 경우, 상기 제1 의존 트라이그램 별로, 상기 복수의 제2 의존 트라이그램과의 최대 유사도를 복수 개 결정하고, 상기 복수 개의 최대 유사도에 대한 평균값을, 상기 유사도에 대한 평균 값으로 산출할 수 있다.Referring to FIG. 3, the inter-subject social relation extraction device may include a first dependency trigger associated with a first sentence, a second dependency traogram associated with a second sentence, and based on the result of the comparison, The average value of the degree of similarity between the trigram and the second dependent trigram can be calculated. At this time, the inter-subject social relation extracting apparatus may determine a plurality of maximum similarities with the plurality of second dependent trigrams for each of the first dependent trigrams when the first and second dependent trigrams are plural, The average value of the plurality of maximum similarities can be calculated as an average value of the similarities.

예컨대, 개체 간 사회 관계 추출 장치는 '홍길동이 장태산에게 돈을 주었다'의 제1 문장(301)과 연관된 제1 의존 트라이그램_#1(303), 제1 의존 트라이그램_#2(305) 및 제1 의존 트라이그램_#3(307)과 '장태산이 홍길동의 돈을 받았다'의 제2 문장(311)과 연관된 제2 의존 트라이그램_#1(313) 및 제2 의존 트라이그램_#2(315)를 비교하고, 비교 대상 각각에 대한 유사도(S1-1, S1-2, S2-1, S2-2, S3-1, S3-2)의 합을 유사도의 수(6)로 나누어, 제1, 2 의존 트라이그램 간의 유사도에 대한 평균 값을 산출할 수 있다.For example, the apparatus for extracting social relations among entities includes a first reliant trigram_ # 1 303, a first relief trigram_ # 2 305, and a second relief trigraph_return 305 associated with the first sentence 301 of 'Hong Kil-dong gave money to Jang Tae-san' And the second dependent trigram_ # 1 313 and the second dependent trigram_ # 3 313 associated with the second sentence 311 of the first dependency trigram_ # 3 307 and the second relief trigram_ # 2 315 are compared and the sum of similarities (S 1-1 , S 1-2 , S 2-1 , S 2-2 , S 3-1 , S 3-2 ) And the number (6), an average value for the degree of similarity between the first and second dependent trigrams can be calculated.

또한, 다른 일례로서, 개체 간 사회 관계 추출 장치는 제1 의존 트라이그램_#1(303)과 제2 의존 트라이그램_#1(313)과의 제1 유사도(S1-1)와, 제1 의존 트라이그램_#1(303)과 제2 의존 트라이그램_#2(315)과의 제2 유사도(S1-2) 중에서 최대 유사도로서, 제1 유사도(S1-1)를 결정할 수 있다. 개체 간 사회 관계 추출 장치는 제1 의존 트라이그램_#2(305)과 제2 의존 트라이그램_#1(313)과의 제3 유사도(S2-1)와, 제1 의존 트라이그램_#2(305)과 제2 의존 트라이그램_#2(315)과의 제4 유사도(S2-2) 중에서 최대 유사도로서, 제4 유사도(S2-2)를 결정할 수 있다.Also, as another example, the inter-subject social relation extracting apparatus may be configured to extract the first degree of similarity S 1-1 between the first dependent trigram_ # 1 303 and the second dependent trigram_ # 1 313, The first degree of similarity S 1-1 can be determined as the maximum degree of similarity among the second degree of similarity S 1-2 between the first degree of similarity S 1 and the second degree of similarity S 1 -23 have. The inter-subject social relation extracting apparatus includes a third degree of similarity (S 2-1 ) between the first reliant trigram_ # 2 305 and the second relief trigram_ # 1 313, The fourth degree of similarity S 2-2 can be determined as the maximum degree of similarity among the fourth similarity degree S 2-2 between the first similarity degree 2 (305) and the second dependent trigram number # 2 (315).

개체 간 사회 관계 추출 장치는 제1 의존 트라이그램_#3(307)과 제2 의존 트라이그램_#1(313)과의 제5 유사도(S3-1)와, 제1 의존 트라이그램_#3(307)과 제2 의존 트라이그램_#2(315)과의 제6 유사도(S3-2) 중에서 최대 유사도로서, 제6 유사도(S3-2)를 결정할 수 있다.The inter-subject social relation extracting apparatus includes a fifth degree of similarity (S 3-1 ) between the first dependency trigram_ # 3 307 and the second dependency trigram_ # 1 313, The sixth degree of similarity S 3-2 can be determined as the maximum degree of similarity among the sixth degree of similarity S 3-2 between the third degree of similarity degree 3 # 307 and the second degree of similarity degree # 2 315.

개체 간 사회 관계 추출 장치는 상기 결정된 복수 개의 최대 유사도 즉, 제1 유사도(S1-1), 제4 유사도(S2-2) 및 제6 유사도(S3-2)의 합을 최대 유사도의 수(3)로 나누어, 제1, 2 의존 트라이그램 간의 유사도에 대한 평균 값으로 산출할 수 있다.The inter-subject social relation extracting apparatus extracts the determined plurality of maximum similarities, that is, the sum of the first similarity (S 1-1 ), the fourth similarity (S 2-2 ) and the sixth similarity (S 3-2 ) (3), and can be calculated as an average value of the similarities between the first and second dependent trigrams.

도 4는 본 발명의 일실시예에 따른 개체 간 사회 관계 추출 방법을 나타내는 흐름도이다.4 is a flowchart illustrating a method of extracting a social relation between entities according to an embodiment of the present invention.

도 4를 참조하면, 단계(401)에서, 개체 간 사회 관계 추출 장치는 제1 문장 및 제2 문장 내 어절을, 지배소와 의존소로 각각 구분할 수 있다.Referring to FIG. 4, in step 401, the inter-subject social relation extracting apparatus can distinguish the first sentence and the second sentence inner clause from the dominant locus and the dependent locus, respectively.

이때, 개체 간 사회 관계 추출 장치는 상기 제1 문장을 구성하는 서술어를, 상기 지배소로 구분하고, 상기 서술어를 제외한 나머지 어절을, 상기 의존소로 구분할 수 있다. 또한, 개체 간 사회 관계 추출 장치는 상기 제2 문장에 대해서도, 서술어를, 상기 지배소로 구분하고, 상기 서술어를 제외한 나머지 어절을, 상기 의존소로 구분할 수 있다.At this time, the inter-subject social relation extracting apparatus may classify the predicate constituting the first sentence into the dominant dominant language and classify the remaining dominant dominant language except the predicate into the dependent dominant language. Also, the inter-subject social relation extracting apparatus may classify the second sentence into predicates with the predicates, and distinguish the remaining phrases excluding the predicates with the dependent predicates.

또한, 개체 간 사회 관계 추출 장치는 상기 제2 의존 트라이그램에서의 중앙에 위치하는 어절을 고려하여, 상기 제1 문장을 구성하는 어절을, 지배소로 구분할 수 있다.Also, the inter-subject social relation extracting apparatus may classify the phrase constituting the first sentence into the dominant locus in consideration of the centrally located word locus in the second dependent trigram.

다른 일례로서, 개체 간 사회 관계 추출 장치는 인명, 지명 및 기관명 중 어느 하나에 속하는 개체에 관한 어절을 포함하는 제1 문장 또는 제2 문장 내 어절 중에서, 상기 개체 간의 관계를 나타내는 어절을 상기 지배소로 구분할 수 있다.As another example, the apparatus for extracting social relation between entities may include a first sentence or a second sentence including a word for a person belonging to one of life, place name and institution name, .

단계(403)에서, 개체 간 사회 관계 추출 장치는 제1 문장에 연관된 제1 의존 트라이그램 및 제2 문장에 연관된 제2 의존 트라이그램을 생성할 수 있다.At step 403, the inter-subject social relation extraction device may generate a first dependent sentence associated with the first sentence and a second dependent sentence associated with the second sentence.

이때, 개체 간 사회 관계 추출 장치는 제1 문장에서, 상기 지배소로 구분된 어절을 중앙에 두고, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 제1 의존 트라이그램을 생성할 수 있다.At this time, in the first sentence, the apparatus for extracting social relations between entities may generate a first dependent trigram by centering the phrases divided into the dominant dominant regions and locating the dominant dominant dominant phrases at both ends of the central region.

또한, 개체 간 사회 관계 추출 장치는 제2 문장에서, 상기 지배소로 구분된 어절을 중앙에 두고, 상기 중앙의 양단으로 상기 의존소로 구분된 어절을 위치시켜 제2 의존 트라이그램을 생성할 수 있다.In addition, in the second sentence, the apparatus for extracting social relations between entities may generate a second dependent trigram by centering the phrases divided into the dominant dominant regions and locating the dominant dominant dominant phrases at both ends of the central region.

단계(405)에서, 개체 간 사회 관계 추출 장치는 제1 의존 트라이그램 및 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별할 수 있다.In step 405, the inter-subject social relation extraction device compares the first dependent trigram and the second dependent trigram to select the first and second sentences as sentences having a similar relationship according to the comparison result have.

구체적으로, 개체 간 사회 관계 추출 장치는 상기 비교 결과에 기초하여, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도에 대한 평균 값을 산출하고, SVM(Support Vector Machine)의 커널 값으로 상기 평균값을 대입하여, 상기 제1 및 제2 문장 간의 유사성을 확인할 수 있다.Specifically, the inter-subject social relation extracting apparatus calculates an average value of the degree of similarity between the first and second dependent trigrams based on the comparison result, and calculates an average value of similarities between the first dependency trigram and the second dependency trigram by using a kernel value of SVM The similarity between the first and second sentences can be confirmed by substituting the average value.

이때, 상기 제1 및 제2 의존 트라이그램이 복수일 경우, 개체 간 사회 관계 추출 장치는 상기 제1 의존 트라이그램 별로, 상기 복수의 제2 의존 트라이그램과의 최대 유사도를 복수 개 결정하고, 상기 복수 개의 최대 유사도에 대한 평균값을, 상기 유사도에 대한 평균 값으로 산출할 수 있다.In this case, when there are a plurality of the first and second dependency trigrams, the inter-subject association extraction apparatus determines a plurality of maximum similarities with the plurality of second dependency trigrams for each of the first dependency trigrams, The average value of the plurality of maximum similarities can be calculated as an average value of the similarities.

또한, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도 산출시, 개체 간 사회 관계 추출 장치는 상기 제1 의존 트라이그램 및 상기 제2 의존 트라이그램 간의 공통 속성값에 대한 가중치를 고려하여, 유사도를 계산할 수 있다.In calculating the degree of similarity between the first and second dependent trigrams, the inter-subject relationship extracting apparatus may further include a weight calculation unit that takes into consideration weight values of common attribute values between the first and second dependent trigrams , The similarity degree can be calculated.

한편, 개체 간 사회 관계 추출 장치는 입력된 키워드 간의 관계확인 요청에 연동하여, 상기 키워드 각각에 대응하는 문장들 간의 관계를 표시할 수 있다. 이때, 개체 간 사회 관계 추출 장치는 상기 키워드 각각에 대응하는 문장들 간의 관계를 그래프로 제공할 수 있다.Meanwhile, the inter-subject social relation extracting apparatus can display the relationship between the sentences corresponding to each of the keywords in association with the request for confirming the relationship between the inputted keywords. At this time, the inter-subject social relation extracting apparatus can provide a graph of the relationship between the sentences corresponding to the respective keywords.

다른 실시예에서, 개체 간 사회 관계 추출 방법은, 제1 문장 내, 임의의 3개 어절을 이용하여, 제1 의존 트라이그램을 생성하는 단계와, 제2 문장 내, 임의의 3개 어절을 이용하여, 제2 의존 트라이그램을 생성하는 단계, 및 상기 제1 의존 트라이그램과, 상기 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 단계를 포함하여 구현될 수 있다.In another embodiment, a method for extracting a societal relationship between entities includes the steps of generating a first dependent trigram, using any three phrases, in a first sentence, and in a second sentence, using any three phrases And generating a second dependent trigram by comparing the first dependent trigram with the second dependent trigram and comparing the first and second sentences with a sentence having a similar relationship according to the comparison result, As shown in FIG.

본 발명의 실시예는 제1 문장 내 어절을 지배소와 의존소로 구분하고, 구분된 지배소와 의존소를 이용하여 생성된 제1 의존 트라이그램과, 상기 제1 문장과 비교 대상이 되는 제2 문장과 연관하여 생성되는 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별 함으로써, 문장 간의 구문을 효율적으로 비교하여, 문장 내 개체(예컨대, 인명, 지명, 기관명) 간의 관계 확인을 통해, 문장을 효과적으로 선별할 수 있다.The embodiment of the present invention is characterized in that a first sentence in the first sentence is divided into a dominant sentence and a dependent sentence, a first dependent sentence generated by using the dominant dominant sentence and the dependent sentence, Comparing the second dependency trigrams generated in association with the sentence so that the first and second sentences are selected as sentences having a similar relationship according to the comparison result, (Eg, person, place name, institution name), the sentence can be effectively selected.

본 발명의 실시예는 입력된 키워드 간의 관계확인 요청에 연동하여, 상기 키워드 각각에 대응하는 문장들 간의 관계를 표시 함으로써, 키워드와 연관된 문장들 간의 관계를 용이하게 확인할 수 있게 한다.The embodiment of the present invention enables the relationship between the sentences associated with the keyword to be easily confirmed by displaying the relationship between the sentences corresponding to each of the keywords in association with the request for confirming the relationship between the inputted keywords.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored in one or more computer readable storage media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 저장될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 저장되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광저장 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program instruction that may be executed through various computer means and stored in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions stored on the medium may be those specially designed and constructed for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable storage media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magneto-optical media such as floppy disks; Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

100: 개체 간 사회 관계 추출 장치 101: 프로세서
103: 연산부 105: 출력부
100: Social relationship extraction apparatus 101: Processor
103: Operation unit 105:

Claims (17)

개체 간 사회 관계 추출 장치에 의해 구현되는 개체 간 사회 관계 추출 방법에 있어서,
상기 개체 간 사회 관계 추출 장치에서, 제1 문장을 구성하는 서술어를 지배소로서 중앙에 두고, 상기 서술어를 제외한 상기 제1 문장의 어절을 의존소로서 상기 서술어의 양단에 서로 다르게 위치시켜 제1 의존 트라이그램을 생성하는 단계;
상기 개체 간 사회 관계 추출 장치에서, 제2 문장을 구성하며 상기 제1 문장의 서술어와 반대 의미의 서술어를 지배소로서, 중앙에 두고, 상기 서술어를 제외한 상기 제2 문장의 어절을 의존소로서 상기 서술어의 양단에 서로 다르게 위치시켜 제2 의존 트라이그램을 생성하되, '관형격 조사로 연결되는 두 개의 어절이 상기 서술어의 양단에 위치되는 의존 트라이그램'을, 상기 제2 의존 트라이그램에서 제외하는 단계; 및
상기 개체 간 사회 관계 추출 장치에서, 상기 제1 의존 트라이그램과, 상기 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 단계
를 포함하고,
상기 선별하는 단계는,
ⅰ)상기 제1 및 제2 의존 트라이그램이 단수일 경우, 상기 비교 결과에 기초하여, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도에 대한 평균값을 산출하는 단계; 또는
ⅱ)상기 제1 및 제2 의존 트라이그램이 복수일 경우, 상기 제1 의존 트라이그램 별로, 상기 복수의 제2 의존 트라이그램과의 최대 유사도를 복수 개 결정하고, 상기 복수 개의 최대 유사도에 대한 평균값을 산출하는 단계; 및
SVM(Support Vector Machine)의 커널 값으로 상기 평균값을 대입하여, 상기 제1 및 제2 문장 간의 유사성을 확인하는 단계
를 포함하는 개체 간 사회 관계 추출 방법.
A method for extracting a social relation between individuals, which is implemented by a device for extracting a relationship between individuals,
Wherein the predicate constituting the first sentence is placed at the center as a dominant place and the phrases of the first sentence except for the predicate are positioned at different ends of the predicate as the dependency, Generating a trigram;
Wherein said predicting means comprises a second sentence constituting a second sentence and having a predicate opposite to the predicate of said first sentence in the center as a dependency, Removing the dependent trigram from which the two dependent phrases are located at opposite ends of the descriptor to generate a second dependent trigram, with two phrases connected to the < RTI ID = 0.0 >; And
In the inter-subject social relation extraction apparatus, comparing the first dependent trigram and the second dependent trigram, and selecting the first and second sentences as a sentence having a similar relationship according to the comparison result
Lt; / RTI >
The step of selecting,
I) if the first and second dependent trigrams are singular, calculating an average value of the degree of similarity between the first dependent trigram and the second dependent trigram based on the comparison result; or
Ii) determining a plurality of maximum similarities with the plurality of second dependency trigrams for each of the first dependency trigrams when the first and second dependency trigrams are a plurality of the plurality of dependency trigrams, ; And
Checking the similarity between the first and second sentences by substituting the average value with the kernel value of the SVM (Support Vector Machine)
A method for extracting social relations among individuals.
삭제delete 제1항에 있어서,
상기 개체 간 사회 관계 추출 장치에서, 상기 제1 문장 또는 상기 제2 문장 내 어절 중에서, 인명, 지명 및 기관명 중 어느 하나에 속하는 개체 간의 관계를 나타내는 어절을 상기 지배소로 구분하는 단계
를 더 포함하는 개체 간 사회 관계 추출 방법.
The method according to claim 1,
In the inter-subject social relation extracting apparatus, a phrase indicating a relation between individuals belonging to any one of a name, a place name and an institution name among the first sentence or the second sentence in the sentence is divided into the dominant place
To extract social relations among individuals.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 평균 값을 산출하는 단계는,
상기 제1 의존 트라이그램 및 상기 제2 의존 트라이그램 간의 공통 속성값에 대한 가중치를 고려하여, 유사도를 계산하는 단계
를 더 포함하는 개체 간 사회 관계 추출 방법.
The method according to claim 1,
Wherein the calculating the average value comprises:
Calculating a degree of similarity taking into account weights for common attribute values between the first and second dependent trigrams,
To extract social relations among individuals.
제1항에 있어서,
상기 개체 간 사회 관계 추출 방법은,
상기 개체 간 사회 관계 추출 장치에서, 입력된 키워드 간의 관계확인 요청에 연동하여, 상기 키워드 각각에 대응하는 문장들 간의 관계를 표시하는 단계
를 더 포함하는 개체 간 사회 관계 추출 방법.
The method according to claim 1,
The method for extracting social relations between entities includes:
Displaying the relationship between the sentences corresponding to each of the keywords in association with the request for confirming the relationship between the input keywords,
To extract social relations among individuals.
삭제delete 제1 문장을 구성하는 서술어를 지배소로서 중앙에 두고, 상기 서술어를 제외한 상기 제1 문장의 어절을 의존소로서 상기 서술어의 양단에 서로 다르게 위치시켜 제1 의존 트라이그램을 생성하고,
제2 문장을 구성하며 상기 제1 문장의 서술어와 반대 의미의 서술어를 지배소로서, 중앙에 두고, 상기 서술어를 제외한 상기 제2 문장의 어절을 의존소로서 상기 서술어의 양단에 서로 다르게 위치시켜 제2 의존 트라이그램을 생성하되, '관형격 조사로 연결되는 두 개의 어절이 상기 서술어의 양단에 위치되는 의존 트라이그램'을, 상기 제2 의존 트라이그램에서 제외하는 프로세서; 및
상기 제1 의존 트라이그램과, 상기 제2 의존 트라이그램을 비교하여, 상기 비교 결과에 따라, 상기 제1 및 제2 문장을 유사한 관계를 가진 문장으로서 선별하는 연산부
를 포함하고,
상기 연산부는,
ⅰ)상기 제1 및 제2 의존 트라이그램이 단수일 경우, 상기 비교 결과에 기초하여, 상기 제1 의존 트라이그램과 상기 제2 의존 트라이그램 간의 유사도에 대한 평균값을 산출하거나, 또는
ⅱ)상기 제1 및 제2 의존 트라이그램이 복수일 경우, 상기 제1 의존 트라이그램 별로, 상기 복수의 제2 의존 트라이그램과의 최대 유사도를 복수 개 결정하고, 상기 복수 개의 최대 유사도에 대한 평균값을 산출하고,
SVM의 커널 값으로 상기 평균값을 대입하여, 상기 제1 및 제2 문장 간의 유사성을 확인하는
개체 간 사회 관계 추출 장치.
A predicate constituting a first sentence is centrally located as a dominant place, and a first dependency trigram is generated by locating the phrases of the first sentence except for the predicate as dependencies, at different ends of the predicate,
A second sentence constituting a second sentence and having predominantly a predicate opposite to the predicate of the first sentence in the center and placing the phrases of the second sentence except for the predicate in different positions at the ends of the predicate as dependency A second dependency trigram, wherein the second dependency trigram is a dependency trigram in which two phrases connected to the < RTI ID = 0.0 > tube < / RTI > probing are located at both ends of the predicate; And
An operation unit for comparing the first dependent trigram with the second dependent trigram and selecting the first and second sentences as sentences having a similar relationship according to the comparison result;
Lt; / RTI >
The operation unit,
I) if the first and second dependent trigrams are singular, calculating an average value of the degree of similarity between the first dependent trigram and the second dependent trigram based on the comparison result, or
Ii) determining a plurality of maximum similarities with the plurality of second dependency trigrams for each of the first dependency trigrams when the first and second dependency trigrams are a plurality of the plurality of dependency trigrams, ≪ / RTI >
The average value is substituted into the kernel value of the SVM, and the similarity between the first and second sentences is confirmed
Extraction of social relations between individuals.
삭제delete 제10항에 있어서,
상기 프로세서는,
상기 제1 문장 또는 상기 제2 문장 내 어절 중에서, 인명, 지명 및 기관명 중 어느 하나에 속하는 개체 간의 관계를 나타내는 어절을 상기 지배소로 구분하는
개체 간 사회 관계 추출 장치.
11. The method of claim 10,
The processor comprising:
A phrase indicating a relation between individuals belonging to any one of a name, a place name and an institution name among the first sentence or the second sentence in-sentence is divided into the dominant locus
Extraction of social relations between individuals.
삭제delete 삭제delete 삭제delete 제10항에 있어서,
상기 연산부는,
상기 제1 의존 트라이그램 및 상기 제2 의존 트라이그램 간의 공통 속성값에 대한 가중치를 고려하여, 유사도를 계산하는
개체 간 사회 관계 추출 장치.
11. The method of claim 10,
The operation unit,
Calculating a degree of similarity in consideration of a weight for a common attribute value between the first dependent trigram and the second dependent trigram
Extraction of social relations between individuals.
제10항에 있어서,
입력된 키워드 간의 관계확인 요청에 연동하여,
상기 키워드 각각에 대응하는 문장들 간의 관계를 표시하는 출력부
를 더 포함하는 개체 간 사회 관계 추출 장치.
11. The method of claim 10,
In conjunction with the request to confirm the relationship between the input keywords,
An output unit for displaying a relationship between sentences corresponding to each of the keywords,
A social relationship extracting apparatus for extracting a social relationship between individuals.
KR1020140172915A 2014-12-04 2014-12-04 Apparatus and method for extracting social relation between entity KR101706827B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140172915A KR101706827B1 (en) 2014-12-04 2014-12-04 Apparatus and method for extracting social relation between entity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140172915A KR101706827B1 (en) 2014-12-04 2014-12-04 Apparatus and method for extracting social relation between entity

Publications (2)

Publication Number Publication Date
KR20160067469A KR20160067469A (en) 2016-06-14
KR101706827B1 true KR101706827B1 (en) 2017-02-16

Family

ID=56191711

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140172915A KR101706827B1 (en) 2014-12-04 2014-12-04 Apparatus and method for extracting social relation between entity

Country Status (1)

Country Link
KR (1) KR101706827B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291687B (en) * 2017-04-27 2021-03-26 同济大学 Chinese unsupervised open type entity relation extraction method based on dependency semantics
CN108763195B (en) * 2018-05-02 2022-01-18 武汉烽火普天信息技术有限公司 Dependency syntax and mode rule-based non-restricted relationship mining method
CN112685549B (en) * 2021-01-08 2022-07-29 昆明理工大学 Document-related news element entity identification method and system integrating discourse semantics

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990042430A (en) * 1997-11-26 1999-06-15 정선종 Noun Phrase Extraction Apparatus Using Structural Information of Sentence and Its Method
CN101223521B (en) * 2005-07-15 2010-06-16 惠普开发有限公司 Community specific expression detecting device and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
사회관계망 자동 구축을 위한 사회 관계 인스턴스 추출, 최맹식외 1인, 정보과학회논문지 제17권 제10호, 2011.10, pp 548-552.*
사회망 자동 구축을 위한 사회 관계 포함 문장 추출, 최맹식외 1인, 한국정보과학회 2011한국컴퓨터종합학술대회 논문집 제38권 제1호(C), 2011.6, pp 217-220.

Also Published As

Publication number Publication date
KR20160067469A (en) 2016-06-14

Similar Documents

Publication Publication Date Title
WO2018157805A1 (en) Automatic questioning and answering processing method and automatic questioning and answering system
US10062032B2 (en) Question resolution processing in deep question answering systems
US9672251B1 (en) Extracting facts from documents
US9910847B2 (en) Language identification
CN106294344B (en) Video retrieval method and device
KR102021057B1 (en) Apparatus and method for extracting paragraph in document
US10528662B2 (en) Automated discovery using textual analysis
KR101481253B1 (en) Method and system for providing summery of text document using word cloud
JP2019212292A (en) Event detection method, device, equipment, and program
KR20180094664A (en) Method for information extraction from text data and apparatus therefor
CN105630763B (en) For referring to the method and system of the disambiguation in detection
US10055408B2 (en) Method of extracting an important keyword and server performing the same
KR101706827B1 (en) Apparatus and method for extracting social relation between entity
TWI640877B (en) Semantic analysis apparatus, method, and computer program product thereof
CN106372231A (en) Search method and device
KR101710010B1 (en) Document summarization method considering relative characteristics in a document set and document summarization system using thereof
CN113408280A (en) Negative example construction method, device, equipment and storage medium
Liu et al. DBpedia-based entity linking via greedy search and adjusted Monte Carlo random walk
EP2778982A1 (en) Attribute detection
US10810497B2 (en) Supporting generation of a response to an inquiry
JP5362807B2 (en) Document ranking method and apparatus
KR101983477B1 (en) Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification
US20230140938A1 (en) Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
KR20220024251A (en) Method and apparatus for building event library, electronic device, and computer-readable medium
CN113139379B (en) Information identification method and system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200203

Year of fee payment: 4