KR20220065522A

KR20220065522A - 적대적 패러프레이즈 문장 자동 생성 시스템

Info

Publication number: KR20220065522A
Application number: KR1020200152126A
Authority: KR
Inventors: 김민호; 임준호; 김현; 김현기; 류지희; 배경만; 배용진; 이형직; 임수종; 장명길; 최미란; 허정
Original assignee: 한국전자통신연구원
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-20
Also published as: KR102648782B1

Abstract

본 발명은 적대적 패러프레이즈 문장 자동 생성 시스템에 관한 것이다.
본 발명은 자연어 문장 입력을 입력받는 단계; 상기 입력된 자연어 문장에서 적대적 패러프레이즈 가능 여부를 인식하는 단계; 적대적 패러프레이즈 가능 여부가 인식되는 지를 판단하는 단계; 상기 판단 단계에서, 적대적 패러프레이즈 가능 여부가 인식되면, 입력된 자연어 문장에서 적대적 패러프레이즈 후보 문장을 생성하는 단계; 상기 생성된 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산하는 단계; 및 상기 생성된 문장성 스코어에 따라 적대적 패러프레이즈 후보 문장의 문장성 스코어 결과에 따라 적대적 패러프레이즈 문장을 선정하는 단계를 포함한다.

Description

적대적 패러프레이즈 문장 자동 생성 시스템{Hostile paraphrase sentence automatic generation system}

본 발명은 자연어 문장 이해 기술에 관한 것으로, 더욱 상세하게는 자연어 문장에서 적대적 패러프레이즈 문장을 생성하는 적대적 패러프레이즈 문장 자동 생성 시스템에 관한 것이다.

딥러닝 인공 신경망 기술의 발전과 함께 자연어를 이해하는 기술의 급속한 발전이 이루어지고 있다.

이러한 자연어 이해를 위해서는 문장 유사도 인식 기술 중 보통의 경우 두 문장의 어휘 공유율이 높을수록 동일 의미를 가질 가능성이 높다.

일 예로, 적대적 패러프레이즈는 높은 어휘 공유율(Overlap)을 가지지만, 하기의 [표 1]에서와 같이, 동일 의미가 아닌 다른 의미를 가지도록 적대적 패러프레이즈만을 생성할 수 있다.

(문장1) 경찰청장은 아이유에게 홍보대사 임명장을 수여하였다.
(문장2) 아이유는 경찰청장에게 홍보대사 임명장을 수여하였다.

패러프레이즈 여부: X (양방향 개체 교환형 적대적 패러프레이즈)

이와 같이, 인공 신경망 모델은 자연어 처리 분야에서 이전과는 다른 높은 성능 향상을 보여주었다.

하지만, 적대적 예제 상황을 제대로 인식하지 못하는 단점이 발견됨에 따라, 최근 적대적 예제 말뭉치에 대해 학습을 수행하여 적대적 예제에 대한 견고성을 확보할 수 있다는 연구 결과가 나왔다.

그러나, 종래 양방향 개체 교환형의 적대적 패러프레이즈 예제의 경우, 두 가지 관점에서 기술의 한계점을 확인하였다. 제 1 기술의 한계점은 실제 언어 환경에는 교환형 이외의 다양한 타입의 적대적 패러프레이즈 예제가 존재한다.

그중, 적대적 패러프레이즈의 경우, 단일 개체 대체형 타입(아래 예제 참조), 반의형 타입(아래 예제 참조), 부정형 타입, 수치 값 변형 타입 등이 존재한다.

그러나 일반적으로 인공신경망 기술에서 특정 타입을 학습하기 위해서는 해당 타입의 데이터가 필요하다.

예를 들어 기계독해를 위해서는 기계독해 타입의 학습데이터가 필요하다. 하지만, 종래기술은 주로 개체 교환형 타입의 적대적 패러프레이즈만을 다루고 있다.

따라서, 종래 인공신경망 학습을 위해서는 대량의 적대적 예제 말뭉치 구축이 필요하나 사람이 직접 생성하게 되면 높은 비용 문제가 발생하는 문제점이 있다.

본 발명은 앞에서 언급한 종래기술의 한계점을 극복하기 위한 것으로, 적대적 패러프레이즈 문장을 자동으로 생성하는 방법 및 시스템을 제시하고자 한다.

특히, 종래기술에서 다루지 않은 단일 개체 대체형 타입과 반의어형 타입의 적대적 패러프레이즈 문장을 자동으로 생성할 수 있는 기술을 제시하고자 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 시스템은 입력된 자연어 문장에서 적대적 패러프레이즈 후보 문장을 생성하는 후보 문장 생성부; 상기 생성된 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산하는 문장성 스코어 계산부; 및 상기 생성된 문장성 스코어에 따라 적대적 패러프레이즈 후보 문장의 문장성 스코어 결과에 따라 적대적 패러프레이즈 문장을 선정하는 문장 선정부를 포함한다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 방법은 자연어 문장 입력을 입력받는 단계; 상기 입력된 자연어 문장에서 적대적 패러프레이즈 가능 여부를 인식하는 단계; 적대적 패러프레이즈 가능 여부가 인식되는 지를 판단하는 단계; 상기 판단 단계에서, 적대적 패러프레이즈 가능 여부가 인식되면, 입력된 자연어 문장에서 적대적 패러프레이즈 후보 문장을 생성하는 단계; 상기 생성된 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산하는 단계; 및 상기 생성된 문장성 스코어에 따라 적대적 패러프레이즈 후보 문장의 문장성 스코어 결과에 따라 적대적 패러프레이즈 문장을 선정하는 단계를 포함한다.

한편, 상기 적대적 패러프레이즈 후보 문장은 단일 개체 대체형의 적대적 패러프레이즈, 반의어형 적대적 패러프레이즈 중 하나 이상이다.

여기서, 상기 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산하는 단계는, bi-gram와 같은 언어 모델을 이용하여 계산할 수 있다.

상기 적대적 패러프레이즈 문장을 선정하는 단계는, 기설정된 임계 스코어 이하인 적대적 패러프레이즈 후보 문장을 적대적 패러프레이즈 문장으로 선정할 수 있다.

상기 적대적 패러프레이즈 문장을 선정하는 단계는, 상기 적대적 패러프레이즈 후보 문장 중 스코어가 높은 top-K 개를 최종 결과로 선정할 수 있다.

상기 적대적 패러프레이즈 문장을 선정하는 단계는, 상기 적대적 패러프레이즈 후보 문장 중 스코어가 높은 top-N 개를 선택한 후에 랜덤하게 K개를 최종 결과로 선정할 수 있다.

상기 적대적 패러프레이즈 후보 문장을 생성하는 단계는, 입력되는 자연어 문장에 개체명이 존재하는지를 판단하는 단계; 상기 판단 단계에서 입력되는 자연어 문장에 개체명이 존재하면, 개체 대체형 타입의 적대적 패러프레이즈 문장을 생성하는 단계를 포함한다.

그리고, 개체 대체형 타입의 적대적 패러프레이즈 문장을 생성하는 단계는,

대체 대상 개체명들을 선택하는 단계; 유사 의미 개체명의 선정 제거를 위해, 개체명 사이의 종속 관계 정보를 포함하는 개체명 사전을 통해 선택된 대체 대상 개체명을 선정하는 단계; 및 상기 입력 문장에서 상기 선정된 대체 대상 개체명으로 개체명을 대체하는 단계를 포함한다.

그리고, 상기 대체할 개체명을 선정할 때에는 종속관계나 유사관계의 개체명은 제외하는 것이 바람직하다.

본 발명의 일 실시예에 따르면, 적대적 패러프레이즈 문장을 단일 개체 대체형 타입과 반의어형 타입의 적대적 패러프레이즈 문장으로 생성할 수 있는 효과가 있다.

도 1은 본 발명에 따른 적대적 패러프레이즈 문장 자동 생성 시스템을 설명하기 위한 구성블록도.
도 2는 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 방법을 설명하기 위한 순서도.
도 3은 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 방법 중 반의어형의 적대적 패러프레이즈 문장 생성 방법을 설명하기 위한 순서도.
도 4는 본 발명의 일 실시예에 따른 상기 적대적 패러프레이즈 후보 문장을 생성하는 단계의 세부 단계를 설명하기 위한 순서도.
도 5는 본 발명의 일 실시예에서 개체 대체형 타입의 적대적 패러프레이즈 문장을 생성하는 단계의 세부 단계를 설명하기 위한 순서도.
도 6은 본 발명의 일 실시예에서 대체 대상 개체명을 선정하는 단계의 세부 단계를 설명하기 위한 순서도.
도 7은 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장을 선정하는 단계의 세부 단계를 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

도 1은 본 발명에 따른 적대적 패러프레이즈(다른 표현으로 바꿔쓰기 또는 의역) 문장 자동 생성 시스템을 설명하기 위한 구성블록도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 시스템은 후보 문장 생성부(100), 문장성 스코어 계산부(200) 및 문장 선정부(300)를 포함한다.

후보 문장 생성부(100)는 입력된 자연어 문장에서 적대적 패러프레이즈 후보 문장을 생성한다.

그리고 문장성 스코어 계산부(200)는 상기 생성된 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산한다.

또한 문장 선정부(300)는 상기 생성된 문장성 스코어에 따라 적대적 패러프레이즈 후보 문장의 문장성 스코어 결과에 따라 적대적 패러프레이즈 문장을 선정한다.

도 2는 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 방법을 설명하기 위한 순서도이다.

이하, 하기에서는 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 방법에 대하여 도 2를 참조하여 설명하기로 한다.

자연어 문장 입력을 입력받는다(S100).

입력된 자연어 문장에서 적대적 패러프레이즈 가능 여부를 인식한다(S200).

이후, 적대적 패러프레이즈 가능 여부가 인식되는 지를 판단한다(S300).

상기 판단 단계(S300)에서, 적대적 패러프레이즈 가능 여부가 인식되면(YES), 입력된 자연어 문장에서 적대적 패러프레이즈 후보 문장을 생성하고(S400), 적대적 패러프레이즈 가능 여부가 인식되지 않으면(YES) 종료한다.

본 실시예에서의 상기 적대적 패러프레이즈 후보 문장은 단일 개체 대체형의 적대적 패러프레이즈, 반의어형 적대적 패러프레이즈 중 하나 이상이다.

이하, 하기에서는 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장 자동 생성 방법 중 반의어형의 적대적 패러프레이즈 문장 생성 방법에 대하여 도 3을 참조하여 설명하기로 한다.

아래에서는 반의어형의 적대적 패러프레이즈 문장 생성에 대해 좀 더 상세하게 다룬다.

먼저, 입력되는 자연어 문장에서 어휘를 분리하여 추출한다(S400-b10). 본 실시예에서의 어휘 분리 추출은 중의성이 해소(Word Sense Disambiguation)된 단위인 것을 특징으로 한다.

이어서, 교체 가능한 어휘가 존재하는지 판단한다(S400-b20). 이때, 교체 가능 여부는 반의어 사전(420)을 이용하여 판단한다. 즉, 해당 어휘가 반의어 사전(420)에 존재하는 경우 교체 가능함을 의미하며, 존재하는 경우가 적대적 패러프레이즈 가능을 의미한다.

교체 가능한 각각의 어휘에 대해 반의어 어휘로 교체를 하여 후보 문장을 생성한다.

이후, 상기 생성된 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산한다(S500). 여기서, 상기 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산하는 단계(S500)는 bi-gram와 같은 언어 모델을 이용하여 계산할 수 있다. 이외의 다른 모델의 적용도 가능하다.

[수학식 1]

여기서, perplexity(PPL)는 문장성 스코어이다.

그리고 상기 bi-gram와 같은 언어 모델을 이용한 스코어는, [수학식 2]와 같이 표현될 수 있다.

[수학식 2]

이하, 하기에서는 본 발명의 일 실시예에 따른 상기 적대적 패러프레이즈 후보 문장을 생성하는 단계(S500)의 세부 단계에 대하여 도 4를 참조하여 설명하기로 한다.

먼저, 입력되는 자연어 문장에 개체명이 존재하는지를 판단한다(S310).

상기 판단 단계(S310)에서 입력되는 자연어 문장에 개체명이 존재하면(YES), 개체 대체형 타입의 적대적 패러프레이즈 문장을 생성한다(S410).

이하, 하기에서는 개체 대체형 타입의 적대적 패러프레이즈 문장을 생성하는 단계(S410)에 대하여 도 5를 참조하여 설명하기로 한다.

대체 대상 개체명들을 선택한다(S411).

유사 의미 개체명의 선정 제거를 위해, 개체명 사이의 종속 관계 정보를 포함하는 개체명 사전(410)을 통해 선택된 대체 대상 개체명을 선정한다(S412).

상기 입력 문장에서 상기 선정된 대체 대상 개체명으로 개체명을 대체한다(S413).

상기 대체할 개체명을 선정할 때에는 종속관계나 유사관계의 개체명은 제외하는 것이 바람직하다. 본 발명의 일 실시예에서의 종속 관계는 “대전지방경찰청 > 대전서부경찰서”, 유사관계는 “도룡동경찰파출소 > 도룡동경찰지구대”와 같을 수 있다.

이하, 하기에서는 대체 대상 개체명을 대체할 개체명으로 대체한 예에 대하여 설명하기로 한다.

(입력문장) '경찰청장은 아이유에게 홍보대사 임명장을 수여하였다.'

대체 대상 개체명: '경찰청장', 대체할 개체명: '질병관리청장'

(신규 생성 문장) '질병관리청장은 아이유에게 홍보대사 임명장을 수여하였다.'와 같이, 검출된 대체 대상 개체명을 변경해 가면서, 적대적 패러프레이즈 문장들을 생성할 수 있다.

유사 의미 개체명의 선정 제거를 위해, 개체명 사이의 종속 관계 정보를 포함하는 개체명 사전(410)을 통해 선택된 대체 대상 개체명을 선정한다.

상기 대체 개체명 선정 시, 종속관계 및 유사관계 정보를 이용하는 방법은 다음과 같다.

먼저, 대체 대상 개체명이 선정되면, 개체명 사전(410)을 통해 대체 개체명 후보를 다수개 선정한다. 여기서, 대체 개체명 후보는 개체명 사전(410)에서 랜덤하게 선정할 수도 있다. 단 개체명 사전(410)에서 후보 집합은 동일 카테고리 내의 개체명으로 한정할 수 있다.

동일 카테고리라 함은 “개체명:개체타입”에서 “개체타입”이 동일함을 의미한다. 예를 들어, 대체할 개체명이 “경찰청장:PS_POSITION”이면, 개체타입이 “PS_POSITION”인 개체명이 후보가 될 수 있다.

상기 유사 의미 개체명의 선정 제거를 위해, 개체명 사이의 종속 관계 정보를 포함하는 개체명 사전(410)을 통해 선택된 대체 대상 개체명을 선정하는 단계(S412)의 세부 단계에 대하여 도 6을 참조하여 설명하기로 한다.

먼저, 개체명 사전(410)으로부터 대체 개체명 후보 다수개를 선정한다(S412-b21). 여기서, 대체 개체명 후보는 개체명 사전(410)에서 랜덤하게 선정할 수 있다. 단, 개체명 사전(410)에서 후보 집합은 동일 카테고리 내의 개체명으로 한정할 수 있다. 그리고, 동일 카테고리라 함은 “개체명:개체타입”에서 “개체타입”이 동일함을 의미한다. 예를 들어, 대체할 개체명이 “경찰청장:PS_POSITION”이면, 개체타입이 “PS_POSITION”인 개체명이 후보가 될 수 있다.

이후, 인공신경망 표현(representation) 사전(430)에서 대체 대상 개체명 및 후보 개체명 각각에 대해 인공신경망 표현(representation)을 로딩한다(S412-b22). 여기서, 개체명에 대한 인공 신경망 표현은 word2vec[1]이나 Glove[2] 등과 같은 인공 신경망 학습에 의해 구축된 실수 벡터 형식을 가진다.

이어서, 앞서 로딩된 개체명 인공신경망 표현을 이용하여 대체 대상 개체명과 후보 개체명 각각에 대한 유사도를 계산한다(S412-b23). 본 실시예에서의 유사도 계산은 벡터 표현(vector representation)에 적용 가능한 방법들 중에서 선택이 가능하다. 예를 들어, 코사인 유사도, 벡터 내적(inner product) 등이 유사도 계산에 적용될 수 있다.

이후, 대체 대상 개체명과 유사도가 낮은 순으로 N개의 후보 개체명을 선정한다(S412-b24). 본 실시예에서는 적대적 패러프레이즈 생성을 위한 의미관계가 먼 개체명을 선택하기 위해서 유사도가 낮은 개체명을 선택하였다.

이후, 문장성 스코어 결과에 따라, 적대적 패러프레이즈 문장을 선정한다(S600).

이하, 하기에서는 본 발명의 일 실시예에 따른 적대적 패러프레이즈 문장을 선정하는 단계(S600)의 세부 단계에 대하여 도 7을 참조하여 설명하기로 한다.

먼저, 상기 입력되는 자연어 문장에 포함된 어휘 중에서 대체 대상 어휘를 선택한다(S421). 여기서, 대체 가능한 어휘는 동사, 형용사 명사, 부사로 한정할 수 있다. 명사는 서술성 명사로 한정할 수 있다. 서술성 명사는 '하다', '되다' 등의 어미를 붙여서 동사형으로 만들 수 있는 명사를 의미한다. 예를 들어, 강요(하다), 잠식(하다) 등이 서술성 명사에 해당된다.

이어서, 교체 가능한 후보 어휘에 대해 반의어 사전(420)으로부터 반의어를 선정한다(S422).

이후, 대체 대상 어휘를 대체할 반의어로 대체하여 새로운 적대적 패러프레이즈 문장을 생성한다(S423).

이와 같이, 상기 과정을 통해 대체 가능한 어휘들에 대해 반복하여 다수개의 적대적 패러프레이즈 문장을 생성할 수 있다.

상기 생성된 문장성 스코어에 따라 적대적 패러프레이즈 후보 문장의 문장성 스코어 결과에 따라 적대적 패러프레이즈 문장을 선정한다(S600). 여기서, 상기 적대적 패러프레이즈 문장을 선정하는 단계(S600)는, 기설정된 임계 스코어 이하인 적대적 패러프레이즈 후보 문장을 적대적 패러프레이즈 문장으로 선정한다.

한편, 상기 적대적 패러프레이즈 문장을 선정하는 단계(S600)는 상기 적대적 패러프레이즈 후보 문장 중 스코어가 높은 top-K 개를 최종 결과로 선정할 수도 있다.

그리고, 상기 적대적 패러프레이즈 문장을 선정하는 단계(S600)는 상기 적대적 패러프레이즈 후보 문장 중 스코어가 높은 top-N 개를 선택한 후에 랜덤하게 K개를 최종 결과로 선정할 수도 있다.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims

자연어 문장 입력을 입력받는 단계;
상기 입력된 자연어 문장에서 적대적 패러프레이즈 가능 여부를 인식하는 단계;
적대적 패러프레이즈 가능 여부가 인식되는 지를 판단하는 단계;
상기 판단 단계에서, 적대적 패러프레이즈 가능 여부가 인식되면,
입력된 자연어 문장에서 적대적 패러프레이즈 후보 문장을 생성하는 단계;
상기 생성된 적대적 패러프레이즈 후보 문장들에 대하여 각각의 문장성 스코어를 계산하는 단계; 및
상기 생성된 문장성 스코어에 따라 적대적 패러프레이즈 후보 문장의 문장성 스코어 결과에 따라 적대적 패러프레이즈 문장을 선정하는 단계를 포함하는 적대적 패러프레이즈 문장 자동 생성 방법.