KR20200083053A

KR20200083053A - 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법 및 이를 사용한 서버

Info

Publication number: KR20200083053A
Application number: KR1020180174277A
Authority: KR
Inventors: 강일구; 노윤주; 박성진
Original assignee: (주) 스펠릭스
Priority date: 2018-12-31
Filing date: 2018-12-31
Publication date: 2020-07-08
Also published as: KR102153127B1

Abstract

본 발명은 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법 및 이를 사용한 서버에 관한 것이다. 본 발명에 따르면, (a) 입력 데이터가 입력되면, 서버는, 개체명 보완여부 판단 모듈로 하여금, 상기 입력 데이터의 상기 레코드에 포함된 상기 특정 필드의 값을 확인하여, (i) 상기 특정 필드의 값이 없거나, (ii) 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 하는 단계; (b) 상기 서버는, 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을, (i) 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈인 규칙 기반 보완 모듈, (ii) 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈인 온톨로지 기반 보완 모듈, (iii) 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 기계학습 기반 보완 모듈로 전달하도록 하되, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 하는 단계; 및 (c) 상기 서버는, 보완 개체명 결정 모듈로 하여금, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법 및 이를 사용한 서버에 관한 것이다.

Description

개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법 및 이를 사용한 서버 {METHOD FOR PROVIDING POST-PROCESSING FOR IMPROVING THE ACCURACY OF NAMED-ENTITY RECOGNITION, AND SERVER USING THE SAME}

본 발명은 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법 및 이를 사용한 서버에 관한 것으로, 더 상세하게는, (a) 입력 데이터가 입력되면, 서버는, 개체명 보완여부 판단 모듈로 하여금, 상기 입력 데이터의 상기 레코드에 포함된 상기 특정 필드의 값을 확인하여, (i) 상기 특정 필드의 값이 없거나, (ii) 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 하는 단계; (b) 상기 서버는, 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을, (i) 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈인 규칙 기반 보완 모듈, (ii) 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈인 온톨로지 기반 보완 모듈, (iii) 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 기계학습 기반 보완 모듈로 전달하도록 하되, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 하는 단계; 및 (c) 상기 서버는, 보완 개체명 결정 모듈로 하여금, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법 및 이를 사용한 서버에 관한 것이다.

"개체명 인식(Named-Entity Recognition)"이란, 미리 정의해 둔 사람, 회사, 장소, 시간, 단위 등에 해당하는 단어(즉, 개체명)를 문서에서 인식하여 추출 분류하는 기법이다. 추출된 개체명은 인명(person), 지명(location), 기관명(organization), 시간(time) 등으로 다양한 기준에 의하여 분류되며, 개체명 인식(NER)은 정보 추출을 목적으로 시작되어 자연어 처리, 정보 검색 등에 사용되고 있다.

또한, 한국공개특허 2018-0072007호에 따르면, 유사문서 추천장치를 이용하여 문서로부터 개체명을 추출하는 개체명 인식시스템 및 인식방법에 관한 내용인데, 분석대상문서와 유사문서를 비교하여 중복된 문자열을 검출하고, 중복된 문자열 중에서 개체명을 추출하는 것으로, 사용자가 실제 업무 현장에서 사용할 정도의 정확도까지는 기대에 미치지 못하는 것이 실상이었다.

이에 따라 본 발명자는, 개체명을 보다 정확하게 인식하고 추출하기 위하여, 입력 데이터에 포함된 특정 필드의 값을 확인하여, 특정 필드의 값이 없는 경우, 혹은 특정 필드의 값이 복수 개일 경우에, 다양한 보완 모듈을 통해 출력 값을 도출하고, 출력된 값에 따라 정답 후보 값을 선정하며, 최적의 정답 값을 결정하는 방법을 제안하고자 한다.

본 발명은 상술한 문제점을 해결하는 것을 목적으로 한다.

구체적으로, 본 발명은 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위하여, 규칙 기반 보완 모듈, 온톨로지 기반 보완 모듈, 기계학습 기반 보완 모듈 각각의 출력 값에 따라 보완 필요 레코드의 정답 후보 값을 선정하고, 선정된 정답 후보 값 중에서 보완 필요 레코드의 정답 값을 결정하는 것을 다른 목적으로 한다.

또한, 본 발명은 규칙 기반 보완 모듈, 온톨로지 기반 보완 모듈, 기계학습 기반 보완 모듈 각각의 가중치에 따라 정답 값이 결정되는 것으로, 보완 필요 레코드를 포함하고 있는 파일 형식, 데이터베이스 형식, 컨텐츠 종류 중 적어도 하나에 따라 가중치가 유동적으로 변경되어 정답 값을 결정하는 것을 또 다른 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법으로서, (a) 입력 데이터 - 상기 입력 데이터는 소정의 테이블을 포함하며, 상기 테이블에 포함된 레코드의 적어도 일부에 해당되는 특정 필드의 값이 비어 있거나 중복됨 - 가 입력되면, 서버는, 개체명 보완여부 판단 모듈로 하여금, 상기 입력 데이터의 상기 레코드에 포함된 상기 특정 필드의 값을 확인하여, (i) 상기 특정 필드의 값이 없거나, (ii) 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 하는 단계; (b) 상기 서버는, 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을, (i) 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈인 규칙 기반 보완 모듈, (ii) 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈인 온톨로지 기반 보완 모듈, (iii) 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 기계학습 기반 보완 모듈로 전달하도록 하되, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 하는 단계; 및 (c) 상기 서버는, 보완 개체명 결정 모듈로 하여금, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법이 제공된다.

본 발명의 다른 태양에 따르면, 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 서버로서, 각각의 모듈과 통신하는 통신부; 및 (1) 입력 데이터 - 상기 입력 데이터는 소정의 테이블을 포함하며, 상기 테이블에 포함된 레코드의 적어도 일부에 해당되는 특정 필드의 값이 비어 있거나 중복됨 - 가 입력되면, 개체명 보완여부 판단 모듈로 하여금, 상기 입력 데이터의 상기 레코드에 포함된 상기 특정 필드의 값을 확인하여, (i) 상기 특정 필드의 값이 없거나, (ii) 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 하는 프로세스; (2) 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을, (i) 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈인 규칙 기반 보완 모듈, (ii) 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈인 온톨로지 기반 보완 모듈, (iii) 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 기계학습 기반 보완 모듈로 전달하도록 하되, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 하는 프로세스; 및 (3) 보완 개체명 결정 모듈로 하여금, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 하는 프로세스를 수행하는 프로세서;를 포함하는 것을 특징으로 하는 서버가 제공된다.

본 발명에 의하면, 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위하여, 규칙 기반 보완 모듈, 온톨로지 기반 보완 모듈, 기계학습 기반 보완 모듈 각각의 출력 값에 따라 보완 필요 레코드의 정답 후보 값을 선정하고, 선정된 정답 후보 값 중에서 보완 필요 레코드의 정답 값을 결정할 수 있다.

또한, 본 발명은 규칙 기반 보완 모듈, 온톨로지 기반 보완 모듈, 기계학습 기반 보완 모듈 각각의 가중치에 따라 정답 값이 결정되는 것으로, 보완 필요 레코드를 포함하고 있는 파일 형식, 데이터베이스 형식, 컨텐츠 종류 중 적어도 하나에 따라 가중치가 유동적으로 변경되어 정답 값을 결정할 수 있다.

본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 지칭함)에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명에 따라 개체명 인식의 정확성 제고를 위한 후처리 과정을 제공하기 위한 전체 구성도를 나타내는 도면이다.
도 2는 본 발명에 따라 개체명 보완 여부 판단 모듈의 구성을 나타내는 도면이다.
도 3은 본 발명에 따라 보완 처리용 데이터 구성 모듈의 일부를 나타내는 도면이다.
도 4는 본 발명에 따라 규칙 기반 보완 모듈의 구성을 나타내는 도면이다.
도 5는 본 발명에 따라 온톨로지 기반 보완 모듈의 구성을 나타내는 도면이다.
도 6은 본 발명에 따라 기계학습 기반 보완 모듈의 구성을 나타내는 도면이다.
도 7은 본 발명에 따라 보완 개체명 결정 모듈의 구성을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따라 온톨로지 구성 방법의 예를 나타내는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 본 발명이 속하는 기술분야에서 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.

또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.

더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 본 발명 기술분야의 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명에 따라 개체명 인식의 정확성 제고를 위한 후처리 과정을 제공하기 위한 전체 구성도를 나타내는 도면이다.

도 1에서 도시되어 있는 바와 같이, 본 발명의 일 실시예에 따라 서버(100)는, 통신부(110), 프로세서(120) 및 저장부(130)를 포함할 수 있으며, 통신부(110)는 네트워크를 통해 각각의 모듈과 통신할 수 있다.

우선, 서버(100)의 통신부(110)는 다양한 통신 기술로 구현될 수 있다. 즉, 와이파이(WIFI), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), HSPA(High Speed Packet Access), 모바일 와이맥스(Mobile WiMAX), 와이브로(WiBro), LTE(Long Term Evolution), 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association), NFC(Near Field Communication), 지그비(Zigbee), 무선랜 기술 등이 적용될 수 있다. 또한, 인터넷과 연결되어 서비스를 제공하는 경우 인터넷에서 정보전송을 위한 표준 프로토콜인 TCP/IP를 따를 수 있다.

또한, 본 발명의 일 실시예에 따르면, 개체명 보완 여부 판단 모듈(200)은, 입력 데이터가 입력되면, 상기 입력데이터의 레코드에 포함된 특정 필드의 값을 확인하여, 상기 특정 필드의 값이 없거나, 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 할 수 있다.

여기서, 상기 입력 데이터는 소정의 테이블을 포함하며, 상기 테이블에 포함된 레코드의 적어도 일부에 해당되는 특정 필드의 값이 비어 있거나 중복되어 있을 수 있다.

또한, 보완 처리용 데이터 구성 모듈(300)은, 상기 보완 필요 레코드의 값을, 규칙 기반 보완 모듈(400), 온톨로지 기반 보완 모듈(500), 기계학습 기반 보완 모듈(600)로 전달하도록 하되, 상기 규칙 기반 보완 모듈(400), 상기 온톨로지 기반 보완 모듈(500), 상기 기계학습 기반 보완 모듈(600) 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 할 수 있다.

여기서, 규칙 기반 보완 모듈(400)은 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈이고, 온톨로지 기반 보완 모듈(500)은 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈이며, 기계학습 기반 보완 모듈(600)은 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 것을 특징으로 할 수 있다.

또한, 보완 개체명 결정 모듈(700)은, 상기 규칙 기반 보완 모듈(400), 상기 온톨로지 기반 보완 모듈(500), 상기 기계학습 기반 보완 모듈(600) 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 할 수 있다.

위와 같이, 상기 보완 필요 레코드의 값들이 완전히 채워지면, 이를 분석용 마트(800)로 전달하여 저장할 수 있다. 상기 분석용 마트(800)에 저장된 복수 개의 테이블은 유사도 분석, 추천 분석, 예측 분석 등 빅데이터 분석에 사용될 수 있다.

이후 도 2 내지 도 8에서 구체적으로 설명한다.

도 2는 본 발명에 따라 개체명 보완 여부 판단 모듈(200)의 구성을 나타내는 도면이다.

도 2를 참조하면, 개체명 보완 여부 판단 모듈(200)은, 입력 데이터에서 추출 개체명을 수집(210)할 수 있다. 상기 수집된 데이터의 어떤 테이블의 어떤 필드를 보완할 필요가 있는지, 상기 테이블의 식별자와 상기 보완 필요 레코드를 소정의 데이터베이스에 등록(220)하고, 상기 저장된 보완 필요 레코드의 상기 특정 필드의 값이 비어 있거나 중복되는지를 확인(230)할 수 있다.

여기서, 상기 보완 필요 레코드를 표시하기 위한 신규 필드를 생성하고, 상기 신규 필드에는 상기 보완 필요 레코드의 상기 특정 필드의 번호 정보와 상기 특정 필드의 값이 비어 있거나 중복되는지에 대한 정보를 기록하여, 상기 신규 필드가 포함된 테이블을 생성(240)할 수 있다.

위와 같이 생성된 테이블을 보완 처리용 데이터 구성 모듈(300)로 전달할 수 있다.

예를 들어, 범죄 사건 중에서 성추행 범죄의 경우를 살펴보면, 성추행 범행을 준비한 장소, 위협 도구를 구매한 장소, 피해자를 만나는 장소, 이동할 때 지나간 장소, 실제 성추행 범행이 이루어진 장소 등 다양한 장소가 성추행 범죄 사건 문서에 기록될 수 있다. 또한, 침입절도 범죄의 경우에도 범행 모의 장소, 도구 준비 장소, 실제 범행 장소 등과 같이 다양한 장소가 침입절도 범죄 사건 문서에 기록될 수 있다. 여기서, 언급된 모든 장소를 장소 값으로 추출하게 되며, 그 중 실제 범죄가 일어난 장소를 선택함에 있어서 문제가 발생하게 된다. 이와 같이, 장소를 보완할 조건 변수를 추가로 추출하도록 하고, 상기 보완 필요 레코드를 보완 필요 개체명으로 등록하는 것이다.

도 3은 본 발명에 따라 보완 처리용 데이터 구성 모듈의 일부를 나타내는 도면이다.

보완 처리용 데이터 구성 모듈(300)은, 상기 보완 필요 레코드의 값을 상기 규칙 기반 보완 모듈(400), 상기 온톨로지 기반 보완 모듈(500), 상기 기계학습 기반 보완 모듈(600) 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달할 수 있다.

구체적으로, 상기 규칙 기반 보완 모듈(400)에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 규칙기반 보완모듈에서 필요한 참조 필드들만 선택하여 구성하여 전달할 수 있다. 또한, 상기 온톨로지 기반 보안 모듈(500)에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 보완 필요 레코드를 온톨로지 형식으로 구성하여 전달할 수 있으며, 상기 기계학습 기반 보완 모듈(600)에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 보완 필요 레코드를 소정의 피처로 구성하여 전달할 수 있다.

도 3을 살펴보면, 온톨로지 형식으로 변환함에 있어서, 우선적으로 보완 필요 레코드를 분리(310)하고, 분리된 레코드를 온톨로지 형식으로 구성(320) 하는 것을 특징으로 할 수 있다.

또한, 도 8을 살펴보면, 보완 필요 레코드를 온톨로지 형식으로 구성하는 예를 확인할 수 있다.

구체적으로, 새로운 범죄 레코드가 발생하면 같은 구조의 온톨로지를 구성하는 것이다. 가령, 도 8의 왼쪽 표 <침입절도 추출 DB>와 같이 침입절도 사건의 리스트가 있다. 여기에, 침입장소, 침입구, 범행도구 등의 정보가 기록되어 있다. 이 중 특정 사건에서 침입장소가 기재되어 있지 않을 경우, 유사한 사건을 찾아서 사건 정보를 검색하고, 각 단서의 패턴 정보 등을 검색하여 가장 관련성이 높은 침입장소를 채워 넣거나, 다수의 값 중에서 가장 관련성이 높은 침입장소를 결정할 수 있다. 이는 기존의 온톨로지에서 유사도 검색을 이용하거나, 일반검색의 관련성 지수를 이용하여 상위에 검색된 결과에서 해당 필드의 값을 이용하는 방법과 유사한 것이다.

한편, 도 4는 본 발명에 따라 규칙 기반 보완 모듈의 구성을 나타내는 도면이다.

도 4를 참조하면, 규칙 기반 보완 모듈(400)은, 보완 필요 레코드의 값을 수신하여, 보완 필요 레코드의 특정 필드의 값이 없는 경우(410), 특정 필드의 제 1 필드 식별자 및 제 1 플래그를 삽입하여 전송할 수 있다. 여기서, 제 1 플래그는 특정 필드의 값이 비어 있다는 것을 나타내는 플래그이다.

한편, 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우(420), 특정 필드의 제 2 필드 식별자 및 제 2 플래그를 삽입하여 전송할 수 있다. 여기서, 제 2 프래그는 특정 필드의 값이 복수 개 있다는 것을 나타내는 플래그이다.

위와 같이, 보완 필요 레코드의 값을 확인하고, 제 1 필드 식별자 및 상기 제1 플래그의 조합이 보완 규칙 데이터베이스(460)에 존재하는지 확인하고 이에 대응되는 제1 보완규칙이 존재할 경우(430), 상기 보완 필요 레코드와 상기 제1 보완규칙을 이용하여 상기 특정 필드의 비어 있는 값을 생성(440)할 수 있다.

또한, 제 2 필드 식별자 및 상기 제2 플래그의 조합이 보완 규칙 데이터베이스(460)에 존재하는지 확인하고 이에 대응되는 제2 보완규칙이 존재할 경우(430), 상기 보완 필요 레코드와 상기 제2 보완규칙을 이용하여 상기 특정 필드의 중복되어 있는 값들 중 어느 하나를 선택(440)할 수 있다.

한편, 규칙 기반 보완 모듈(400)의 보완 규칙(450)으로, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, 상기 특정 필드에 절대값을 입력하거나, 상기 보완 필요 레코드의 상기 특정 필드 주변에 있는 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 특정 값을 입력하거나, 상기 보완 필요 레코드의 상위 또는 하위 레코드의 동일한 필드 값을 참조로 하여 상기 동일한 필드 값을 입력하거나, 상기 보완 필요 레코드의 상위 또는 하위 레코드의 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 특정 값을 입력하거나, 상기 보완 필요 레코드의 상위 레코드의 동일한 필드 값을 참조로 하여 상기 동일한 필드 값을 입력하는 것 중 적어도 하나를 수행하는 것을 특징으로 할 수 있다.

또한, 규칙 기반 보완 모듈(400)의 보완 규칙(450)으로, 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, 상기 보완 필요 레코드가 포함된 테이블의 종류 및 상기 특정 필드의 필드 식별자를 참조로 하여, 상기 특정 필드의 복수 개의 값 중 첫번째 값 또는 마지막 값을 선택하거나, 상기 특정 필드의 복수 개의 값으로 이루어진 구성 요소에 따라 특정 값을 선택하거나, 상기 보완 필요 레코드의 상기 특정 필드 주변에 있는 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 상기 특정 필드의 복수 개의 값 중 특정 값을 선택하는 것 중 적어도 하나를 수행하는 것을 특징으로 할 수 있다.

예를 들어, 보완 필요 레코드의 특정 필드의 값이 복수 개인 경우를 살펴본다. 가령, 성추행 범죄 사건의 문서에서 특정 필드의 값이 "지하철" 및 "버스"가 기록되어 있다면, 소정의 지식을 규칙으로 표현한 결과를 이용하여 "버스"가 선택될 수 있다. 여기서, "버스"가 선택된 것은 성추행 범죄 사건의 경우에서 범인이 지하철을 타고 거주지 주변을 벗어난 다음, 버스를 이용하여 범행을 저지르는 동선이 소정의 지식을 바탕으로 규칙으로 결정되었기 때문이다.

한편, 도 5는 본 발명에 따라 온톨로지 기반 보완 모듈의 구성을 나타내는 도면이다.

도 5를 참조하면, 온톨로지 기반 보완 모듈(500)은, 상기 보완 필요 레코드의 값을 수신하여, 상기 보완 필요 레코드를 상기 온톨로지 DB(560)와 비교하여 상기 가장 유사한 특정 온톨로지 부분을 검색한 검색 결과를 획득(510)하고, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, 상기 검색 결과를 참조로 하여, 상기 특정 필드의 이름과 상기 온톨로지 DB(560)에 포함된 복수의 노드의 이름을 비교하여 같을 경우 상기 온톨로지 DB(560)에 포함된 해당 노드의 값을 상기 특정 필드의 값으로 입력(530) 할 수 있다.

한편, 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, 상기 검색 결과를 참조로 하여, 상기 특정 필드의 이름과 상기 온톨로지 DB(560)에 포함된 복수의 노드의 이름을 비교하여 같을 경우 상기 온톨로지 DB(560)에 포함된 해당 노드의 값을 상기 특정 필드의 값으로 선택(540) 할 수 있다.

여기서, 상기 보완 필요 레코드의 상기 특정 필드의 값이 입력되거나 선택된 상태로 상기 소정의 테이블을 업데이트하여 온톨로지로 구성(550)할 수도 있다.

한편, 도 6은 본 발명에 따라 기계학습 기반 보완 모듈의 구성을 나타내는 도면이다.

도 6을 살펴보면, 기계학습 기반 보완 모듈(600)은, 상기 보완 필요 레코드의 값을 수신하여, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없거나 복수 개인 경우, 상기 특정 필드의 값을 온전히 가진 상기 GT 값으로 이루어진 GT 집합을 구성하여, 상기 분류 알고리즘의 파라미터를 학습한 후, 상기 보완 필요 레코드를 상기 분류 알고리즘의 학습된 파라미터를 사용(610)하여 계산된 값을 상기 특정 필드의 값으로 결정(630, 640) 할 수 있다.

예를 들어, 각종 범죄의 종류에 따라 각각의 범행 장소를 유형별로 정리하여, 범죄 단서를 추출한 레코드의 GT 집합을 구성할 수 있다. GT 집합을 이용하여 장소 유형을 분류하고, 정확도 높은 학습 모델에 입력하여, 비어 있거나 중복되어 있는 특정 필드의 값을 결정할 수 있다.

도 7은 본 발명에 따라 보완 개체명 결정 모듈의 구성을 나타내는 도면이다.

도 7을 살펴보면, 보완 개체명 결정 모듈(700)은, 상기 규칙 기반 보완 모듈(400), 상기 온톨로지 기반 보완 모듈(500), 상기 기계학습 기반 보완 모듈(600) 각각의 출력 값이 같은 경우, 상기 출력 값을 상기 보완 필요 레코드의 정답 값으로 결정 할 수 있으며, 상기 규칙 기반 보완 모듈(400), 상기 온톨로지 기반 보완 모듈(500), 상기 기계학습 기반 보완 모듈(600) 중 2개의 모듈의 출력 값이 같은 경우, 상기 2개 모듈의 출력 값을 상기 보완 필요 레코드의 정답 값으로 결정 할 수 있다.

또한, 우선순위에 따라 상기 정답 값을 결정하되, 상기 우선순위는 각각의 모듈에 가중치를 부여(730)하기 위한 것으로, 상기 가중치는 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈마다 별도로 설정될 수 있다. 또한, 상기 가중치는, 상기 보완 필요 레코드를 포함하고 있는 파일 형식, 데이터베이스 형식, 컨텐츠 종류 중 적어도 하나에 따라 결정될 수 있다.

위 실시예의 설명에 기초하여 통상의 기술자는, 본 발명이 소프트웨어 및 하드웨어의 결합을 통하여 달성되거나 하드웨어만으로 달성될 수 있다는 점을 명확하게 이해할 수 있다. 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 프로그램 제품 또는 이를 기록한 컴퓨터 판독 가능한 기록 매체로 만들어질 수 있다. 상기 컴퓨터 프로그램 제품 또는 이를 기록한 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 자료 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 프로그램 제품 또는 상기 컴퓨터 판독 가능한 기록 매체에 포함된 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 프로그램 제품에 이용되는 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 CPU나 GPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법으로서,
(a) 입력 데이터 - 상기 입력 데이터는 소정의 테이블을 포함하며, 상기 테이블에 포함된 레코드의 적어도 일부에 해당되는 특정 필드의 값이 비어 있거나 중복됨 - 가 입력되면, 서버는, 개체명 보완여부 판단 모듈로 하여금, 상기 입력 데이터의 상기 레코드에 포함된 상기 특정 필드의 값을 확인하여, (i) 상기 특정 필드의 값이 없거나, (ii) 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 하는 단계;
(b) 상기 서버는, 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을, (i) 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈인 규칙 기반 보완 모듈, (ii) 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈인 온톨로지 기반 보완 모듈, (iii) 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 기계학습 기반 보완 모듈로 전달하도록 하되, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 하는 단계; 및
(c) 상기 서버는, 보완 개체명 결정 모듈로 하여금, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (a) 단계에서,
상기 서버는, 상기 개체명 보완여부 판단 모듈로 하여금, (i) 상기 테이블의 식별자 및 상기 보완 필요 레코드를 소정의 데이터베이스에 등록하도록 지원하고, (ii) 상기 저장된 보완 필요 레코드의 상기 특정 필드의 값이 비어 있거나 중복되는지를 확인하는 것을 특징으로 하되,
상기 보완 필요 레코드를 표시하기 위한 신규 필드를 생성하고, 상기 신규 필드에는 상기 보완 필요 레코드의 상기 특정 필드의 번호 정보와 상기 특정 필드의 값이 비어 있거나 중복되는지에 대한 정보를 기록하여, 상기 신규 필드가 포함된 신규 테이블을 생성하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 서버는, 상기 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하는 것을 특징으로 하되,
상기 보완 처리용 데이터 구성 모듈은, (i) 상기 규칙 기반 보완 모듈에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 규칙기반 보완모듈에서 필요한 참조 필드들만 선택하여 구성하여 전달하고, (ii) 상기 온톨로지 기반 보안 모듈에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 보완 필요 레코드를 온톨로지 형식으로 구성하여 전달하고, (iii) 상기 기계학습 기반 보완 모듈에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 보완 필요 레코드를 피처로 구성하여 전달하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 서버는, 상기 규칙 기반 보완 모듈로 하여금, 상기 보완 필요 레코드의 값을 수신하여, (i) 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, (i-1) 상기 특정 필드의 제 1 필드 식별자 및 (i-2) 상기 특정 필드의 값이 비어 있다는 것을 나타내기 위한 제 1 플래그를 삽입하여 전송하고, (ii) 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, (ii-1) 상기 특정 필드의 제 2 필드 식별자 및 (ii-2) 상기 특정 필드의 값이 복수 개 있다는 것을 나타내기 위한 제 2 플래그를 삽입하여 전송하는 것을 특징으로 하되,
상기 제 1 필드 식별자 및 상기 제1 플래그의 조합이 보완 규칙 데이터베이스에 존재하는지 확인하고 이에 대응되는 제1 보완규칙이 존재할 경우, 상기 보완 필요 레코드와 상기 제1 보완규칙을 이용하여 상기 특정 필드의 비어 있는 값을 생성하거나,
상기 제 2 필드 식별자 및 상기 제2 플래그의 조합이 보완 규칙 데이터베이스에 존재하는지 확인하고 이에 대응되는 제2 보완규칙이 존재할 경우, 상기 보완 필요 레코드와 상기 제2 보완규칙을 이용하여 상기 특정 필드의 중복되어 있는 값들 중 어느 하나를 선택하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 규칙 기반 보완 모듈의 보완 규칙으로, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, (i) 상기 특정 필드에 절대값을 입력하거나, (ii) 상기 보완 필요 레코드의 상기 특정 필드 주변에 있는 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 특정 값을 입력하거나, (iii) 상기 보완 필요 레코드의 상위 또는 하위 레코드의 동일한 필드 값을 참조로 하여 상기 동일한 필드 값을 입력하거나, (iv) 상기 보완 필요 레코드의 상위 또는 하위 레코드의 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 특정 값을 입력하거나, (v) 상기 보완 필요 레코드의 상위 레코드의 동일한 필드 값을 참조로 하여 상기 동일한 필드 값을 입력하는 것 중 적어도 하나를 수행하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 규칙 기반 보완 모듈의 보완 규칙으로, 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, (i) 상기 보완 필요 레코드가 포함된 테이블의 종류 및 상기 특정 필드의 필드 식별자를 참조로 하여, 상기 특정 필드의 복수 개의 값 중 첫번째 값 또는 마지막 값을 선택하거나, (ii) 상기 특정 필드의 복수 개의 값으로 이루어진 구성 요소에 따라 특정 값을 선택하거나, (iii) 상기 보완 필요 레코드의 상기 특정 필드 주변에 있는 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 상기 특정 필드의 복수 개의 값 중 특정 값을 선택하는 것 중 적어도 하나를 수행하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 서버는, 상기 온톨로지 기반 보완 모듈로 하여금, 상기 보완 필요 레코드의 값을 수신하여, 상기 보완 필요 레코드를 상기 온톨로지 DB와 비교하여 상기 가장 유사한 특정 온톨로지 부분을 검색한 검색 결과를 획득하고, (i) 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, 상기 검색 결과를 참조로 하여, 상기 특정 필드의 이름과 상기 온톨로지 DB에 포함된 복수의 노드의 이름을 비교하여 같을 경우 상기 온톨로지 DB에 포함된 해당 노드의 값을 상기 특정 필드의 값으로 입력하고, (ii) 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, 상기 검색 결과를 참조로 하여, 상기 특정 필드의 이름과 상기 온톨로지 DB에 포함된 복수의 노드의 이름을 비교하여 같을 경우 상기 온톨로지 DB에 포함된 해당 노드의 값을 상기 특정 필드의 값으로 선택하고,
상기 보완 필요 레코드의 상기 특정 필드의 값이 입력되거나 선택된 상태로 상기 소정의 테이블을 업데이트하여 온톨로지로 구성하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 서버는, 상기 기계학습 기반 보완 모듈로 하여금, 상기 보완 필요 레코드의 값을 수신하여, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없거나 복수 개인 경우, 상기 특정 필드의 값을 온전히 가진 상기 GT 값으로 이루어진 GT 집합을 구성하여, 상기 분류 알고리즘의 파라미터를 학습한 후, 상기 보완 필요 레코드를 상기 분류 알고리즘의 학습된 파라미터를 사용하여 계산된 값을 상기 특정 필드의 값으로 결정하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (c) 단계에서,
(i) 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값이 같은 경우, 상기 출력 값을 상기 보완 필요 레코드의 정답 값으로 결정하고,
(ii) 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 중 2개의 모듈의 출력 값이 같은 경우, 상기 2개 모듈의 출력 값을 상기 보완 필요 레코드의 정답 값으로 결정하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (c) 단계에서,
우선순위 - 상기 우선순위는 각각의 모듈에 가중치를 부여하는 것으로, 상기 가중치는 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈마다 별도로 설정됨 - 에 따라 상기 정답 값을 결정하되, 상기 가중치는, 상기 보완 필요 레코드를 포함하고 있는 파일 형식, 데이터베이스 형식, 컨텐츠 종류 중 적어도 하나에 따라 결정되는 것을 특징으로 하는 방법.
개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 서버로서,
각각의 모듈과 통신하는 통신부; 및
(1) 입력 데이터 - 상기 입력 데이터는 소정의 테이블을 포함하며, 상기 테이블에 포함된 레코드의 적어도 일부에 해당되는 특정 필드의 값이 비어 있거나 중복됨 - 가 입력되면, 개체명 보완여부 판단 모듈로 하여금, 상기 입력 데이터의 상기 레코드에 포함된 상기 특정 필드의 값을 확인하여, (i) 상기 특정 필드의 값이 없거나, (ii) 상기 특정 필드의 값이 복수 개일 경우, 상기 특정 필드가 포함된 특정 레코드를 보완 필요 레코드로 판단하도록 하는 프로세스; (2) 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을, (i) 소정 지식을 규칙으로 표현하여 상기 특정 필드의 값을 결정하는 모듈인 규칙 기반 보완 모듈, (ii) 상기 보완 필요 레코드를 온톨로지 DB와 비교하여 가장 유사한 특정 온톨로지 부분을 검색하여 상기 특정 필드의 값을 결정하는 모듈인 온톨로지 기반 보완 모듈, (iii) 상기 보완 필요 레코드의 GT(Ground Truth) 값을 이용해 분류 알고리즘의 파라미터를 학습하고 이를 통해 상기 특정 필드의 값을 결정하는 모듈인 기계학습 기반 보완 모듈로 전달하도록 하되, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하도록 하는 프로세스; 및 (3) 보완 개체명 결정 모듈로 하여금, 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값에 따라 상기 보완 필요 레코드의 정답 후보 값을 선정하여, 소정의 조건을 참조로 하여 상기 선정된 정답 후보 값 중에서 상기 보완 필요 레코드의 정답 값을 결정하도록 하는 프로세스를 수행하는 프로세서;
를 포함하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는,
상기 (1) 프로세스에서, 상기 개체명 보완여부 판단 모듈로 하여금, (i) 상기 테이블의 식별자 및 상기 보완 필요 레코드를 소정의 데이터베이스에 등록하도록 지원하고, (ii) 상기 저장된 보완 필요 레코드의 상기 특정 필드의 값이 비어 있거나 중복되는지를 확인하는 프로세스를 수행하되,
상기 보완 필요 레코드를 표시하기 위한 신규 필드를 생성하고, 상기 신규 필드에는 상기 보완 필요 레코드의 상기 특정 필드의 번호 정보와 상기 특정 필드의 값이 비어 있거나 중복되는지에 대한 정보를 기록하여, 상기 신규 필드가 포함된 신규 테이블을 생성하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는,
상기 (2) 프로세스에서, 상기 보완 처리용 데이터 구성 모듈로 하여금, 상기 보완 필요 레코드의 값을 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각에서 요구되는 특정 형식에 따라 상기 보완 필요 레코드의 값을 변환하여 전달하는 프로세스를 수행하되,
상기 보완 처리용 데이터 구성 모듈은, (i) 상기 규칙 기반 보완 모듈에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 규칙기반 보완모듈에서 필요한 참조 필드들만 선택하여 구성하여 전달하고, (ii) 상기 온톨로지 기반 보안 모듈에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 보완 필요 레코드를 온톨로지 형식으로 구성하여 전달하고, (iii) 상기 기계학습 기반 보완 모듈에 상기 보완 필요 레코드의 값을 변환하여 전달함에 있어서, 상기 보완 필요 레코드를 피처로 구성하여 전달하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는
상기 (2) 프로세스에서, 상기 규칙 기반 보완 모듈로 하여금, 상기 보완 필요 레코드의 값을 수신하여, (i) 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, (i-1) 상기 특정 필드의 제 1 필드 식별자 및 (i-2) 상기 특정 필드의 값이 비어 있다는 것을 나타내기 위한 제 1 플래그를 삽입하여 전송하고, (ii) 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, (ii-1) 상기 특정 필드의 제 2 필드 식별자 및 (ii-2) 상기 특정 필드의 값이 복수 개 있다는 것을 나타내기 위한 제 2 플래그를 삽입하여 전송하는 프로세스를 수행하되,
상기 제 1 필드 식별자 및 상기 제1 플래그의 조합이 보완 규칙 데이터베이스에 존재하는지 확인하고 이에 대응되는 제1 보완규칙이 존재할 경우, 상기 보완 필요 레코드와 상기 제1 보완규칙을 이용하여 상기 특정 필드의 비어 있는 값을 생성하거나,
상기 제 2 필드 식별자 및 상기 제2 플래그의 조합이 보완 규칙 데이터베이스에 존재하는지 확인하고 이에 대응되는 제2 보완규칙이 존재할 경우, 상기 보완 필요 레코드와 상기 제2 보완규칙을 이용하여 상기 특정 필드의 중복되어 있는 값들 중 어느 하나를 선택하는 것을 특징으로 하는 서버.
제14항에 있어서,
상기 규칙 기반 보완 모듈의 보완 규칙으로, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, (i) 상기 특정 필드에 절대값을 입력하거나, (ii) 상기 보완 필요 레코드의 상기 특정 필드 주변에 있는 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 특정 값을 입력하거나, (iii) 상기 보완 필요 레코드의 상위 또는 하위 레코드의 동일한 필드 값을 참조로 하여 상기 동일한 필드 값을 입력하거나, (iv) 상기 보완 필요 레코드의 상위 또는 하위 레코드의 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 특정 값을 입력하거나, (v) 상기 보완 필요 레코드의 상위 레코드의 동일한 필드 값을 참조로 하여 상기 동일한 필드 값을 입력하는 것 중 적어도 하나를 수행하는 것을 특징으로 하는 서버.
제14항에 있어서,
상기 규칙 기반 보완 모듈의 보완 규칙으로, 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, (i) 상기 보완 필요 레코드가 포함된 테이블의 종류 및 상기 특정 필드의 필드 식별자를 참조로 하여, 상기 특정 필드의 복수 개의 값 중 첫번째 값 또는 마지막 값을 선택하거나, (ii) 상기 특정 필드의 복수 개의 값으로 이루어진 구성 요소에 따라 특정 값을 선택하거나, (iii) 상기 보완 필요 레코드의 상기 특정 필드 주변에 있는 적어도 한 개 이상의 소정의 필드 값의 조합 조건에 따라 상기 특정 필드의 복수 개의 값 중 특정 값을 선택하는 것 중 적어도 하나를 수행하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는
상기 (2) 프로세스에서, 상기 온톨로지 기반 보완 모듈로 하여금, 상기 보완 필요 레코드의 값을 수신하여, 상기 보완 필요 레코드를 상기 온톨로지 DB와 비교하여 상기 가장 유사한 특정 온톨로지 부분을 검색한 검색 결과를 획득하고, (i) 상기 보완 필요 레코드의 상기 특정 필드의 값이 없는 경우, 상기 검색 결과를 참조로 하여, 상기 특정 필드의 이름과 상기 온톨로지 DB에 포함된 복수의 노드의 이름을 비교하여 같을 경우 상기 온톨로지 DB에 포함된 해당 노드의 값을 상기 특정 필드의 값으로 입력하고, (ii) 상기 보완 필요 레코드의 상기 특정 필드의 값이 복수 개일 경우, 상기 검색 결과를 참조로 하여, 상기 특정 필드의 이름과 상기 온톨로지 DB에 포함된 복수의 노드의 이름을 비교하여 같을 경우 상기 온톨로지 DB에 포함된 해당 노드의 값을 상기 특정 필드의 값으로 선택하고,
상기 보완 필요 레코드의 상기 특정 필드의 값이 입력되거나 선택된 상태로 상기 소정의 테이블을 업데이트하여 온톨로지로 구성하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는
상기 (2) 프로세스에서, 상기 기계학습 기반 보완 모듈로 하여금, 상기 보완 필요 레코드의 값을 수신하여, 상기 보완 필요 레코드의 상기 특정 필드의 값이 없거나 복수 개인 경우, 상기 특정 필드의 값을 온전히 가진 상기 GT 값으로 이루어진 GT 집합을 구성하여, 상기 분류 알고리즘의 파라미터를 학습한 후, 상기 보완 필요 레코드를 상기 분류 알고리즘의 학습된 파라미터를 사용하여 계산된 값을 상기 특정 필드의 값으로 결정하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는
상기 (3) 프로세스에서,
(i) 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 각각의 출력 값이 같은 경우, 상기 출력 값을 상기 보완 필요 레코드의 정답 값으로 결정하고,
(ii) 상기 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈 중 2개의 모듈의 출력 값이 같은 경우, 상기 2개 모듈의 출력 값을 상기 보완 필요 레코드의 정답 값으로 결정하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 프로세서는
상기 (3) 프로세스에서,
우선순위 - 상기 우선순위는 각각의 모듈에 가중치를 부여하는 것으로, 상기 가중치는 규칙 기반 보완 모듈, 상기 온톨로지 기반 보완 모듈, 상기 기계학습 기반 보완 모듈마다 별도로 설정됨 - 에 따라 상기 정답 값을 결정하되, 상기 가중치는, 상기 보완 필요 레코드를 포함하고 있는 파일 형식, 데이터베이스 형식, 컨텐츠 종류 중 적어도 하나에 따라 결정되는 것을 특징으로 하는 서버.