KR102636010B1

KR102636010B1 - 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템

Info

Publication number: KR102636010B1
Application number: KR1020230082630A
Authority: KR
Inventors: 김세원
Original assignee: 주식회사 웍스메이트
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-02-13

Abstract

본 발명의 실시예에 따르면 방법은, 자기소개서 및 사업장 평가 분석 방법에 있어서, 자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성하는 단계, 상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 단계, 상기 전처리된 데이터를 벡터화하는 단계, 상기 벡터화된 데이터를 군집화하는 단계, 및 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 단계를 포함하고, 상기 군집화하는 단계는, K-means 클러스터링 모델에 대하여 상기 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키는 단계, 및 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는 단계를 포함할 수 있다.

Description

자기소개서 데이터 및 사업장 평가 데이터 분석 방법, 그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템{Self-introduction data and workplace evaluation data analysis method, and self-introduction data and workplace evaluation data analysis system using the same}

본 발명은 자기소개서 데이터 및 사업장 평가 데이터 분석 방법, 그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템에 관한 것이다.

마찬가지로 최근에는 구인 및 구직이 인터넷 상에서 이루어지는 경우가 많다. 이처럼 인터넷 상에서 구인 및 구직 활동이 이루어짐에 따라, 구직자는 사업장에 대한 평가를 확인하여 구직 활동하고, 구인 중인 사업장은 구직자의 자기소개 문구를 확인하여 채용 절차를 진행할 수 있다.

하지만 구직자는 입사를 지원할 사업장을 정함에 있어서, 다수의 사업장 각각에 대한 다수의 평가를 확인해야 하기 때문에, 이를 한 눈에 확인할 수 있는 시스템에 대한 필요성이 있다.

마찬가지로 구인 중인 사업장도 인재를 채용함에 있어서, 다수의 구직자 각각에 대한 다수의 자기소개서를 확인해야 하기 때문에, 이를 한 눈에 확인할 수 있는 시스템이 필요하다.

본 발명의 목적은 상기와 같은 문제점을 해결하기 위한 것으로, 자기소개서 및 사업장 평가를 분석하는 방법 및 시스템을 제공하는 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명의 실시예에 따르면 방법은, 자기소개서 및 사업장 평가 분석 방법에 있어서, 자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성하는 단계, 상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 단계, 상기 전처리된 데이터를 벡터화하는 단계, 상기 벡터화된 데이터를 군집화하는 단계, 및 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 단계를 포함하고, 상기 군집화하는 단계는, K-means 클러스터링 모델에 대하여 상기 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키는 단계, 및 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는 단계를 포함할 수 있다.

상기 전처리하는 단계는, 상기 자기소개서 데이터로부터 문장 부호를 제거하고, 상기 자기소개서 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계, 및 상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계를 포함할 수 있다.

상기 전처리하는 단계는, 형태소 분석기에 소정의 특수 단어를 추가하고, 상기 형태소 분석기를 이용하여 상기 제2 전처리 데이터로부터 복수의 명사와 복수의 부사를 추출하는 단계, 및 상기 복수의 명사 및 상기 복수의 부사로부터 상기 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출하는 단계를 포함할 수 있다.

상기 전처리된 데이터를 벡터화하는 단계는, 상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화하는 단계를 포함할 수 있다.

상기 전처리하는 단계는, 상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계, 상기 제1 처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계, 및 상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성하는 단계를 포함할 수 있다.

상기 전처리된 데이터를 벡터화하는 단계는, 상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화하는 단계를 포함할 수 있다.

상기 군집화된 결과는 k개(k는 2 이상의 자연수)의 군집을 포함하고, 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 단계는, 상기 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성하는 단계를 포함할 수 있다.

발명의 다른 실시예에 따르면, 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템은, 관리 단말로부터 자기소개서 데이터 및 사업장 평가 데이터를 수신하는 입력부, 상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 전처리부, 상기 전처리된 데이터를 벡터화하는 벡터화부, 상기 벡터화된 데이터를 군집화하는 군집화부, 및 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 화면 생성부를 포함하고, 상기 군집화부는, K-means 클러스터링 모델에 대하여 상기 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키고, 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화한다.

상기 전처리부는, 상기 자기소개서 데이터로부터 문장 부호를 제거하고, 상기 자기소개서 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하며, 상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성할 수 있다.

상기 전처리부는, 형태소 분석기에 소정의 특수 단어를 추가하고, 상기 형태소 분석기를 이용하여 상기 제2 전처리 데이터로부터 복수의 명사와 복수의 부사를 추출하며, 상기 복수의 명사 및 상기 복수의 부사로부터 상기 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출할 수 있다.

상기 벡터화부는, 상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화할 수 있다.

상기 전처리부는, 상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하며, 상기 제1 처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하고, 상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성할 수 있다.

상기 벡터화부는, 상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화할 수 있다.

상기 군집화된 결과는 k개(k는 2 이상의 자연수)의 군집을 포함하고, 상기 화면 생성부는, 상기 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성할 수 있다.

본 발명에 따르면 복수의 자기소개서가 나타내는 데이터 또는 복수의 사업장 평가가 나타내는 데이터 중 유사한 데이터를 하나의 군집으로 군집화하여 비슷한 자기소개서 또는 사업장 평가를 한 눈에 파악할 수 있다.

본 발명에 따르면, 자기소개서가 나타내는 데이터 중 각오, 개인 정보, 경력 등 중 필요한 사항을 쉽게 파악할 수 있다.

본 발명에 따르면, 사업장 데이터가 나타내는 데이터 중 긍정적인 평가 또는 부정적인 평가, 근무 시간, 근무 현장 등 근무 환경에 대한 데이터 등을 쉽게 파악할 수 있다.

도 1은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템을 도식적으로 도시한 블록도이다.
도 2는 도 1에 도시된 제어부의 세부 구성을 도식적으로 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 방법의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 자기소개서 분석 방법의 순서도이다.
도 5는 도 4에 도시된 자기소개서 분석 방법의 결과를 나타내는 화면이다.
도 6은 본 발명의 일 실시예에 따른 사업장 평가 분석 방법의 순서도이다.
도 7은 도 6에 도시된 사업장 평가 분석 방법의 결과를 나타내는 화면이다.

본 발명은 취지를 벗어나지 않는 한도에서 다양하게 변경하여 실시할 수 있고, 하나 이상의 실시 예를 가질 수 있다. 그리고 본 발명에서 “발명을 실시하기 위한 구체적인 내용” 및 “도면” 등에 기재한 실시 예는, 본 발명을 구체적으로 설명하기 위한 예시이며, 본 발명의 권리 범위를 제한하거나 한정하는 것은 아니다.

따라서, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자가, 본 발명의 “발명을 실시하기 위한 구체적인 내용” 및 “도면” 등으로부터 용이하게 유추할 수 있는 것은, 본 발명의 범위에 속하는 것으로 해석할 수 있다.

또한, 도면에 표시한 각 구성 요소들의 크기와 형태는, 실시 예의 설명을 위해 과장되어 표현한 것 일 수 있으며, 실제로 실시되는 발명의 크기와 형태를 한정하는 것은 아니다.

본 발명의 명세서에서 사용되는 용어를 특별히 정의하지 않는 이상, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 것과 동일한 의미를 가질 수 있다.

이하, 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템을 도식적으로 도시한 블록도이다.

도 1을 참조하면 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템(1)은 분석 서버(100) 및 관리 단말(200)을 포함할 수 있다.

관리 단말(200)은 무선 통신 장치이거나 컴퓨터 단말일 수 있다. 여기서 무선 통신 장치는, 휴대성과 이동성이 보장되는 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드 헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다. 여기에서, 컴퓨터 단말은 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.

관리 단말(200)는 자기소개서 및/또는 사업장 평가를 수집하여 자기소개서 및 사업장 평가 데이터를 생성하고, 생성한 자기소개서 데이터 및 사업장 평가 데이터를 분석 서버(100)에 전송할 수 있다.

자기소개서는, 작성자의 직무적합성을 나타내는 역량, 포부, 경력, 각오 등을 기재한 문서일 수 있다. 사업장 평가는, 적어도 하나의 사업장 각각에 근무 중이거나 근무하였던 평가자가 작성한 문서일 수 있다.

관리 단말(200)은 복수의 작성자가 작성한 복수의 자기소개서 각각에 포함된 내용을 포함하는 자기소개서 데이터를 생성하고, 복수의 평가자가 작성한 복수의 사업장 평가 각각의 내용을 포함하는 사업장 평가 데이터를 생성할 수 있다.

자기소개서 데이터는 복수의 작성자 각각에 대응하는 각 행(row)에 자기소개 항목을 포함하는 행렬 데이터일 수 있다. 자기소개 항목은, 작성자를 식별할 수 있는 근로자 식별자(worker ID), 해당 작성자가 기재한 소개 글(introduction) 등일 수 있다. 각 자기소개 항목은 자기소개서 데이터가 포함하는 복수의 열(column) 중 대응하는 열에 기재될 수 있다.

사업장 평가 데이터는 복수의 평가자 각각에 대응하는 각 행에 평가 사업장 평가 항목을 포함하는 행렬 데이터일 수 있다. 사업자 평가 항목은, 평가자를 식별할 수 있는 근로자 식별자(worker ID), 사업장을 식별할 수 있는 사업장 식별자(place ID), 해당 평가자가 사업장에서 담당한 직무를 나타내는 직무 식별자(job ID), 작성자가 평가한 사업장의 평점(evaluation), 평가 내용(memo), 작성 시각 등일 수 있다. 각 사업자 평가 항목은 사업장 평가 데이터가 포함하는 복수의 열 중 대응하는 열에 기재될 수 있다.

이하에서, 설명의 편의를 위해 자기소개서 데이터 및 사업장 평가 데이터 각각은 행렬인 것으로 한다.

분석 서버(100)는 입력부(110), 제어부(120), 저장부(130), 및 출력부(140)를 포함할 수 있다.

입력부(110)는 관리 단말(200)과 유무선 통신하여 입력부(110)로부터 신호 및/또는 데이터를 송수신할 수 있다. 입력부(110)는 관리 단말(200)로부터 자기소개서 데이터 및 사업장 평가 데이터를 입력 받을 수 있다.

제어부(120)는 입력부(110), 저장부(130), 및 출력부(140)의 동작을 제어할 수 있다. 제어부(120)는 적어도 하나의 프로세서로 구현될 수 있다. 프로세서는 프로그램을 실행하고, 분석 서버(100)를 제어할 수 있다. 프로세서에 의하여 실행되는 프로그램의 코드는 저장부(130)의 메모리에 저장될 수 있다.

저장부(130)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 저장부(130)에는 분석 서버(100)가 제공하는 동작, 기능 등을 구현 및/또는 제공하기 위하여 구성요소들에 관련된 명령 또는 데이터, 하나 이상의 프로그램 및/또는 소프트웨어, 운영체제 등이 저장될 수 있다.

출력부(140)는 화면을 제공하는 표시 장치를 포함할 수 있다. 출력부(140)는 제어부(120)가 생성한 화면을 제공할 수 있다.

도 2는 도 1에 도시된 제어부의 세부 구성을 도식적으로 나타낸 블록도이다.

도 2를 참조하면, 제어부(120)는 전처리부(121), 벡터화부(122), 군집화부(123), 및 화면 생성부(124)를 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템(1)에 포함된 구성 각각은 소프트웨어 모듈이나 하드웨어 모듈 형태로 구현되거나 또는 소프트웨어 모듈과 하드웨어 모듈 이 조합된 형태, 예컨대 컴퓨터나 스마트 기기 등에서 구현될 수 있고, 각각의 구성들은 전기적으로 연결될 수 있다.

이하, 자기소개서 데이터 및 사업장 평가 데이터 분석 방법의 각 단계에 기초하여 제어부(120)의 세부 구성을 설명한다.

도 3은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 방법의 순서도이다.

도 3을 참조하면, 관리 단말(200)은 자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성할 수 있다(S101).

자기소개서 데이터 및 사업장 평가 데이터 각각은 csv 파일일 수 있다. 관리 단말(200)은 데이터 분석 패키지를 활용하여 자기소개서 데이터 및 사업장 평가 데이터를 생성할 수 있다. 예를 들어, 관리 단말(200)은 자기소개서 데이터 및 사업장 평가 데이터를 생성함에 있어서 Pandas 패키지를 활용할 수 있다.

전처리부(121)는 관리 단말(200)로부터 자기소개서 데이터 및 사업장 평가 데이터를 수집하여 전처리 할 수 있다(S102).

전처리부(121)는 자기소개서 데이터 및 사업장 평가 데이터를 전처리 함에 있어서 다양한 동작을 포함할 수 있다.

전처리부(121)는 한글 자음/모음, 특수기호, 문장 부호 등을 제거하고, 자기소개서 데이터 및 사업장 평가 데이터 각각이 나타내는 행렬 중 비어 있는 행을 제거할 수 있다. 또한 전처리부(121)는 맞춤법 검사를 수행할 수 있다.

벡터화부(122)는 전처리된 데이터를 벡터화할 수 있다(S103).

군집화부(123)는 벡터화된 데이터를 군집화(Clustering)하여 k개(k는 2 이상의 자연수)의 군집을 생성할 수 있다(S104).

군집화부(123)는 클러스터링 모델을 통해 벡터화된 데이터로부터 k개의 군집을 생성하는 방법을 학습시킬 수 있다. 예를 들어, 군집화부(123)는 K-means 클러스터링 모델로 구현될 수 있다. 군집화부(123)는 벡터화된 복수의 데이터로부터 특정한 임의의 k개의 지점을 선택하여 각 군집의 중심점으로 결정하고, 중심점에 가까운 데이터들을 중심점과 동일한 군집에 속하는 것으로 결정할 수 있다. 군집화부(123)는 데이터 간 유사도한 정도를 나타내는 유사도에 기초하여 중심점에 가까운 데이터인지를 결정할 수 있다. 따라서 하나의 군집에 속하는 데이터들은 중심점과의 유사도가 소정 수준 이상으로 유사한 데이터들일 수 있다.

화면 생성부(124)는 군집화된 결과를 나타내는 화면을 생성하고, 출력부(140)는 화면 생성부(124)가 생성한 화면을 제공할 수 있다(S105).

자기소개서 데이터에 대하여 군집화된 결과는, k1개의 군집을 포함하고, k1개의 군집 각각에 속하는 데이터는 각 대응하는 자기소개 항목을 포함할 수 있다. 사업장 평가 데이터에 대하여 군집화된 결과는, k2개의 군집을 포함하고, k2개의 군집 각각에 속하는 데이터는 각 대응하는 자기소개 항목을 포함할 수 있다. 여기서 k1 및 k2 각각은 2 이상의 자연수이다.

S101 내지 S105 단계를 통해 분석 서버(100)는 자기소개서 데이터를 분석할 수 있고, 그리고/또는 사업장 평가 데이터를 분석할 수 있다.

이하, 도 4 및 도 5를 참조하여 분석 서버(100)가 자기소개서 데이터를 분석하는 방법을 설명한다.

도 4는 본 발명의 일 실시예에 따른 자기소개서 분석 방법의 순서도이다.

도 4에 도시된 순서도는, 도 3에 도시된 순서도의 일 예시일 수 있다.

도 3 및 도 4를 참조하면, 도 3의 S102 단계는 도 4의 S201 내지 S204 단계를 포함하고, 도 3의 S103 단계는 도 4의 S205 단계를 포함하며, 도 3의 S104 단계는 도 4의 S206 단계를 포함하고, 도 3의 S105 단계는 도 4의 S207 단계를 할 수 있다.

도 4를 참조하면, 전처리부(121)는 자기소개서 데이터로부터 문장 부호를 제거할 수 있다(S201).

자기소개서 데이터는 pandas 패키지를 통해 생성된 csv 파일일 수 있다.

전처리부(121)가 문장 부호를 제거함에 있어서, 자기소개서 데이터 중 한글 자음만, 또는 모음만으로 이루어진 부분을 제거하고, 특수기호도 제거할 수 있다. 또한 전처리부(121)는 자기소개서 데이터로부터 문장 부호(한글 자음만, 또는 모음만으로 이루어진 부분, 특수기호 포함)를 제거한 결과가 나타내는 행렬 중 비어 있는 행을 제거할 수 있다.

예를 들어, 전처리부(121)는 ".", "?", "??", "ㅋㅋㅋ", "ㅣ", "ㅐ", "ㅅ" 등 만으로 이루어진 행을 제거할 수 있다.

이하, 설명의 편의를 위해 전처리부(121)가 자기소개서 데이터로부터 문장 부호 등을 제거하고, 비어 있는 행을 제거한 데이터를 제1 전처리 데이터라 한다.

전처리부(121)는 띄어쓰기 및 맞춤법을 교정할 수 있다(S202).

전처리부(121)는 자기소개서 데이터 또는 제1 전처리 데이터로부터 맞춤법 검사를 통해 띄어쓰기나 맞춤법을 교정할 수 있다. 예를 들어, 전처리부(121)는 hanspell 패키지를 활용하여 맞춤법 검사를 수행할 수 있다.

이하, 설명의 편의를 위해 전처리부(121)가 자기소개서 데이터에 대응하는 제1 전처리 데이터로부터 띄어쓰기나 맞춤법을 교정한 데이터를 제2 전처리 데이터라 한다.

전처리부(121)는 소정의 특수 단어를 형태소 분석기에 추가하여 자기소개서 데이터에 대응하는 제2 전처리 데이터가 나타내는 각 소개 글로부터 복수의 명사와 복수의 부사를 추출할 수 있다(S203).

형태소 분석기는, 구문을 형태소 단위로 분리하여 텍스트를 분석할 수 있는 모듈일 수 있다. 예를 들어, 형태소 분석기는 kiwipiepy 패키지일 수 있다.

소정의 특수 단어는, 건설 현장 등 특수 사업장에서 사용하는 하나 이상의 단어를 포함할 수 있다. 예를 들어, 소정의 특수 단어는 오함마, 철근공, 경계석, 신호수 등을 포함할 수 있다.

전처리부(121)는 형태소 분석기를 이용하여 복수의 단어를 추출할 수 있는데, 도메인에 관련된 소정의 특수 단어를 형태소 분석기에 추가하여 자기소개서와 관련된 단어가 추출될 수 있도록 할 수 있다.

자기소개서 데이터는 "열심히 하겠습니다" 등의 각오에 대한 소개 글, "대학생이고 180cm 80kg입니다" 등의 학력, 체격 등 개인 정보를 나타내는 소개 글, "현장근무 5년 경력에 근면성실한 사람입니다" 등의 경력에 대한 소개 글 등을 포함할 수 있다.

전처리부(121)가 자기소개서에 대응하는 제2 전처리 데이터로부터 추출하는 명사와 부사는, 소개 글로부터 추출할 수 있는 모든 명사와 부사일 수도 있고, 또는 "열심히", "대학생", "근면성실" 등 초기 정보로 미리 결정되어 있는 중요한 명사와 부사일 수도 있다.

전처리부(121)는 형태소 분석기를 이용하여 복수의 명사와 복수의 부사를 추출할 수 있다. 여기서 전처리부(121)가 추출하는 명사는 패기, 일, 출근, 반도체, 현장, 경력, 감사 등일 수 있고, 부사는 열심히, 성실히, 꼼꼼히 등일 수 있다.

예를 들어, 소개 글이 "젊은 패기로 열심히 일 하겠습니다"인 경우, 전처리부(121)는 "패기", "열심히", "일" 등을 추출할 수 있다.

전처리부(121)가 형태소 분석기를 이용하여 추출한 복수의 명사와 복수의 부사는 소정의 특수 단어를 포함할 수 있다.

전처리부(121)는 형태소 분석기로부터 추출된 복수의 명사와 복수의 부사 중 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출할 수 있다(S204).

복수의 대상 단어는, 형태소 분석기로부터 추출된 명사와 부사 중 서로 관련성 있는 단어들일 수 있다.

예를 들어, 전처리부(121)는 형태소 분석기로부터 추출한 "패기", "열심히", "일" 등 중 "패기" 및 "열심히"를 복수의 대상 단어로 결정할 수 있다. 복수의 대상 단어의 개수는 2개일 수 있으나, 발명이 이에 한정되지는 않는다. 예를 들어, 자기소개서 데이터의 제1 행에 대응하는 복수의 대상 단어는 "성실" 및 "꼼꼼"이고, 제2 행에 대응하는 복수의 대상 단어는 "열심" 및 "최선"일 수 있다.

이하, 설명의 편의를 위해 전처리부(121)가 자기소개서 데이터에 대응하는 제2 전처리 데이터로부터 형태소 분석기를 이용하여 복수의 대상 단어를 추출한 데이터를 제3 전처리 데이터라 한다.

도 4를 참조하면, 자기소개서 데이터에 대응하는 제1 내지 제3 전처리 데이터는, S201 내지 S204 단계를 순차적으로 수행하여 생성하는 것으로 설명하나, 실시예가 이에 한정되지 않고 S201 내지 S204 단계의 순서는 변경될 수 있다.

이하에서, 전처리 데이터는 자기소개서 데이터로부터 S201 내지 S204 단계를 모두 거친 행렬 데이터를 나타낼 수 있다.

벡터화부(122)는 자기소개서 데이터에 대응하는 전처리 데이터의 각 행에 대응하여 복수의 대상 단어를 벡터화할 수 있다(S205).

벡터화부(122)는 단어를 벡터로 변환시키는 모델로 구현될 수 있다. 예를 들어, 벡터화부(122)는 FastText 모델을 포함할 수 있다. FastText 모델은 단어를 벡터로 만드는 모델이고, 한국어에 대하여 기 학습된 모델일 수 있다. 벡터화부(122)는 자기소개서 데이터에 대응하는 전처리 데이터의 각 행 별로 복수의 대상 단어를 벡터화하여 복수의 벡터화된 데이터를 생성할 수 있다.

군집화부(123)는 자기소개서 데이터의 각 행에 대응하여 벡터화된 데이터를 클러스터링할 수 있다(S206).

군집화부(123)는 K-means 모델을 정의하고, K-means 모델이 복수의 벡터화된 데이터로부터 k개의 군집을 생성하고, k개의 군집으로 군집하도록 하는 방법을 학습시킬 수 있다.

k개의 군집 각각은, 복수의 대상 단어가 소정의 기준 단어인 군집이거나, 또는 자세한 자기소개인 군집일 수 있다. 자세한 자기소개는, 자기소개서 데이터의 각 행에 대응하는 소개 글이 나타내는 글자 수가 소정 개수 이상인 경우일 수 있으나, 자세한 자기소개를 판단하는 방식은 이에 한정되지 않는다.

또한 자기소개서 데이터의 각 행의 데이터는 하나 이상의 군집에 속할 수 있다. 예를 들어, 하나의 소개 글은 자세한 자기소개인 군집이면서, 동시에 복수의 대상 단어가 소정의 기준 단어인 군집일 수 있다.

화면 생성부(124)는 자기소개서 데이터에 대응하여 군집화된 결과를 나타내는 화면을 생성하여 출력부(140)를 통해 제공할 수 있다(S207).

화면 생성부(124)가 생성한 화면은, k개의 군집에 속하는 데이터를 k개의 색채로 표현할 수 있다. 화면 생성부(124)가 생성한 화면에서, 각 군집에 속하는 복수의 데이터는 k개의 색채 중 하나의 색으로 표현될 수 있다.

도 5는 도 4에 도시된 자기소개서 분석 방법의 결과를 나타내는 화면이다.

도 5를 참조하면, 군집화된 결과는, 제1 색(예를 들어, 주황색), 제2 색(예를 들어, 노란색), 및 제3 색(예를 들어, 녹색)으로 나타낸 소정 모양의 도형(예를 들어, 원형)으로 나타낼 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 도형들 중 하나를 선택하면, 출력부(140)는 자기소개서 데이터의 복수의 행 중 해당 도형에 대응하는 행의 소개 글을 표시할 수 있다.

또한 화면 생성부(124)가 화면에 나타내는 각 도형은 소정의 정도로 투명하게 표현될 수 있다. 따라서 하나의 데이터가 2 이상의 군집에 속하는 경우에는, 결과를 나타내는 화면에는 각 군집을 나타내는 색채의 도형이 겹쳐지도록 표현될 수 있다.

도 5의 예에서, 주황색으로 표현된 원들 각각은, 자기소개서 데이터의 복수의 행 중 "성실" 및 "꼼꼼"의 대상 단어를 포함하는 군집에 속하는 행의 데이터를 나타낼 수 있다. 주황색으로 표현된 원들의 개수는, 자기소개서 데이터의 복수의 행 중 "성실" 및 "꼼꼼"의 대상 단어를 포함하는 군집에 속하는 데이터의 개수와 동일할 수 있다.

도 5의 예에서, 노란색으로 표현된 원들 각각은, 자기소개서 데이터의 복수의 행 중 "열심", "최선" 및 "책임감"의 대상 단어를 포함하는 군집에 속하는 행의 데이터를 나타낼 수 있다. 노란색으로 표현된 원들의 개수는, 자기소개서 데이터의 복수의 행 중 "열심", "최선" 및 "책임감"의 대상 단어를 포함하는 군집에 속하는 데이터의 개수와 동일할 수 있다.

도 5의 예에서, 녹색으로 표현된 원들 각각은, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하는 행의 데이터를 나타낼 수 있다. 노란색으로 표현된 원들의 개수는, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하는 데이터의 개수와 동일할 수 있다.

도 5의 예에서, 노란색으로 표현된 원과 녹색으로 표현된 원이 겹쳐진 것은, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하면서, "열심" 및 "최선"의 대상 단어를 포함하는 군집에도 속하는 행의 데이터를 나타낼 수 있다.

도 5의 예에서, 주황색으로 표현된 원과 녹색으로 표현된 원이 겹쳐진 것은, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하면서, "성실" 및 "꼼꼼"의 대상 단어를 포함하는 군집에도 속하는 행의 데이터를 나타낼 수 있다.

도 6은 본 발명의 일 실시예에 따른 사업장 평가 분석 방법의 순서도이다.

도 6에 도시된 순서도는, 도 3에 도시된 순서도의 일 예시일 수 있다.

도 3 및 도 6를 참조하면, 도 3의 S102 단계는 도 6의 S301 내지 S303 단계를 포함하고, 도 3의 S103 단계는 도 6의 S304 단계를 포함하며, 도 3의 S104 단계는 도 6의 S305 단계를 포함하고, 도 3의 S105 단계는 도 6의 S306 단계를 포함할 수 있다.

도 6을 참조하면, 전처리부(121)는 사업장 평가 데이터로부터 문장 부호를 제거할 수 있다(S301).

사업장 평가 데이터는 pandas 패키지를 통해 생성된 csv 파일일 수 있다.

전처리부(121)가 문장 부호를 제거함에 있어서, 사업장 평가 데이터 중 한글 자음만, 또는 모음만으로 이루어진 부분을 제거할 수 있다. 또한 전처리부(121)는 사업장 평가 데이터로부터 문장 부호(한글 자음만, 또는 모음만으로 이루어진 부분, 특수기호 포함)를 제거한 결과가 나타내는 행렬 중 비어 있는 행을 제거할 수 있다.

예를 들어, 전처리부(121)는 "ㅎ", ".", "o", "ㄷㄷㄷㄷ", "ㅇㅇㅇㅇ" 등 만으로 이루어진 행을 제거할 수 있다.

이하, 설명의 편의를 위해 전처리부(121)가 사업장 평가 데이터로부터 문장 부호 등을 제거한 데이터를 제1 전처리 데이터라 한다.

전처리부(121)는 띄어쓰기 및 맞춤법을 교정할 수 있다(S302).

전처리부(121)는 사업장 평가 데이터 또는 제1 전처리 데이터로부터 맞춤법 검사를 통해 띄어쓰기나 맞춤법을 교정할 수 있다. 예를 들어, 전처리부(121)는 hanspell 패키지, pykospacing 패키지 등을 활용하여 맞춤법 검사 및 띄어쓰기 검사를 수행할 수 있다.

이하, 설명의 편의를 위해 전처리부(121)가 사업장 평가 데이터에 대응하는 제1 전처리 데이터로부터 띄어쓰기나 맞춤법을 교정한 데이터를 제2 전처리 데이터라 한다.

전처리부(121)는 사업장 평가 데이터에 제2 전처리 데이터로부터 단일 음절의 평가 데이터를 제거할 수 있다(S303).

예를 들어, 단일 음절의 평가 데이터는 "네", "넵", ".", "b" 등을 포함할 수 있다. 다만, 전처리부(121)는 단일 음절의 평가 데이터 중 긍정 또는 부정 등 평가의 의미를 내포하는 데이터(예를 들어, "굿", "굳" 등)는 제거하지 않을 수 있다.

이하, 설명의 편의를 위해 전처리부(121)가 사업장 평가 데이터에 대응하는 제2 전처리 데이터로부터 단일 음절의 평가 데이터를 제거한 데이터를 제3 전처리 데이터라 한다.

도 6을 참조하면, 사업장 평가 데이터에 대응하는 제1 내지 제3 전처리 데이터는, S301 내지 S303 단계를 순차적으로 수행하여 생성하는 것으로 설명하나, 실시예가 이에 한정되지 않는다. S301 내지 S303 단계의 순서는 변경될 수 있다.

이하에서, 전처리 데이터는 사업장 평가 데이터로부터 S301 내지 S303 단계를 모두 거친 행렬 데이터를 나타낼 수 있다.

벡터화부(122)는 사업장 평가 데이터에 대응하는 전처리 데이터의 각 행이 나타내는 문장을 벡터화할 수 있다(S304).

벡터화부(122)는 문장을 벡터로 변환시키는 모델로 구현될 수 있다. 예를 들어, 벡터화부(122)는 SBERT 모델을 포함할 수 있다. SBERT 모델은 문장 임베딩을 이용하여 문장을 벡터로 만드는 모델일 수 있다. 벡터화부(122)는 사업장 평가 데이터에 대응하는 전처리 데이터의 각 행 별로 문장을 벡터화하여 복수의 벡터화된 데이터를 생성할 수 있다.

사업자 평가 데이터에 대응하는 전처리 데이터는, 자기소개서 데이터에 대응하는 전처리 데이터와 달리 "good", "A+" 등이 영어가 많이 사용되고, "좋아요" 등의 짧은 리뷰가 많은 차이가 있기 때문에, 벡터화부(122)는 사업자 평가 데이터에 대응하여 벡터화 함에 있어 단순 명사 추출이 아닌 문장 벡터화를 수행할 수 있다.

군집화부(123)는 사업장 평가 데이터의 각 행에 대응하여 벡터화된 데이터를 클러스터링할 수 있다(S305).

군집화부(123)는 학습을 통해 사업장 평가 데이터의 군집의 개수를 나타내는 적정한 k값을 도출할 수 있다.

k개의 군집 각각은, 각 행의 문장의 길이, 각 행의 문장이 나타내는 평가의 긍정/부정, 각 행의 문장이 나타내는 구체적인 대상, 각 행 중 평점 등에 따라 구분될 수 있다.

예를 들어, k개의 군집 각각은 짧은 평가, 구체적인 평가, 긍정적인 평가, 부정적인 평가, 무난한 평가, 사업장 내에서 수행한 작업에 대한 평가, 근무 시간에 대한 평가, 근무 현장 자체에 대한 평가, 및 근무에 대한 평가자의 감정 중 적어도 하나 및 평점의 평균을 나타낼 수 있다.

짧은 평가는, 각 행의 문장의 글자수가 소정 개수 미만인 경우이고, 구체적인 평가는 각 행의 문장의 글자수가 소정 개수 이상인 경우일 수 있으나, 짧은 평가인지, 구체적인 평가인지 등을 판단하는 방식은 이에 한정되지 않는다.

또한 사업장 평가 데이터의 각 행의 데이터는 하나 이상의 군집에 속할 수 있다. 예를 들어, 하나의 평가 내용은 짧은 평가인 군집이면서, 동시에 긍정적인 평가인 군집일 수 있다.

화면 생성부(124)는 사업장 평가 데이터에 대응하여 군집화된 결과를 나타내는 화면을 생성하여 출력부(140)를 통해 제공할 수 있다(S306).

도 7은 도 6에 도시된 사업장 평가 분석 방법의 결과를 나타내는 화면이다.

도 7을 참조하면, 군집화된 결과는, 제1 색(예를 들어, 연두색), 제2 색(예를 들어, 녹색), 제3 색(예를 들어, 파란색), 제4 색(예를 들어, 노란색), 제5 색(예를 들어, 주황색) 및 제6 색(예를 들어, 빨간색)으로 나타낸 소정 모양의 도형(예를 들어, 원형)으로 나타낼 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 도형들 중 하나를 선택하면, 출력부(140)는 사업장 평가 데이터의 복수의 행 중 해당 도형에 대응하는 행의 평가 메모를 표시할 수 있다.

또한 나타내는 각 도형은 소정의 정도로 투명하게 표현될 수 있다. 따라서 하나의 데이터가 2 이상의 군집에 속하는 경우에는, 결과를 나타내는 화면에는 각 군집을 나타내는 색채의 도형이 겹쳐지도록 표현될 수 있다.

화면 생성부(124)가 화면에 나타내는 각 도형 중 하나의 색채로 표현된 도형들의 위치는 각 행의 문장이 나타내는 구체적인 대상, 또는 각 행의 문장이 나타내는 평가의 긍정/부정의 정도를 나타낼 수 있다.

예를 들어, 노란색으로 표현된 원들 중 상부의 원들은 "OO해서 좋았습니다" 등으로 근무에 대한 평가자의 감정 중 긍정적으로 평가한 이유에 대해 기술되어 있는 데이터를 나타내고, 하부의 원들은 "좋은 하루", "재밌게 근무했습니다", "오늘도 무사히" 등 근무한 하루에 대한 평가 데이터를 나타낼 수 있다.

또한 예를 들어, 빨간색으로 표현된 원들 중 상부의 원들은 부정적인 평가임과 동시에 근무에 대한 평가자의 감정 중 부정적으로 평가한 이유에 대해 기술되어 있는 데이터를 나타내고, 하부의 원들은 부정적인 평가임과 동시에 작업에 대한 평가이고, 동시에 구체적인 평가인 데이터를 나타낼 수 있다.

도 7의 예에서, 연두색으로 표현된 원들 각각은, "굿", "좋아요", "훌륭합니다" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 긍정적인 평가인 군집에 속하면서, 또한 짧은 평가인 군집에 속할 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 연두색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 연두색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.67)을 표시할 수 있다.

도 7의 예에서, 녹색으로 표현된 원들 각각은, "할만했어요", "괜찮아요", "적당" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 무난한 평가인 군집에 속하면서, 또한 짧은 평가인 군집에 속할 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 녹색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 녹색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 3.97)을 표시할 수 있다.

도 7의 예에서, 파란색으로 표현된 원들 각각은, "좋은 현장입니다", "즐거운 분위기" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 근무 현장 자체에 대한 평가인 군집에 속하면서, 또한 긍정적인 평가인 군집에 속할 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 파란색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 파란색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.74)을 표시할 수 있다.

도 7의 예에서, 노란색으로 표현된 원들 중 상부에 표시된 원들 각각은, "OO해서 좋았습니다" 등으로 근무에 대한 평가자의 감정 중 긍정적으로 평가한 이유에 대해 기술되어 있는 평가인 군집을 나타내고, 노란색으로 표현된 원들 중 하부의 원들은 "좋은 하루", "재밌게 근무했습니다", "오늘도 무사히" 등 근무한 하루에 대한 평가인 군집에 속할 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 노란색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 노란색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.5)을 표시할 수 있다.

도 7의 예에서, 주황색으로 표현된 원들 각각은, "반장님이 친절해요", "OO해서 근무 환경 좋았습니다" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 근무 현장 자체에 구체적인 평가인 군집에 속하면서, 또한 긍정적인 평가인 군집에 속할 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 주황색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 주황색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.68)을 표시할 수 있다.

도 7의 예에서, 빨간색으로 표현된 원들 중 상부에 표시된 원들 각각은, "빡세요", "힘들어요", "지루해요" 부정적인 평가인 군집에 속하면서, 또한 짧은 평가인 군집에 속할 수 있다. 빨간색으로 표현된 원들 중 중상부의 원들은 "늦게 끝나요", "근무 시간이 길어요" 등 부정적인 평가인 군집에 속하면서, 근무 시간에 대한 평가인 군집에 속할 수 있다. 빨간색으로 표현된 원들 중 중간부의 원들은 "OO이 부족합니다", "밥을 안줘요", "신입 교육이 없어요" 등 부정적인 평가인 군집에 속하면서, 구체적인 평가인 군집에 속할 수 있다. 빨간색으로 표현된 원들 중 하부의 원들은 부정적인 평가인 군집에 속하면서, 구체적인 평가인 군집에 속하고, 또한 작업에 대한 평가인 군집에 속할 수 있다.

사용자가 사용자 인터페이스를 통해 화면에 표시된 빨간색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 빨간색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 3.22)을 표시할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예 들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소 (processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서 (parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체 (magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도 록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한 다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상을 통해 본 발명의 실시 예에 대하여 설명하였지만, 본 발명은 상기 실시 예에 한정되지 않고, 본 발명의 취지를 벗어나지 않고 효과를 저해하지 않는 한, 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 다양하게 변경하여 실시할 수 있다. 또한 그러한 실시 예가 본 발명의 범위에 속하는 것은 당연하다.

1: 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템
100: 분석 서버
110: 입력부
120: 제어부
121: 전처리부
122: 벡터화부
123: 군집화부
124: 화면 생성부
130: 저장부
140: 출력부
200: 관리 단말

Claims

자기소개서 및 사업장 평가 분석 방법에 있어서,
자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성하는 단계;
상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 단계;
상기 전처리된 데이터를 벡터화하는 단계;
상기 벡터화된 데이터를 군집화하는 단계; 및
상기 군집화된 결과는 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성하여 제공하는 단계를 포함하고,
상기 군집화하는 단계는,
K-means 클러스터링 모델을 정의하고 K-means 모델이 복수의 벡터화된 데이터로부터 k(k는 2 이상의 자연수)개를 도출하는 단계;
도출된 k개의 데이터는 짧은 평가, 구체적인 평가, 긍정적인 평가, 부정적인 평가, 무난한 평가, 사업장 내에서 수행한 작업에 대한 평가, 근무시간에 대한 평가, 근무 환경 자체에 대한 평가, 근무에 대한 평가자의 감정 중에서 적어도 하나 이상이 포함되고 이에 대한 평점의 평균값을 산출하는 단계;
상기 평균값을 포함한 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키는 단계; 및
상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는 단계를 포함하는
자기소개서 및 사업장 평가 분석방법.
제1항에 있어서,
상기 전처리하는 단계는,
상기 자기소개서 데이터로부터 문장 부호를 제거하고, 상기 자기소개서 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계; 및
상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계를 포함하는
자기소개서 및 사업장 평가 분석방법.
제2항에 있어서,
상기 전처리하는 단계는,
형태소 분석기에 소정의 특수 단어를 추가하고, 상기 형태소 분석기를 이용하여 상기 제2 전처리 데이터로부터 복수의 명사와 복수의 부사를 추출하는 단계; 및
상기 복수의 명사 및 상기 복수의 부사로부터 상기 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출하는 단계를 포함하는
자기소개서 및 사업장 평가 분석방법.
제3항에 있어서,
상기 전처리된 데이터를 벡터화하는 단계는,
상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화하는 단계를 포함하는
자기소개서 및 사업장 평가 분석방법.
제1항에 있어서,
상기 전처리하는 단계는,
상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계;
상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계; 및
상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성하는 단계를 포함하는
자기소개서 및 사업장 평가 분석방법.
제5항에 있어서,
상기 전처리된 데이터를 벡터화하는 단계는,
상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화하는 단계를 포함하는 자기소개서 및 사업장 평가 분석방법.
삭제
관리 단말로부터 자기소개서 데이터 및 사업장 평가 데이터를 수신하는 입력부;
상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 전처리부;
상기 전처리된 데이터를 벡터화하는 벡터화부;
상기 벡터화된 데이터를 군집화하는 군집화부; 및
상기 군집화된 결과인 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성하여 제공하는 화면 생성부를 포함하고,
상기 군집화부는,
K-means 클러스터링 모델에 대하여 벡터화된 복수의 데이터로 부터 k개(k는 2 이상의 자연수)의 지점을 선택하여 각 군집의 중심점을 결정하고, 중심점에서 가까운 데이터들과 중심점과 동일한 군집에 속하는지 결정하여 군집하는 방법을 학습시키고, 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는,
자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
삭제
삭제
제8항에 있어서,
상기 벡터화부는,
상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화하는,
자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
제8항에 있어서,
상기 전처리부는,
상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하며, 상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하고, 상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성하는,
자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
제12항에 있어서,
상기 벡터화부는,
상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화하는,
자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
삭제