KR102636010B1 - 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템 - Google Patents

자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템 Download PDF

Info

Publication number
KR102636010B1
KR102636010B1 KR1020230082630A KR20230082630A KR102636010B1 KR 102636010 B1 KR102636010 B1 KR 102636010B1 KR 1020230082630 A KR1020230082630 A KR 1020230082630A KR 20230082630 A KR20230082630 A KR 20230082630A KR 102636010 B1 KR102636010 B1 KR 102636010B1
Authority
KR
South Korea
Prior art keywords
data
self
introduction
workplace
evaluation
Prior art date
Application number
KR1020230082630A
Other languages
English (en)
Inventor
김세원
Original Assignee
주식회사 웍스메이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 웍스메이트 filed Critical 주식회사 웍스메이트
Priority to KR1020230082630A priority Critical patent/KR102636010B1/ko
Application granted granted Critical
Publication of KR102636010B1 publication Critical patent/KR102636010B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따르면 방법은, 자기소개서 및 사업장 평가 분석 방법에 있어서, 자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성하는 단계, 상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 단계, 상기 전처리된 데이터를 벡터화하는 단계, 상기 벡터화된 데이터를 군집화하는 단계, 및 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 단계를 포함하고, 상기 군집화하는 단계는, K-means 클러스터링 모델에 대하여 상기 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키는 단계, 및 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는 단계를 포함할 수 있다.

Description

자기소개서 데이터 및 사업장 평가 데이터 분석 방법, 그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템{Self-introduction data and workplace evaluation data analysis method, and self-introduction data and workplace evaluation data analysis system using the same}
본 발명은 자기소개서 데이터 및 사업장 평가 데이터 분석 방법, 그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템에 관한 것이다.
마찬가지로 최근에는 구인 및 구직이 인터넷 상에서 이루어지는 경우가 많다. 이처럼 인터넷 상에서 구인 및 구직 활동이 이루어짐에 따라, 구직자는 사업장에 대한 평가를 확인하여 구직 활동하고, 구인 중인 사업장은 구직자의 자기소개 문구를 확인하여 채용 절차를 진행할 수 있다.
하지만 구직자는 입사를 지원할 사업장을 정함에 있어서, 다수의 사업장 각각에 대한 다수의 평가를 확인해야 하기 때문에, 이를 한 눈에 확인할 수 있는 시스템에 대한 필요성이 있다.
마찬가지로 구인 중인 사업장도 인재를 채용함에 있어서, 다수의 구직자 각각에 대한 다수의 자기소개서를 확인해야 하기 때문에, 이를 한 눈에 확인할 수 있는 시스템이 필요하다.
본 발명의 목적은 상기와 같은 문제점을 해결하기 위한 것으로, 자기소개서 및 사업장 평가를 분석하는 방법 및 시스템을 제공하는 것이다.
상기와 같은 목적을 달성하기 위하여 본 발명의 실시예에 따르면 방법은, 자기소개서 및 사업장 평가 분석 방법에 있어서, 자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성하는 단계, 상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 단계, 상기 전처리된 데이터를 벡터화하는 단계, 상기 벡터화된 데이터를 군집화하는 단계, 및 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 단계를 포함하고, 상기 군집화하는 단계는, K-means 클러스터링 모델에 대하여 상기 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키는 단계, 및 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는 단계를 포함할 수 있다.
상기 전처리하는 단계는, 상기 자기소개서 데이터로부터 문장 부호를 제거하고, 상기 자기소개서 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계, 및 상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계를 포함할 수 있다.
상기 전처리하는 단계는, 형태소 분석기에 소정의 특수 단어를 추가하고, 상기 형태소 분석기를 이용하여 상기 제2 전처리 데이터로부터 복수의 명사와 복수의 부사를 추출하는 단계, 및 상기 복수의 명사 및 상기 복수의 부사로부터 상기 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출하는 단계를 포함할 수 있다.
상기 전처리된 데이터를 벡터화하는 단계는, 상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화하는 단계를 포함할 수 있다.
상기 전처리하는 단계는, 상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계, 상기 제1 처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계, 및 상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성하는 단계를 포함할 수 있다.
상기 전처리된 데이터를 벡터화하는 단계는, 상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화하는 단계를 포함할 수 있다.
상기 군집화된 결과는 k개(k는 2 이상의 자연수)의 군집을 포함하고, 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 단계는, 상기 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성하는 단계를 포함할 수 있다.
발명의 다른 실시예에 따르면, 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템은, 관리 단말로부터 자기소개서 데이터 및 사업장 평가 데이터를 수신하는 입력부, 상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 전처리부, 상기 전처리된 데이터를 벡터화하는 벡터화부, 상기 벡터화된 데이터를 군집화하는 군집화부, 및 상기 군집화된 결과를 나타내는 화면을 생성하여 제공하는 화면 생성부를 포함하고, 상기 군집화부는, K-means 클러스터링 모델에 대하여 상기 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키고, 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화한다.
상기 전처리부는, 상기 자기소개서 데이터로부터 문장 부호를 제거하고, 상기 자기소개서 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하며, 상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성할 수 있다.
상기 전처리부는, 형태소 분석기에 소정의 특수 단어를 추가하고, 상기 형태소 분석기를 이용하여 상기 제2 전처리 데이터로부터 복수의 명사와 복수의 부사를 추출하며, 상기 복수의 명사 및 상기 복수의 부사로부터 상기 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출할 수 있다.
상기 벡터화부는, 상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화할 수 있다.
상기 전처리부는, 상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하며, 상기 제1 처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하고, 상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성할 수 있다.
상기 벡터화부는, 상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화할 수 있다.
상기 군집화된 결과는 k개(k는 2 이상의 자연수)의 군집을 포함하고, 상기 화면 생성부는, 상기 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성할 수 있다.
본 발명에 따르면 복수의 자기소개서가 나타내는 데이터 또는 복수의 사업장 평가가 나타내는 데이터 중 유사한 데이터를 하나의 군집으로 군집화하여 비슷한 자기소개서 또는 사업장 평가를 한 눈에 파악할 수 있다.
본 발명에 따르면, 자기소개서가 나타내는 데이터 중 각오, 개인 정보, 경력 등 중 필요한 사항을 쉽게 파악할 수 있다.
본 발명에 따르면, 사업장 데이터가 나타내는 데이터 중 긍정적인 평가 또는 부정적인 평가, 근무 시간, 근무 현장 등 근무 환경에 대한 데이터 등을 쉽게 파악할 수 있다.
도 1은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템을 도식적으로 도시한 블록도이다.
도 2는 도 1에 도시된 제어부의 세부 구성을 도식적으로 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 방법의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 자기소개서 분석 방법의 순서도이다.
도 5는 도 4에 도시된 자기소개서 분석 방법의 결과를 나타내는 화면이다.
도 6은 본 발명의 일 실시예에 따른 사업장 평가 분석 방법의 순서도이다.
도 7은 도 6에 도시된 사업장 평가 분석 방법의 결과를 나타내는 화면이다.
본 발명은 취지를 벗어나지 않는 한도에서 다양하게 변경하여 실시할 수 있고, 하나 이상의 실시 예를 가질 수 있다. 그리고 본 발명에서 “발명을 실시하기 위한 구체적인 내용” 및 “도면” 등에 기재한 실시 예는, 본 발명을 구체적으로 설명하기 위한 예시이며, 본 발명의 권리 범위를 제한하거나 한정하는 것은 아니다.
따라서, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자가, 본 발명의 “발명을 실시하기 위한 구체적인 내용” 및 “도면” 등으로부터 용이하게 유추할 수 있는 것은, 본 발명의 범위에 속하는 것으로 해석할 수 있다.
또한, 도면에 표시한 각 구성 요소들의 크기와 형태는, 실시 예의 설명을 위해 과장되어 표현한 것 일 수 있으며, 실제로 실시되는 발명의 크기와 형태를 한정하는 것은 아니다.
본 발명의 명세서에서 사용되는 용어를 특별히 정의하지 않는 이상, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 것과 동일한 의미를 가질 수 있다.
이하, 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템을 도식적으로 도시한 블록도이다.
도 1을 참조하면 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템(1)은 분석 서버(100) 및 관리 단말(200)을 포함할 수 있다.
관리 단말(200)은 무선 통신 장치이거나 컴퓨터 단말일 수 있다. 여기서 무선 통신 장치는, 휴대성과 이동성이 보장되는 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드 헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다. 여기에서, 컴퓨터 단말은 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.
관리 단말(200)는 자기소개서 및/또는 사업장 평가를 수집하여 자기소개서 및 사업장 평가 데이터를 생성하고, 생성한 자기소개서 데이터 및 사업장 평가 데이터를 분석 서버(100)에 전송할 수 있다.
자기소개서는, 작성자의 직무적합성을 나타내는 역량, 포부, 경력, 각오 등을 기재한 문서일 수 있다. 사업장 평가는, 적어도 하나의 사업장 각각에 근무 중이거나 근무하였던 평가자가 작성한 문서일 수 있다.
관리 단말(200)은 복수의 작성자가 작성한 복수의 자기소개서 각각에 포함된 내용을 포함하는 자기소개서 데이터를 생성하고, 복수의 평가자가 작성한 복수의 사업장 평가 각각의 내용을 포함하는 사업장 평가 데이터를 생성할 수 있다.
자기소개서 데이터는 복수의 작성자 각각에 대응하는 각 행(row)에 자기소개 항목을 포함하는 행렬 데이터일 수 있다. 자기소개 항목은, 작성자를 식별할 수 있는 근로자 식별자(worker ID), 해당 작성자가 기재한 소개 글(introduction) 등일 수 있다. 각 자기소개 항목은 자기소개서 데이터가 포함하는 복수의 열(column) 중 대응하는 열에 기재될 수 있다.
사업장 평가 데이터는 복수의 평가자 각각에 대응하는 각 행에 평가 사업장 평가 항목을 포함하는 행렬 데이터일 수 있다. 사업자 평가 항목은, 평가자를 식별할 수 있는 근로자 식별자(worker ID), 사업장을 식별할 수 있는 사업장 식별자(place ID), 해당 평가자가 사업장에서 담당한 직무를 나타내는 직무 식별자(job ID), 작성자가 평가한 사업장의 평점(evaluation), 평가 내용(memo), 작성 시각 등일 수 있다. 각 사업자 평가 항목은 사업장 평가 데이터가 포함하는 복수의 열 중 대응하는 열에 기재될 수 있다.
이하에서, 설명의 편의를 위해 자기소개서 데이터 및 사업장 평가 데이터 각각은 행렬인 것으로 한다.
분석 서버(100)는 입력부(110), 제어부(120), 저장부(130), 및 출력부(140)를 포함할 수 있다.
입력부(110)는 관리 단말(200)과 유무선 통신하여 입력부(110)로부터 신호 및/또는 데이터를 송수신할 수 있다. 입력부(110)는 관리 단말(200)로부터 자기소개서 데이터 및 사업장 평가 데이터를 입력 받을 수 있다.
제어부(120)는 입력부(110), 저장부(130), 및 출력부(140)의 동작을 제어할 수 있다. 제어부(120)는 적어도 하나의 프로세서로 구현될 수 있다. 프로세서는 프로그램을 실행하고, 분석 서버(100)를 제어할 수 있다. 프로세서에 의하여 실행되는 프로그램의 코드는 저장부(130)의 메모리에 저장될 수 있다.
저장부(130)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 저장부(130)에는 분석 서버(100)가 제공하는 동작, 기능 등을 구현 및/또는 제공하기 위하여 구성요소들에 관련된 명령 또는 데이터, 하나 이상의 프로그램 및/또는 소프트웨어, 운영체제 등이 저장될 수 있다.
출력부(140)는 화면을 제공하는 표시 장치를 포함할 수 있다. 출력부(140)는 제어부(120)가 생성한 화면을 제공할 수 있다.
도 2는 도 1에 도시된 제어부의 세부 구성을 도식적으로 나타낸 블록도이다.
도 2를 참조하면, 제어부(120)는 전처리부(121), 벡터화부(122), 군집화부(123), 및 화면 생성부(124)를 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템(1)에 포함된 구성 각각은 소프트웨어 모듈이나 하드웨어 모듈 형태로 구현되거나 또는 소프트웨어 모듈과 하드웨어 모듈 이 조합된 형태, 예컨대 컴퓨터나 스마트 기기 등에서 구현될 수 있고, 각각의 구성들은 전기적으로 연결될 수 있다.
이하, 자기소개서 데이터 및 사업장 평가 데이터 분석 방법의 각 단계에 기초하여 제어부(120)의 세부 구성을 설명한다.
도 3은 본 발명의 일 실시예에 따른 자기소개서 데이터 및 사업장 평가 데이터 분석 방법의 순서도이다.
도 3을 참조하면, 관리 단말(200)은 자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성할 수 있다(S101).
자기소개서 데이터 및 사업장 평가 데이터 각각은 csv 파일일 수 있다. 관리 단말(200)은 데이터 분석 패키지를 활용하여 자기소개서 데이터 및 사업장 평가 데이터를 생성할 수 있다. 예를 들어, 관리 단말(200)은 자기소개서 데이터 및 사업장 평가 데이터를 생성함에 있어서 Pandas 패키지를 활용할 수 있다.
전처리부(121)는 관리 단말(200)로부터 자기소개서 데이터 및 사업장 평가 데이터를 수집하여 전처리 할 수 있다(S102).
전처리부(121)는 자기소개서 데이터 및 사업장 평가 데이터를 전처리 함에 있어서 다양한 동작을 포함할 수 있다.
전처리부(121)는 한글 자음/모음, 특수기호, 문장 부호 등을 제거하고, 자기소개서 데이터 및 사업장 평가 데이터 각각이 나타내는 행렬 중 비어 있는 행을 제거할 수 있다. 또한 전처리부(121)는 맞춤법 검사를 수행할 수 있다.
벡터화부(122)는 전처리된 데이터를 벡터화할 수 있다(S103).
군집화부(123)는 벡터화된 데이터를 군집화(Clustering)하여 k개(k는 2 이상의 자연수)의 군집을 생성할 수 있다(S104).
군집화부(123)는 클러스터링 모델을 통해 벡터화된 데이터로부터 k개의 군집을 생성하는 방법을 학습시킬 수 있다. 예를 들어, 군집화부(123)는 K-means 클러스터링 모델로 구현될 수 있다. 군집화부(123)는 벡터화된 복수의 데이터로부터 특정한 임의의 k개의 지점을 선택하여 각 군집의 중심점으로 결정하고, 중심점에 가까운 데이터들을 중심점과 동일한 군집에 속하는 것으로 결정할 수 있다. 군집화부(123)는 데이터 간 유사도한 정도를 나타내는 유사도에 기초하여 중심점에 가까운 데이터인지를 결정할 수 있다. 따라서 하나의 군집에 속하는 데이터들은 중심점과의 유사도가 소정 수준 이상으로 유사한 데이터들일 수 있다.
화면 생성부(124)는 군집화된 결과를 나타내는 화면을 생성하고, 출력부(140)는 화면 생성부(124)가 생성한 화면을 제공할 수 있다(S105).
자기소개서 데이터에 대하여 군집화된 결과는, k1개의 군집을 포함하고, k1개의 군집 각각에 속하는 데이터는 각 대응하는 자기소개 항목을 포함할 수 있다. 사업장 평가 데이터에 대하여 군집화된 결과는, k2개의 군집을 포함하고, k2개의 군집 각각에 속하는 데이터는 각 대응하는 자기소개 항목을 포함할 수 있다. 여기서 k1 및 k2 각각은 2 이상의 자연수이다.
S101 내지 S105 단계를 통해 분석 서버(100)는 자기소개서 데이터를 분석할 수 있고, 그리고/또는 사업장 평가 데이터를 분석할 수 있다.
이하, 도 4 및 도 5를 참조하여 분석 서버(100)가 자기소개서 데이터를 분석하는 방법을 설명한다.
도 4는 본 발명의 일 실시예에 따른 자기소개서 분석 방법의 순서도이다.
도 4에 도시된 순서도는, 도 3에 도시된 순서도의 일 예시일 수 있다.
도 3 및 도 4를 참조하면, 도 3의 S102 단계는 도 4의 S201 내지 S204 단계를 포함하고, 도 3의 S103 단계는 도 4의 S205 단계를 포함하며, 도 3의 S104 단계는 도 4의 S206 단계를 포함하고, 도 3의 S105 단계는 도 4의 S207 단계를 할 수 있다.
도 4를 참조하면, 전처리부(121)는 자기소개서 데이터로부터 문장 부호를 제거할 수 있다(S201).
자기소개서 데이터는 pandas 패키지를 통해 생성된 csv 파일일 수 있다.
전처리부(121)가 문장 부호를 제거함에 있어서, 자기소개서 데이터 중 한글 자음만, 또는 모음만으로 이루어진 부분을 제거하고, 특수기호도 제거할 수 있다. 또한 전처리부(121)는 자기소개서 데이터로부터 문장 부호(한글 자음만, 또는 모음만으로 이루어진 부분, 특수기호 포함)를 제거한 결과가 나타내는 행렬 중 비어 있는 행을 제거할 수 있다.
예를 들어, 전처리부(121)는 ".", "?", "??", "ㅋㅋㅋ", "ㅣ", "ㅐ", "ㅅ" 등 만으로 이루어진 행을 제거할 수 있다.
이하, 설명의 편의를 위해 전처리부(121)가 자기소개서 데이터로부터 문장 부호 등을 제거하고, 비어 있는 행을 제거한 데이터를 제1 전처리 데이터라 한다.
전처리부(121)는 띄어쓰기 및 맞춤법을 교정할 수 있다(S202).
전처리부(121)는 자기소개서 데이터 또는 제1 전처리 데이터로부터 맞춤법 검사를 통해 띄어쓰기나 맞춤법을 교정할 수 있다. 예를 들어, 전처리부(121)는 hanspell 패키지를 활용하여 맞춤법 검사를 수행할 수 있다.
이하, 설명의 편의를 위해 전처리부(121)가 자기소개서 데이터에 대응하는 제1 전처리 데이터로부터 띄어쓰기나 맞춤법을 교정한 데이터를 제2 전처리 데이터라 한다.
전처리부(121)는 소정의 특수 단어를 형태소 분석기에 추가하여 자기소개서 데이터에 대응하는 제2 전처리 데이터가 나타내는 각 소개 글로부터 복수의 명사와 복수의 부사를 추출할 수 있다(S203).
형태소 분석기는, 구문을 형태소 단위로 분리하여 텍스트를 분석할 수 있는 모듈일 수 있다. 예를 들어, 형태소 분석기는 kiwipiepy 패키지일 수 있다.
소정의 특수 단어는, 건설 현장 등 특수 사업장에서 사용하는 하나 이상의 단어를 포함할 수 있다. 예를 들어, 소정의 특수 단어는 오함마, 철근공, 경계석, 신호수 등을 포함할 수 있다.
전처리부(121)는 형태소 분석기를 이용하여 복수의 단어를 추출할 수 있는데, 도메인에 관련된 소정의 특수 단어를 형태소 분석기에 추가하여 자기소개서와 관련된 단어가 추출될 수 있도록 할 수 있다.
자기소개서 데이터는 "열심히 하겠습니다" 등의 각오에 대한 소개 글, "대학생이고 180cm 80kg입니다" 등의 학력, 체격 등 개인 정보를 나타내는 소개 글, "현장근무 5년 경력에 근면성실한 사람입니다" 등의 경력에 대한 소개 글 등을 포함할 수 있다.
전처리부(121)가 자기소개서에 대응하는 제2 전처리 데이터로부터 추출하는 명사와 부사는, 소개 글로부터 추출할 수 있는 모든 명사와 부사일 수도 있고, 또는 "열심히", "대학생", "근면성실" 등 초기 정보로 미리 결정되어 있는 중요한 명사와 부사일 수도 있다.
전처리부(121)는 형태소 분석기를 이용하여 복수의 명사와 복수의 부사를 추출할 수 있다. 여기서 전처리부(121)가 추출하는 명사는 패기, 일, 출근, 반도체, 현장, 경력, 감사 등일 수 있고, 부사는 열심히, 성실히, 꼼꼼히 등일 수 있다.
예를 들어, 소개 글이 "젊은 패기로 열심히 일 하겠습니다"인 경우, 전처리부(121)는 "패기", "열심히", "일" 등을 추출할 수 있다.
전처리부(121)가 형태소 분석기를 이용하여 추출한 복수의 명사와 복수의 부사는 소정의 특수 단어를 포함할 수 있다.
전처리부(121)는 형태소 분석기로부터 추출된 복수의 명사와 복수의 부사 중 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출할 수 있다(S204).
복수의 대상 단어는, 형태소 분석기로부터 추출된 명사와 부사 중 서로 관련성 있는 단어들일 수 있다.
예를 들어, 전처리부(121)는 형태소 분석기로부터 추출한 "패기", "열심히", "일" 등 중 "패기" 및 "열심히"를 복수의 대상 단어로 결정할 수 있다. 복수의 대상 단어의 개수는 2개일 수 있으나, 발명이 이에 한정되지는 않는다. 예를 들어, 자기소개서 데이터의 제1 행에 대응하는 복수의 대상 단어는 "성실" 및 "꼼꼼"이고, 제2 행에 대응하는 복수의 대상 단어는 "열심" 및 "최선"일 수 있다.
이하, 설명의 편의를 위해 전처리부(121)가 자기소개서 데이터에 대응하는 제2 전처리 데이터로부터 형태소 분석기를 이용하여 복수의 대상 단어를 추출한 데이터를 제3 전처리 데이터라 한다.
도 4를 참조하면, 자기소개서 데이터에 대응하는 제1 내지 제3 전처리 데이터는, S201 내지 S204 단계를 순차적으로 수행하여 생성하는 것으로 설명하나, 실시예가 이에 한정되지 않고 S201 내지 S204 단계의 순서는 변경될 수 있다.
이하에서, 전처리 데이터는 자기소개서 데이터로부터 S201 내지 S204 단계를 모두 거친 행렬 데이터를 나타낼 수 있다.
벡터화부(122)는 자기소개서 데이터에 대응하는 전처리 데이터의 각 행에 대응하여 복수의 대상 단어를 벡터화할 수 있다(S205).
벡터화부(122)는 단어를 벡터로 변환시키는 모델로 구현될 수 있다. 예를 들어, 벡터화부(122)는 FastText 모델을 포함할 수 있다. FastText 모델은 단어를 벡터로 만드는 모델이고, 한국어에 대하여 기 학습된 모델일 수 있다. 벡터화부(122)는 자기소개서 데이터에 대응하는 전처리 데이터의 각 행 별로 복수의 대상 단어를 벡터화하여 복수의 벡터화된 데이터를 생성할 수 있다.
군집화부(123)는 자기소개서 데이터의 각 행에 대응하여 벡터화된 데이터를 클러스터링할 수 있다(S206).
군집화부(123)는 K-means 모델을 정의하고, K-means 모델이 복수의 벡터화된 데이터로부터 k개의 군집을 생성하고, k개의 군집으로 군집하도록 하는 방법을 학습시킬 수 있다.
k개의 군집 각각은, 복수의 대상 단어가 소정의 기준 단어인 군집이거나, 또는 자세한 자기소개인 군집일 수 있다. 자세한 자기소개는, 자기소개서 데이터의 각 행에 대응하는 소개 글이 나타내는 글자 수가 소정 개수 이상인 경우일 수 있으나, 자세한 자기소개를 판단하는 방식은 이에 한정되지 않는다.
또한 자기소개서 데이터의 각 행의 데이터는 하나 이상의 군집에 속할 수 있다. 예를 들어, 하나의 소개 글은 자세한 자기소개인 군집이면서, 동시에 복수의 대상 단어가 소정의 기준 단어인 군집일 수 있다.
화면 생성부(124)는 자기소개서 데이터에 대응하여 군집화된 결과를 나타내는 화면을 생성하여 출력부(140)를 통해 제공할 수 있다(S207).
화면 생성부(124)가 생성한 화면은, k개의 군집에 속하는 데이터를 k개의 색채로 표현할 수 있다. 화면 생성부(124)가 생성한 화면에서, 각 군집에 속하는 복수의 데이터는 k개의 색채 중 하나의 색으로 표현될 수 있다.
도 5는 도 4에 도시된 자기소개서 분석 방법의 결과를 나타내는 화면이다.
도 5를 참조하면, 군집화된 결과는, 제1 색(예를 들어, 주황색), 제2 색(예를 들어, 노란색), 및 제3 색(예를 들어, 녹색)으로 나타낸 소정 모양의 도형(예를 들어, 원형)으로 나타낼 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 도형들 중 하나를 선택하면, 출력부(140)는 자기소개서 데이터의 복수의 행 중 해당 도형에 대응하는 행의 소개 글을 표시할 수 있다.
또한 화면 생성부(124)가 화면에 나타내는 각 도형은 소정의 정도로 투명하게 표현될 수 있다. 따라서 하나의 데이터가 2 이상의 군집에 속하는 경우에는, 결과를 나타내는 화면에는 각 군집을 나타내는 색채의 도형이 겹쳐지도록 표현될 수 있다.
도 5의 예에서, 주황색으로 표현된 원들 각각은, 자기소개서 데이터의 복수의 행 중 "성실" 및 "꼼꼼"의 대상 단어를 포함하는 군집에 속하는 행의 데이터를 나타낼 수 있다. 주황색으로 표현된 원들의 개수는, 자기소개서 데이터의 복수의 행 중 "성실" 및 "꼼꼼"의 대상 단어를 포함하는 군집에 속하는 데이터의 개수와 동일할 수 있다.
도 5의 예에서, 노란색으로 표현된 원들 각각은, 자기소개서 데이터의 복수의 행 중 "열심", "최선" 및 "책임감"의 대상 단어를 포함하는 군집에 속하는 행의 데이터를 나타낼 수 있다. 노란색으로 표현된 원들의 개수는, 자기소개서 데이터의 복수의 행 중 "열심", "최선" 및 "책임감"의 대상 단어를 포함하는 군집에 속하는 데이터의 개수와 동일할 수 있다.
도 5의 예에서, 녹색으로 표현된 원들 각각은, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하는 행의 데이터를 나타낼 수 있다. 노란색으로 표현된 원들의 개수는, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하는 데이터의 개수와 동일할 수 있다.
도 5의 예에서, 노란색으로 표현된 원과 녹색으로 표현된 원이 겹쳐진 것은, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하면서, "열심" 및 "최선"의 대상 단어를 포함하는 군집에도 속하는 행의 데이터를 나타낼 수 있다.
도 5의 예에서, 주황색으로 표현된 원과 녹색으로 표현된 원이 겹쳐진 것은, 자기소개서 데이터의 복수의 행 중 자세한 자기소개인 군집에 속하면서, "성실" 및 "꼼꼼"의 대상 단어를 포함하는 군집에도 속하는 행의 데이터를 나타낼 수 있다.
도 6은 본 발명의 일 실시예에 따른 사업장 평가 분석 방법의 순서도이다.
도 6에 도시된 순서도는, 도 3에 도시된 순서도의 일 예시일 수 있다.
도 3 및 도 6를 참조하면, 도 3의 S102 단계는 도 6의 S301 내지 S303 단계를 포함하고, 도 3의 S103 단계는 도 6의 S304 단계를 포함하며, 도 3의 S104 단계는 도 6의 S305 단계를 포함하고, 도 3의 S105 단계는 도 6의 S306 단계를 포함할 수 있다.
도 6을 참조하면, 전처리부(121)는 사업장 평가 데이터로부터 문장 부호를 제거할 수 있다(S301).
사업장 평가 데이터는 pandas 패키지를 통해 생성된 csv 파일일 수 있다.
전처리부(121)가 문장 부호를 제거함에 있어서, 사업장 평가 데이터 중 한글 자음만, 또는 모음만으로 이루어진 부분을 제거할 수 있다. 또한 전처리부(121)는 사업장 평가 데이터로부터 문장 부호(한글 자음만, 또는 모음만으로 이루어진 부분, 특수기호 포함)를 제거한 결과가 나타내는 행렬 중 비어 있는 행을 제거할 수 있다.
예를 들어, 전처리부(121)는 "ㅎ", ".", "o", "ㄷㄷㄷㄷ", "ㅇㅇㅇㅇ" 등 만으로 이루어진 행을 제거할 수 있다.
이하, 설명의 편의를 위해 전처리부(121)가 사업장 평가 데이터로부터 문장 부호 등을 제거한 데이터를 제1 전처리 데이터라 한다.
전처리부(121)는 띄어쓰기 및 맞춤법을 교정할 수 있다(S302).
전처리부(121)는 사업장 평가 데이터 또는 제1 전처리 데이터로부터 맞춤법 검사를 통해 띄어쓰기나 맞춤법을 교정할 수 있다. 예를 들어, 전처리부(121)는 hanspell 패키지, pykospacing 패키지 등을 활용하여 맞춤법 검사 및 띄어쓰기 검사를 수행할 수 있다.
이하, 설명의 편의를 위해 전처리부(121)가 사업장 평가 데이터에 대응하는 제1 전처리 데이터로부터 띄어쓰기나 맞춤법을 교정한 데이터를 제2 전처리 데이터라 한다.
전처리부(121)는 사업장 평가 데이터에 제2 전처리 데이터로부터 단일 음절의 평가 데이터를 제거할 수 있다(S303).
예를 들어, 단일 음절의 평가 데이터는 "네", "넵", ".", "b" 등을 포함할 수 있다. 다만, 전처리부(121)는 단일 음절의 평가 데이터 중 긍정 또는 부정 등 평가의 의미를 내포하는 데이터(예를 들어, "굿", "굳" 등)는 제거하지 않을 수 있다.
이하, 설명의 편의를 위해 전처리부(121)가 사업장 평가 데이터에 대응하는 제2 전처리 데이터로부터 단일 음절의 평가 데이터를 제거한 데이터를 제3 전처리 데이터라 한다.
도 6을 참조하면, 사업장 평가 데이터에 대응하는 제1 내지 제3 전처리 데이터는, S301 내지 S303 단계를 순차적으로 수행하여 생성하는 것으로 설명하나, 실시예가 이에 한정되지 않는다. S301 내지 S303 단계의 순서는 변경될 수 있다.
이하에서, 전처리 데이터는 사업장 평가 데이터로부터 S301 내지 S303 단계를 모두 거친 행렬 데이터를 나타낼 수 있다.
벡터화부(122)는 사업장 평가 데이터에 대응하는 전처리 데이터의 각 행이 나타내는 문장을 벡터화할 수 있다(S304).
벡터화부(122)는 문장을 벡터로 변환시키는 모델로 구현될 수 있다. 예를 들어, 벡터화부(122)는 SBERT 모델을 포함할 수 있다. SBERT 모델은 문장 임베딩을 이용하여 문장을 벡터로 만드는 모델일 수 있다. 벡터화부(122)는 사업장 평가 데이터에 대응하는 전처리 데이터의 각 행 별로 문장을 벡터화하여 복수의 벡터화된 데이터를 생성할 수 있다.
사업자 평가 데이터에 대응하는 전처리 데이터는, 자기소개서 데이터에 대응하는 전처리 데이터와 달리 "good", "A+" 등이 영어가 많이 사용되고, "좋아요" 등의 짧은 리뷰가 많은 차이가 있기 때문에, 벡터화부(122)는 사업자 평가 데이터에 대응하여 벡터화 함에 있어 단순 명사 추출이 아닌 문장 벡터화를 수행할 수 있다.
군집화부(123)는 사업장 평가 데이터의 각 행에 대응하여 벡터화된 데이터를 클러스터링할 수 있다(S305).
군집화부(123)는 K-means 모델을 정의하고, K-means 모델이 복수의 벡터화된 데이터로부터 k개의 군집을 생성하고, k개의 군집으로 군집하도록 하는 방법을 학습시킬 수 있다.
군집화부(123)는 학습을 통해 사업장 평가 데이터의 군집의 개수를 나타내는 적정한 k값을 도출할 수 있다.
k개의 군집 각각은, 각 행의 문장의 길이, 각 행의 문장이 나타내는 평가의 긍정/부정, 각 행의 문장이 나타내는 구체적인 대상, 각 행 중 평점 등에 따라 구분될 수 있다.
예를 들어, k개의 군집 각각은 짧은 평가, 구체적인 평가, 긍정적인 평가, 부정적인 평가, 무난한 평가, 사업장 내에서 수행한 작업에 대한 평가, 근무 시간에 대한 평가, 근무 현장 자체에 대한 평가, 및 근무에 대한 평가자의 감정 중 적어도 하나 및 평점의 평균을 나타낼 수 있다.
짧은 평가는, 각 행의 문장의 글자수가 소정 개수 미만인 경우이고, 구체적인 평가는 각 행의 문장의 글자수가 소정 개수 이상인 경우일 수 있으나, 짧은 평가인지, 구체적인 평가인지 등을 판단하는 방식은 이에 한정되지 않는다.
또한 사업장 평가 데이터의 각 행의 데이터는 하나 이상의 군집에 속할 수 있다. 예를 들어, 하나의 평가 내용은 짧은 평가인 군집이면서, 동시에 긍정적인 평가인 군집일 수 있다.
화면 생성부(124)는 사업장 평가 데이터에 대응하여 군집화된 결과를 나타내는 화면을 생성하여 출력부(140)를 통해 제공할 수 있다(S306).
화면 생성부(124)가 생성한 화면은, k개의 군집에 속하는 데이터를 k개의 색채로 표현할 수 있다. 화면 생성부(124)가 생성한 화면에서, 각 군집에 속하는 복수의 데이터는 k개의 색채 중 하나의 색으로 표현될 수 있다.
도 7은 도 6에 도시된 사업장 평가 분석 방법의 결과를 나타내는 화면이다.
도 7을 참조하면, 군집화된 결과는, 제1 색(예를 들어, 연두색), 제2 색(예를 들어, 녹색), 제3 색(예를 들어, 파란색), 제4 색(예를 들어, 노란색), 제5 색(예를 들어, 주황색) 및 제6 색(예를 들어, 빨간색)으로 나타낸 소정 모양의 도형(예를 들어, 원형)으로 나타낼 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 도형들 중 하나를 선택하면, 출력부(140)는 사업장 평가 데이터의 복수의 행 중 해당 도형에 대응하는 행의 평가 메모를 표시할 수 있다.
또한 나타내는 각 도형은 소정의 정도로 투명하게 표현될 수 있다. 따라서 하나의 데이터가 2 이상의 군집에 속하는 경우에는, 결과를 나타내는 화면에는 각 군집을 나타내는 색채의 도형이 겹쳐지도록 표현될 수 있다.
화면 생성부(124)가 화면에 나타내는 각 도형 중 하나의 색채로 표현된 도형들의 위치는 각 행의 문장이 나타내는 구체적인 대상, 또는 각 행의 문장이 나타내는 평가의 긍정/부정의 정도를 나타낼 수 있다.
예를 들어, 노란색으로 표현된 원들 중 상부의 원들은 "OO해서 좋았습니다" 등으로 근무에 대한 평가자의 감정 중 긍정적으로 평가한 이유에 대해 기술되어 있는 데이터를 나타내고, 하부의 원들은 "좋은 하루", "재밌게 근무했습니다", "오늘도 무사히" 등 근무한 하루에 대한 평가 데이터를 나타낼 수 있다.
또한 예를 들어, 빨간색으로 표현된 원들 중 상부의 원들은 부정적인 평가임과 동시에 근무에 대한 평가자의 감정 중 부정적으로 평가한 이유에 대해 기술되어 있는 데이터를 나타내고, 하부의 원들은 부정적인 평가임과 동시에 작업에 대한 평가이고, 동시에 구체적인 평가인 데이터를 나타낼 수 있다.
도 7의 예에서, 연두색으로 표현된 원들 각각은, "굿", "좋아요", "훌륭합니다" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 긍정적인 평가인 군집에 속하면서, 또한 짧은 평가인 군집에 속할 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 연두색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 연두색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.67)을 표시할 수 있다.
도 7의 예에서, 녹색으로 표현된 원들 각각은, "할만했어요", "괜찮아요", "적당" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 무난한 평가인 군집에 속하면서, 또한 짧은 평가인 군집에 속할 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 녹색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 녹색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 3.97)을 표시할 수 있다.
도 7의 예에서, 파란색으로 표현된 원들 각각은, "좋은 현장입니다", "즐거운 분위기" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 근무 현장 자체에 대한 평가인 군집에 속하면서, 또한 긍정적인 평가인 군집에 속할 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 파란색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 파란색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.74)을 표시할 수 있다.
도 7의 예에서, 노란색으로 표현된 원들 중 상부에 표시된 원들 각각은, "OO해서 좋았습니다" 등으로 근무에 대한 평가자의 감정 중 긍정적으로 평가한 이유에 대해 기술되어 있는 평가인 군집을 나타내고, 노란색으로 표현된 원들 중 하부의 원들은 "좋은 하루", "재밌게 근무했습니다", "오늘도 무사히" 등 근무한 하루에 대한 평가인 군집에 속할 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 노란색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 노란색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.5)을 표시할 수 있다.
도 7의 예에서, 주황색으로 표현된 원들 각각은, "반장님이 친절해요", "OO해서 근무 환경 좋았습니다" 등의 데이터를 나타내고, 사업장 평가 데이터의 복수의 행 중 근무 현장 자체에 구체적인 평가인 군집에 속하면서, 또한 긍정적인 평가인 군집에 속할 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 주황색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 주황색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 4.68)을 표시할 수 있다.
도 7의 예에서, 빨간색으로 표현된 원들 중 상부에 표시된 원들 각각은, "빡세요", "힘들어요", "지루해요" 부정적인 평가인 군집에 속하면서, 또한 짧은 평가인 군집에 속할 수 있다. 빨간색으로 표현된 원들 중 중상부의 원들은 "늦게 끝나요", "근무 시간이 길어요" 등 부정적인 평가인 군집에 속하면서, 근무 시간에 대한 평가인 군집에 속할 수 있다. 빨간색으로 표현된 원들 중 중간부의 원들은 "OO이 부족합니다", "밥을 안줘요", "신입 교육이 없어요" 등 부정적인 평가인 군집에 속하면서, 구체적인 평가인 군집에 속할 수 있다. 빨간색으로 표현된 원들 중 하부의 원들은 부정적인 평가인 군집에 속하면서, 구체적인 평가인 군집에 속하고, 또한 작업에 대한 평가인 군집에 속할 수 있다.
사용자가 사용자 인터페이스를 통해 화면에 표시된 빨간색으로 표현된 원들 중 하나를 선택하면, 출력부(140)는 빨간색으로 표현된 데이터들에 대응하는 평점들의 평균(예를 들어, 3.22)을 표시할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예 들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소 (processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서 (parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체 (magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도 록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한 다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상을 통해 본 발명의 실시 예에 대하여 설명하였지만, 본 발명은 상기 실시 예에 한정되지 않고, 본 발명의 취지를 벗어나지 않고 효과를 저해하지 않는 한, 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 다양하게 변경하여 실시할 수 있다. 또한 그러한 실시 예가 본 발명의 범위에 속하는 것은 당연하다.
1: 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템
100: 분석 서버
110: 입력부
120: 제어부
121: 전처리부
122: 벡터화부
123: 군집화부
124: 화면 생성부
130: 저장부
140: 출력부
200: 관리 단말

Claims (14)

  1. 자기소개서 및 사업장 평가 분석 방법에 있어서,
    자기소개서 및 사업장 평가를 수집하여 자기소개서 데이터 및 사업장 평가 데이터를 생성하는 단계;
    상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 단계;
    상기 전처리된 데이터를 벡터화하는 단계;
    상기 벡터화된 데이터를 군집화하는 단계; 및
    상기 군집화된 결과는 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성하여 제공하는 단계를 포함하고,
    상기 군집화하는 단계는,
    K-means 클러스터링 모델을 정의하고 K-means 모델이 복수의 벡터화된 데이터로부터 k(k는 2 이상의 자연수)개를 도출하는 단계;
    도출된 k개의 데이터는 짧은 평가, 구체적인 평가, 긍정적인 평가, 부정적인 평가, 무난한 평가, 사업장 내에서 수행한 작업에 대한 평가, 근무시간에 대한 평가, 근무 환경 자체에 대한 평가, 근무에 대한 평가자의 감정 중에서 적어도 하나 이상이 포함되고 이에 대한 평점의 평균값을 산출하는 단계;
    상기 평균값을 포함한 벡터화된 데이터로부터 k개의 군집으로 군집하는 방법을 학습시키는 단계; 및
    상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는 단계를 포함하는
    자기소개서 및 사업장 평가 분석방법.
  2. 제1항에 있어서,
    상기 전처리하는 단계는,
    상기 자기소개서 데이터로부터 문장 부호를 제거하고, 상기 자기소개서 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계; 및
    상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계를 포함하는
    자기소개서 및 사업장 평가 분석방법.
  3. 제2항에 있어서,
    상기 전처리하는 단계는,
    형태소 분석기에 소정의 특수 단어를 추가하고, 상기 형태소 분석기를 이용하여 상기 제2 전처리 데이터로부터 복수의 명사와 복수의 부사를 추출하는 단계; 및
    상기 복수의 명사 및 상기 복수의 부사로부터 상기 자기소개서 데이터의 각 행에 대응하는 복수의 대상 단어를 추출하는 단계를 포함하는
    자기소개서 및 사업장 평가 분석방법.
  4. 제3항에 있어서,
    상기 전처리된 데이터를 벡터화하는 단계는,
    상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화하는 단계를 포함하는
    자기소개서 및 사업장 평가 분석방법.
  5. 제1항에 있어서,
    상기 전처리하는 단계는,
    상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하는 단계;
    상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하는 단계; 및
    상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성하는 단계를 포함하는
    자기소개서 및 사업장 평가 분석방법.
  6. 제5항에 있어서,
    상기 전처리된 데이터를 벡터화하는 단계는,
    상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화하는 단계를 포함하는 자기소개서 및 사업장 평가 분석방법.
  7. 삭제
  8. 관리 단말로부터 자기소개서 데이터 및 사업장 평가 데이터를 수신하는 입력부;
    상기 자기소개서 데이터 및 상기 사업장 평가 데이터를 전처리하는 전처리부;
    상기 전처리된 데이터를 벡터화하는 벡터화부;
    상기 벡터화된 데이터를 군집화하는 군집화부; 및
    상기 군집화된 결과인 k개의 군집에 속하는 데이터를 k개의 색채로 표현하는 화면을 생성하여 제공하는 화면 생성부를 포함하고,
    상기 군집화부는,
    K-means 클러스터링 모델에 대하여 벡터화된 복수의 데이터로 부터 k개(k는 2 이상의 자연수)의 지점을 선택하여 각 군집의 중심점을 결정하고, 중심점에서 가까운 데이터들과 중심점과 동일한 군집에 속하는지 결정하여 군집하는 방법을 학습시키고, 상기 K-means 클러스터링 모델을 이용하여 상기 벡터화된 데이터를 군집화하는,
    자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
  9. 삭제
  10. 삭제
  11. 제8항에 있어서,
    상기 벡터화부는,
    상기 자기소개서 데이터의 각 행에 대응하여 상기 복수의 대상 단어를 벡터화하는,
    자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
  12. 제8항에 있어서,
    상기 전처리부는,
    상기 사업장 평가 데이터로부터 문장 부호를 제거하고, 상기 사업장 평가 데이터가 나타내는 행렬 중 비어 있는 행을 제거한 제1 전처리 데이터를 생성하며, 상기 제1 전처리 데이터로부터 맞춤법 검사를 수행하여 제2 전처리 데이터를 생성하고, 상기 제2 전처리 데이터로부터 단일 음절의 평가를 제거하여 제3 전처리 데이터를 생성하는,
    자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.
  13. 제12항에 있어서,
    상기 벡터화부는,
    상기 제3 전처리 데이터가 나타내는 복수의 문장을 벡터화하는,
    자기소개서 데이터 및 사업장 평가 데이터 분석 시스템.


  14. 삭제
KR1020230082630A 2023-06-27 2023-06-27 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템 KR102636010B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230082630A KR102636010B1 (ko) 2023-06-27 2023-06-27 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230082630A KR102636010B1 (ko) 2023-06-27 2023-06-27 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템

Publications (1)

Publication Number Publication Date
KR102636010B1 true KR102636010B1 (ko) 2024-02-13

Family

ID=89899471

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230082630A KR102636010B1 (ko) 2023-06-27 2023-06-27 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템

Country Status (1)

Country Link
KR (1) KR102636010B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160149050A (ko) * 2015-06-17 2016-12-27 한국과학기술정보연구원 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
KR20170079648A (ko) * 2015-12-30 2017-07-10 대한민국(국민안전처 국립재난안전연구원장) 미래위험 변화예측 분석 시스템
KR20190059449A (ko) * 2017-11-23 2019-05-31 지속가능발전소 주식회사 Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
KR20200052412A (ko) * 2018-10-24 2020-05-15 롯데정보통신 주식회사 인공지능 채용 시스템 및 상기 시스템의 채용 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160149050A (ko) * 2015-06-17 2016-12-27 한국과학기술정보연구원 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
KR20170079648A (ko) * 2015-12-30 2017-07-10 대한민국(국민안전처 국립재난안전연구원장) 미래위험 변화예측 분석 시스템
KR20190059449A (ko) * 2017-11-23 2019-05-31 지속가능발전소 주식회사 Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
KR20200052412A (ko) * 2018-10-24 2020-05-15 롯데정보통신 주식회사 인공지능 채용 시스템 및 상기 시스템의 채용 방법

Similar Documents

Publication Publication Date Title
Salur et al. A novel hybrid deep learning model for sentiment classification
US10650096B2 (en) Word segmentation method based on artificial intelligence, server and storage medium
Ghosh et al. Natural language processing fundamentals: build intelligent applications that can interpret the human language to deliver impactful results
US20230022677A1 (en) Document processing
US10261990B2 (en) Hybrid approach for short form detection and expansion to long forms
CN102063508A (zh) 基于广义后缀树的中文搜索引擎模糊自动补全方法
CN105210055A (zh) 根据跨语种短语表的断词器
Nassiri et al. Arabic readability assessment for foreign language learners
CN111144102A (zh) 用于识别语句中实体的方法、装置和电子设备
Jettakul et al. A comparative study on various deep learning techniques for Thai NLP lexical and syntactic tasks on noisy data
Indrawan et al. Handling of line breaking on Latin-to-Balinese script transliteration web application as part of Balinese language ubiquitous learning
Al-Sanabani et al. Improved an algorithm for Arabic name matching
Garain et al. JUNLP@ DravidianLangTech-EACL2021: Offensive language identification in Dravidian langauges
JP2021179781A (ja) 文抽出装置及び文抽出方法
Indrawan et al. Handling of mathematical expression on Latin-to-Balinese script transliteration method on mobile computing
Indrawan et al. Latin to Balinese script transliteration: lessons learned from the computer-based implementation
KR20200092487A (ko) 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법
KR102636010B1 (ko) 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템
Shrestha Codeswitching detection via lexical features in conditional random fields
KR102468975B1 (ko) 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치
CN116796742A (zh) 一种中医古籍命名实体识别方法、装置、设备和存储介质
Lone et al. Issues in Machine Translation—A Case Study of the Kashmiri Language
CN113407715A (zh) 文本分类方法、装置、计算机设备和存储介质
Indrawan et al. A method for scriptio continua management on the transliteration to the Balinese script
Nguyen et al. Vietnamese word segmentation with SVM: ambiguity reduction and suffix capture

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant