KR101414268B1 - 유효 단어를 분류하는 장치 및 방법 - Google Patents

유효 단어를 분류하는 장치 및 방법 Download PDF

Info

Publication number
KR101414268B1
KR101414268B1 KR1020130004600A KR20130004600A KR101414268B1 KR 101414268 B1 KR101414268 B1 KR 101414268B1 KR 1020130004600 A KR1020130004600 A KR 1020130004600A KR 20130004600 A KR20130004600 A KR 20130004600A KR 101414268 B1 KR101414268 B1 KR 101414268B1
Authority
KR
South Korea
Prior art keywords
word
data
words
valid
representative
Prior art date
Application number
KR1020130004600A
Other languages
English (en)
Inventor
이형종
Original Assignee
이형종
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이형종 filed Critical 이형종
Priority to KR1020130004600A priority Critical patent/KR101414268B1/ko
Application granted granted Critical
Publication of KR101414268B1 publication Critical patent/KR101414268B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

유효 단어를 분류하는 장치는 복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신하는 데이터 수신부, 상기 수신된 데이터에 포함된 복수의 단어들을 추출하는 단어 추출부, 상기 추출된 복수의 단어들로부터 유효 단어를 선택하는 유효 단어 선택부, 상기 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류하는 유효 단어 분류부 및 상기 분류된 대표 단어와 상기 연관 단어를 포함하는 그룹 데이터를 생성하는 그룹 데이터 생성부를 포함한다.

Description

유효 단어를 분류하는 장치 및 방법{apparatus for classifying effective word and method thereof}
유효 단어를 분류하는 장치 및 방법에 관한 것으로, 보다 상세하게, 유효 단어를 분류함으로써 그룹 데이터를 생성하는 장치 및 방법에 관한 것이다.
종래 기술로서 유효 단어를 분류하는 장치 및 방법으로는, 단순히 데이터로부터 단어들을 추출하고 명사의 수를 단수로 일치시키거나, 동사의 시제를 원형으로 일치시키는 정도에 불과했다. 예를 들어, 연필들이라는 의미의 "pencils" 를 "pencil" 형태로 추출하고, 3인칭 단수에 의한 현재형 동사로서 "watches"는 "watch" 형태로 추출되었다. 이와 관련하여, 한국공개특허공보 제10-2006-0120788호에는 영어 문장에서 단위 단어를 추출하고, 단위 단어의 원형을 결정하는 구성이 개시되어 있다.
나아가, 추출된 단어간 연관성이 있는 경우의 단어들을 하나의 그룹으로 생성하였다.
다만, 이러한 그룹에 포함되는 단어들 역시 명사, 동사에 그치므로, 사용자가 종래 기술에서 생성된 그룹을 확인함으로써 단어들의 중요도 혹은 폭넓게 다양한 연관 단어들을 한눈에 파악하기에는 어려움이 있었다.
따라서, 사용자로부터 단어들의 중요도 혹은 폭넓게 다양한 연관 단어들을 한눈에 파악하기 위한 니즈가 계속되어왔다.
데이터에 포함된 복수의 단어들로부터 선택된 유효 단어를 분류하는 장치 및 방법을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 유효 단어를 분류하는 장치는 복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신하는 데이터 수신부, 상기 수신된 데이터에 포함된 복수의 단어들을 추출하는 단어 추출부, 상기 추출된 복수의 단어들로부터 유효 단어를 선택하는 유효 단어 선택부, 상기 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류하는 유효 단어 분류부 및 상기 분류된 대표 단어와 상기 연관 단어를 포함하는 그룹 데이터를 생성하는 그룹 데이터 생성부를 포함하는 것을 특징으로 한다.
한편, 본 발명의 제 2 측면에 따른 유효 단어를 분류하는 방법은 복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신하는 단계, 상기 수신된 데이터에 포함된 복수의 단어들을 추출하는 단계, 상기 추출된 복수의 단어들로부터 유효 단어를 선택하는 단계, 상기 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류하는 단계 및 상기 분류된 대표 단어와 상기 연관 단어를 포함하는 그룹 데이터를 생성하는 단계를 포함하는 것을 특징으로 한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 유효 단어 분류 장치는 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류함으로써, 서로 연관된 유효 단어를 그룹으로 제공하는 등 이용자 편의성을 도모할 수 있다.
도 1은 본 발명의 일 실시예에 따른 유효 단어 분류 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 유효 단어 분류 장치의 구성도이다.
도 3은 본 발명의 다른 실시예에 따른, 추출된 복수의 단어들을 년도별로 표시한 표의 일례이다.
도 4는 본 발명의 일 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다.
도 5는 본 발명의 다른 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다.
도 6은 본 발명의 다른 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다.
도 7은 본 발명의 다른 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다.
도 8은 본 발명의 일 실시예에 따른 유효 단어 분류 장치가 유효 단어를 분류하는 방법을 나타낸 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 유효 단어 분류 시스템의 구성도이다. 도 1을 참조하면, 유효 단어 분류 장치(100), 문제 은행 장치(200), 사전 장치(300), 필수 단어 장치(400) 및 네트워크(500)을 포함할 수 있다. 다만, 이러한 도 1의 유효 단어 분류 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니다.
유효 단어 분류 장치(100)는 복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신할 수 있다. 이 때, 적어도 하나 이상의 데이터는 문제 은행 장치(200)로부터 수신하는 문제 데이터 또는 필수 단어 장치(400)로부터 수신하는 필수 단어 데이터일 수 있다. 여기서 문제 데이터는 영어, 일본어, 독일어, 프랑스어, 중국어 등 제 2 외국어뿐만 아니라 한국어 중 어느 하나를 대상으로하는 문제 데이터일 수 있다.
유효 단어 분류 장치(100)는 수신한 데이터에 포함된 복수의 단어들을 추출하고, 그 중 유효 단어를 선택할 수 있다. 또한, 유효 단어 분류 장치(100)는 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류하고, 분류된 대표 단어와 상기 연관 단어를 포함하는 그룹 데이터를 생성할 수 있다. 여기서, 유효 단어 분류 장치(100)는 대표 단어와 연관 단어를 분류하기 위해 사전 장치(300)로부터 사전 데이터를 수신하고, 수신된 사전 데이터를 이용하여 대표 단어와 연관 단어를 분류할 수 있다.
문제 은행 장치(200)는 유효 단어 분류 장치(100)에게 문제 데이터를 전송할 수 있다. 이 때, 문제 데이터는 수학능력시험 문제 데이터, 한국 교육과정 평가원이 주관하는 수학능력시험 모의 문제 데이터, EBS 교재 문제 데이터를 포함할 수 있다.
여기서, 각각의 문제 데이터는 출처와 해당 년도를 포함할 수 있다. 즉, 문제 은행 장치(200)에서 유효 단어 분류 장치(100)에게 전송되는 문제 데이터는 몇 년도의 어떤 문제 데이터인지를 식별하는 정보를 포함할 수 있다. 한 해에 여러 번 시행되는 문제 데이터는 출처와 해당 년도와 해당 월을 포함할 수 있다,
사전 장치(300)는 유효 단어 분류 장치(100)에게 사전 데이터를 전송할 수 있다. 여기서 사전(dictionary) 데이터는 영어, 일본어, 독일어, 프랑스어, 중국어 등 제 2 외국어뿐만 아니라 한국어 중 어느 하나를 대상으로하는 사전 데이터일 수 있다.
필수 단어 장치(400)는 유효 단어 분류 장치(100)에게 필수 단어 데이터를 전송할 수 있다. 이 때, 필수 단어 데이터는 교육과학기술부에서 지정한 필수 단어일 수 있고, 출처와 해당 년도를 포함할 수 있다.
필수 단어 데이터는 유효 단어 분류 장치(100)에서 유효 단어를 선택하는데 이용되거나, 대표 단어를 결정하는데 이용될 수 있다. 이 때, 필수 단어 데이터는 영어, 일본어, 독일어, 프랑스어, 중국어 등 제 2 외국어뿐만 아니라 한국어 중 어느 하나를 대상으로하는 필수 단어 데이터일 수 있다.
네트워크(500)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(network)의 일 예에는 인터넷(Internet), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, LTE(Long Term Evolution), WiFi(Wireless Fidelity), WiMAX(World Interoperability for Microwave Access), WiGig(Wireless Gigabit) 등이 포함되나 이에 한정되지는 않는다.
이하에서는 도 1의 유효 단어 분류 장치(100)의 동작에 대해 보다 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 유효 단어 분류 장치(100)의 구성도이다. 도 2를 참조하면, 유효 단어 분류 장치(100)는 데이터 수신부(110), 단어 추출부(120), 유효 단어 선택부(130), 유효 단어 분류부(140), 그룹 데이터 생성부(150), 표시부(160), 데이터 전송부(170) 및 DB(데이터베이스)(190)를 포함할 수 있다. 다만, 도 2에 도시된 유효 단어 분류 장치(100)는 본 발명의 하나의 구현 예에 불과하며, 도 2에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. 예를 들어, 유효 단어 분류 장치(100)는 이용자로부터 어떤 명령 내지 정보를 입력받기 위한 유저 인터페이스가 더 포함될 수 있다. 이 경우, 유저 인터페이스는 일반적으로 키보드, 마우스 등과 같은 입력 장치가 될 수도 있으나, 영상 표시 장치에 표현되는 그래픽 유저 인터페이스(GUI, Graphical User interface)가 될 수도 있다.
데이터 수신부(110)는 복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신할 수 있다. 이 때 적어도 하나 이상의 데이터는 문제 은행 장치(200)로부터 수신하는 문제 데이터 또는 필수 단어 장치(400)로부터 수신하는 필수 단어 데이터일 수 있다. 여기서 문제 데이터는 영어, 일본어, 독일어, 프랑스어, 중국어 등 제 2 외국어뿐만 아니라 한국어 중 어느 하나를 대상으로하는 문제 데이터일 수 있다.
이하에서 문제 데이터는 영어 문제 데이터를 예를 들어 설명한다.
앞서 보았듯이 데이터 수신부(110)에서 수신한 복수의 데이터 각각은 각각의 데이터와 관련된 출처를 포함할 수 있다.
또한, 데이터 수신부(110)는 유효 단어 분류부(140)에서 대표 단어와 연관 단어를 분류하는데 이용되는 사전 데이터를 수신할 수 있다.
나아가, 데이터 수신부(110)는 유효 단어 선택부(130)에서 유효 단어를 선택하는데 이용되는 필수 단어 데이터를 수신할 수 있다.
단어 추출부(120)는 데이터 수신부(110)에서 수신된 데이터에 포함된 복수의 단어들을 추출할 수 있다. 만일 데이터 수신부(110)에서 수신된 데이터가 이미지 데이터인 경우, 단어 추출부(120)는 OCR(Optical Character Reader) 방식을 이용하여 복수의 단어들을 추출할 수 있다.
도 3을 참조하면, 단어 추출부(120)에서 추출된 복수의 단어들을 년도별로 표시한 표의 일례를 볼 수 있다. 이 때, 도 3에 도시된 표는 복수의 유효 단어들을 년도별로 표시한 표의 일례일 수 있다.
단어 추출부(120)는 데이터 수신부(110)에서 수신된 데이터에 포함된 복수의 단어들 중 동사는 원형 동사로 추출하고, 명사는 단수형 명사로 추출할 수 있다. 즉, 단어 추출부(120)는 데이터에 포함된 동사의 시제가 미래형, 과거형, 진행형 등인 경우는 해당 동사를 동사의 원형으로 추출하고, 명사의 수가 복수형인 경우는 해당 명사를 명사의 단수형으로 추출할 수 있다. 이는 코퍼스 프로그램을 이용함으로써 실행될 수 있다.
유효 단어 선택부(130)는 단어 추출부(120)에서 추출된 복수의 단어들로부터 유효 단어를 선택할 수 있다. 이 때, 유효 단어는 여러 가지 조건에 기초하여 선택될 수 있다.
유효 단어는 전치사, 접속사 또는 관사를 제외한 품사의 단어들일 수 있다. 또한, 유효 단어는 사람의 이름 등을 포함하는 고유 명사 또는 외래어를 제외한 단어들일 수 있다.
나아가, 유효 단어는 상기 추출된 복수의 단어들의 난이도에 기초하여 선택될 수 있다. 이 때, 복수의 단어들의 난이도를 판단하기 위한 기준으로 교육과학기술부에서 지정한 필수 단어 데이터를 이용할 수 있다. 또한, 수학능력시험의 경우, 문제에 단어 뜻이 주어진 난이도 높은 단어는 유효 단어에서 제외될 수 있다.
유효 단어 분류부(140)는 유효 단어 선택부(130)에서 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 대표 단어와 연관된 연관 단어를 분류할 수 있다.
대표 단어와 연관 단어는 누적 빈도수 또는 데이터 빈도수에 기초하여 결정될 수 있다. 예를 들어, 유효 단어 분류부(140)는 하나의 그룹에 포함된 유효 단어들 중 누적 빈도수 또는 데이터 빈도수가 가장 높은 유효 단어를 대표 단어로 결정하고, 나머지 유효 단어들을 연관 단어로 결정할 수 있다.
또한, 대표 단어와 연관 단어는 필수 단어 장치(400)로부터 수신한 교육과학기술부에서 지정한 필수 단어 데이터에 기초하여 결정될 수 있다.
나아가, 상대적으로 중요한 동사, 명사, 형용사 및 상대적으로 덜 중요한 부사의 순서로 대표 단어를 결정할 수 있다. 즉, 유효 단어로서 동사, 명사, 형용사 및 부사가 있는 경우 동사가 대표 단어가 될 수 있고, 또는 유효 단어로서 명사 및 부사가 있는 경우 명사가 대표 단어가 될 수 있다.
여기서 누적 빈도수는 유효 단어가 데이터 수신부(110)에서 수신한 적어도 하나 이상의 데이터 전체로부터 추출된 총 횟수이고, 데이터 빈도수는 유효 단어를 포함하는 데이터의 개수이다. 예를 들어, 데이터 수신부(110)에서 수신한 데이터는 2010년도, 2011년도 및 2012년도 수학능력시험 문제 데이터이고, "patent"가 2010년도 수학능력시험에 3번, 2012년도 수학능력시험에 0번, 2012년도 수학능력시험에 5번 포함된 경우, "patent"의 누적 빈도수는 8번, 데이터 빈도수는 2번이 된다.
대표 단어와 연관 단어는 여러 가지 조건에 기초하여 분류될 수 있다.
대표 단어와 연관 단어는 유효 단어 선택부(130)에서 선택된 유효 단어들의 어근을 기준으로 분류될 수 있다. 즉, 유효 단어 분류부(140)는 어근이 공통된 동사, 명사, 형용사, 부사 등을 하나의 그룹을 대표하는 대표 단어 또는 연관 단어로 분류할 수 있다. 어근을 기준으로 분류되는 대표 단어와 연관 단어는 추후 도 4 및 도 6을 참조하여 설명한다.
대표 단어와 연관 단어는 유효 단어 선택부(130)에서 선택된 유효 단어들의 의미를 기준으로 분류될 수 있다. 예를 들어, 유효 단어 분류부(140)는 비슷한 뜻을 가진 유의어 또는 반대의 뜻을 가진 반의어들을 하나의 그룹을 대표하는 대표 단어 또는 연관 단어로 분류할 수 있다. 또한, 유효 단어 분류부(140)는 단어의 의미에 연관성이 있는 유효 단어들, 예를들어 태평양, 대서양, 인도양 등,을 하나의 그룹을 대표하는 대표 단어 또는 연관 단어로 분류할 수 있다. 의미를 기준으로 분류되는 대표 단어와 연관 단어는 추후 도 5 내지 도 7을 참조하여 설명한다.
대표 단어와 연관 단어는 유효 단어 선택부(130)에서 선택된 유효 단어들의 철자 구성에 기초하여 분류될 수 있다. 예를 들어, 철자가 비슷해 혼동되기 쉬운 단어로서 "abroad"와 "aboard" 또는 "biennial"과 "biannual" 등을 하나의 그룹으로 설정할 수 있다.
대표 단어와 연관 단어는 유효 단어 선택부(130)에서 선택된 유효 단어들의 접사에 기초하여 분류될 수 있다. 예를 들어, 접두사로서 "un", "en", "in" 또는 접미사로서 "able", "tion" 중 어느 하나를 접사로 갖는 유효 단어들을 하나의 그룹으로 설정할 수 있다.
그룹 데이터 생성부(150)는 유효 단어 분류부(140)에서 분류된 대표 단어와 연관 단어를 포함하는 그룹 데이터를 생성할 수 있다.
표시부(160)는 그룹 데이터 생성부(150)에서 생성된 그룹 데이터를 디스플레이 장치(미도시)에 표시할 수 있다. 이 때, 그룹 데이터에 포함된 대표 단어와 연관 단어는 구별되어 표시될 수 있다. 또한, 디스플레이 장치에 표시되는 그룹 데이터는 적어도 하나 이상의 예문, 의미, 기타 코멘트 및 유효 단어에 대응하는 문제 데이터를 식별하는 정보를 포함할 수 있다. 여기서, 적어도 하나 이상의 의미는 실제 문제에서 쓰인 의미와 대표적인 의미를 포함할 수 있다.
이하 도 4 내지 7을 참조하여, 디스플레이 장치에 표시되는 그룹 데이터를 설명한다.
도 4는 본 발명의 일 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다. 또한, 도 5에 도시된 그룹 데이터는 어근을 기준으로 분류되는 대표 단어와 연관 단어를 포함한다.
도 4를 참조하면, 디스플레이 장치에 표시된 그룹 데이터는 대표 단어 161, 대표 단어의 예문 및 대표 단어의 의미 162, 대표 단어에 대응하는 문제 데이터의 식별 정보 163, 연관 단어, 연관 단어에 대응하는 문제 데이터의 식별 정보 및 연관 단어의 의미 164 및 기타 코멘트를 포함할 수 있다.
도 5는 본 발명의 다른 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다. 또한, 도 5에 도시된 그룹 데이터는 의미를 기준으로 분류되는 대표 단어와 연관 단어를 포함한다.
도 6은 본 발명의 다른 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다. 또한, 도 6에 도시된 그룹 데이터는 어근 또는 의미를 기준으로 분류되는 대표 단어와 연관 단어를 포함한다.
즉, 도 6에 도시된 그룹 데이터는 "likely"와 어근을 공유하는 "likewise", "likelihood" 및 "likeness" 뿐만 아니라 비슷한 의미를 갖는 "prone" 및 "liable"을 유효 데이터로서 포함한다.
도 7은 본 발명의 다른 실시예에 따른, 디스플레이 장치에 표시된 그룹 데이터를 도시한 화면의 일례이다. 또한, 도 7에 도시된 그룹 데이터는 의미를 기준으로 분류되는 대표 단어와 연관 단어를 포함한다.
도 5 및 도 7을 비교하면, 도 5에 도시된 그룹 데이터는 "path"와 비슷한 의미를 갖는 "route", "track", "highway" 등을 포함하는 반면에 도 7에 도시된 그룹 데이터는 "ocean"과 비슷하기 보다는 "ocean"에 포함되는 의미로서 "Pacific", "Atlantic", "Indian" 및 "Mediterranean"을 포함한다.
표시부(170)는 그룹 데이터 생성부(150)에서 생성된 그룹 데이터가 복수개인 경우, 복수의 그룹 데이터는 각각의 그룹 데이터에 포함된 대표 단어와 연관 단어의 누적 빈도수 또는 데이터 빈도수를 합한 값에 기초하여 디스플레이 장치에 표시되는 순서가 결정될 수 있다.
데이터 전송부(180)는 생성된 그룹 데이터를 인쇄 장치에게 전송할 수 있다.
DB(190)는 데이터를 저장한다. 이 때, 데이터는 유효 단어 분류 장치(100) 내부의 각 구성요소들 간에 입력 및 출력되는 데이터를 포함하고, 유효 단어 분류 장치(100)와 유효 단어 분류 장치(100) 외부의 구성요소들간에 입력 및 출력되는 데이터를 포함한다. 예를 들어, DB(190)는 데이터 수신부(110)에서 수신한 데이터, 사전 데이터 및 필수 단어 데이터를 저장할 수 있다. 이러한 DB(190)의 일 예에는 유효 단어 분류 장치(100) 내부 또는 외부에 존재하는 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 플래쉬메모리 및 메모리카드 등이 포함된다.
당업자라면, 데이터 수신부(110), 단어 추출부(120), 유효 단어 선택부(130), 유효 단어 분류부(140), 그룹 데이터 생성부(150), 표시부(160), 데이터 전송부(170) 및 DB(190) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 8은 본 발명의 일 실시예에 따른 유효 단어 분류 장치(100)가 유효 단어를 분류하는 방법을 나타낸 동작 흐름도이다. 도 8에 도시된 실시예에 따른 유효 단어를 분류하는 방법은 도 2 내지 도 7에 도시된 실시예에 따른 유효 단어 분류 장치(100)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 2 내지 도 7의 유효 단어 분류 장치(100)에 관하여 기술된 내용은 도 8에 도시된 실시예에 따른 유효 단어를 분류하는 방법에도 적용된다.
단계 S801에서 유효 단어 분류 장치(100)는 복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신할 수 있다.
단계 S803에서 유효 단어 분류 장치(100)는 단계 S801에서 수신된 데이터에 포함된 복수의 단어들을 추출할 수 있다.
단계 S805에서 유효 단어 분류 장치(100)는 단계 S803에서 추출된 복수의 단어들로부터 유효 단어를 선택할 수 있다.
단계 S807에서 유효 단어 분류 장치(100)는 단계 S805에서 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류할 수 있다.
단계 S809에서 유효 단어 분류 장치(100)는 단계 S807에서 분류된 대표 단어와 연관 단어를 포함하는 그룹 데이터를 생성할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 유효 단어 분류 장치
200: 문제 은행 장치
300: 사전 장치
400: 필수 단어 장치
500: 네트워크

Claims (22)

  1. 유효 단어를 분류하는 장치에 있어서,
    복수의 단어를 포함하는 적어도 하나 이상의 데이터를 수신하는 데이터 수신부;
    상기 수신된 데이터에 포함된 복수의 단어들을 추출하는 단어 추출부;
    상기 추출된 복수의 단어들로부터 유효 단어를 선택하는 유효 단어 선택부;
    상기 선택된 유효 단어로부터 그룹을 대표하는 대표 단어와 상기 대표 단어와 연관된 연관 단어를 분류하는 유효 단어 분류부; 및
    상기 분류된 대표 단어와 상기 연관 단어를 포함하는 그룹 데이터를 생성하는 그룹 데이터 생성부를 포함하되,
    상기 유효 단어 선택부는 상기 추출된 복수의 단어들 중 전치사, 접속사 및 관사가 아닌 단어를 상기 유효 단어로 선택하는 것이고,
    상기 유효 단어는 상기 추출된 복수의 단어들의 난이도에 기초하여 선택되는 것이고,
    상기 대표 단어와 상기 연관 단어는 상기 선택된 유효 단어들의 어근을 기준으로 분류되는 것이고,
    상기 대표 단어와 상기 연관 단어는 상기 선택된 유효 단어들의 의미를 기준으로 분류되는 것이고,
    상기 대표 단어와 상기 연관 단어는 상기 선택된 유효 단어들의 철자 구성에 기초하여 분류되는 것이고,
    상기 대표 단어와 상기 연관 단어는 상기 선택된 유효 단어들의 접사에 기초하여 분류되는 것이고,
    상기 데이터 수신부는 단어 데이터를 더 수신하고,
    상기 유효 단어 선택부는 상기 수신된 단어 데이터를 이용하여 상기 유효 단어를 선택하는 것인, 유효 단어 분류 장치.
  2. 제 1 항에 있어서,
    상기 수신된 복수의 데이터 각각은 상기 각각의 데이터와 관련된 출처를 포함하는 것인, 유효 단어 분류 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    상기 단어 추출부는 상기 수신된 데이터에 포함된 복수의 단어들 중 동사는 원형 동사로 추출하고, 명사는 단수형 명사로 추출하는 것인, 유효 단어 분류 장치.
  7. 삭제
  8. 삭제
  9. 제 1 항에 있어서,
    상기 유효 단어는 상기 수신된 데이터로부터 추출된 횟수인 누적 빈도수 또는 상기 선택된 유효 단어를 포함하는 데이터의 개수인 데이터 빈도수를 포함하는 것인, 유효 단어 분류 장치.
  10. 제 9 항에 있어서,
    상기 대표 단어와 상기 연관 단어는 상기 누적 빈도수 또는 상기 데이터 빈도수에 기초하여 결정되는 것인, 유효 단어 분류 장치.
  11. 삭제
  12. 삭제
  13. 제 9 항에 있어서,
    상기 생성된 그룹 데이터를 디스플레이 장치에 표시하는 표시부를 더 포함하고,
    상기 그룹 데이터에 포함된 상기 대표 단어와 상기 연관 단어는 구별되어 표시되는 것인, 유효 단어 분류 장치.
  14. 제 13 항에 있어서,
    상기 생성된 그룹 데이터가 복수개인 경우, 상기 생성된 그룹 데이터는 상기 그룹 데이터에 포함된 상기 대표 단어와 상기 연관 단어의 누적 빈도수를 합한 값에 기초하여 표시되는 순서가 결정되는 것인, 유효 단어 분류 장치.
  15. 제 13 항에 있어서,
    상기 생성된 그룹 데이터가 복수개인 경우, 상기 생성된 그룹 데이터는 상기 그룹 데이터에 포함된 상기 대표 단어와 상기 연관 단어의 데이터 빈도수를 합한 값에 기초하여 표시되는 순서가 결정되는 것인, 유효 단어 분류 장치.
  16. 제 1 항에 있어서,
    상기 데이터 수신부는 사전 데이터를 더 수신하고,
    상기 유효 단어 분류부는 상기 수신된 사전 데이터를 이용하여 상기 대표 단어와 상기 연관 단어를 분류하는 것인, 유효 단어 분류 장치.
  17. 제 1 항에 있어서,
    상기 생성된 그룹 데이터를 인쇄 장치에게 전송하는 데이터 전송부를 더 포함하는, 유효 단어 분류 장치.
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
KR1020130004600A 2013-01-15 2013-01-15 유효 단어를 분류하는 장치 및 방법 KR101414268B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130004600A KR101414268B1 (ko) 2013-01-15 2013-01-15 유효 단어를 분류하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130004600A KR101414268B1 (ko) 2013-01-15 2013-01-15 유효 단어를 분류하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101414268B1 true KR101414268B1 (ko) 2014-07-04

Family

ID=51740935

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130004600A KR101414268B1 (ko) 2013-01-15 2013-01-15 유효 단어를 분류하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101414268B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210007776A (ko) * 2019-07-12 2021-01-20 주식회사 테크온힐 인공 지능 기반 상품명 그룹핑 방법 및 이를 지원하기 위한 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110035001A (ko) * 2009-09-29 2011-04-06 장인하 키워드 시각화 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110035001A (ko) * 2009-09-29 2011-04-06 장인하 키워드 시각화 장치 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210007776A (ko) * 2019-07-12 2021-01-20 주식회사 테크온힐 인공 지능 기반 상품명 그룹핑 방법 및 이를 지원하기 위한 장치
KR102341822B1 (ko) 2019-07-12 2021-12-22 주식회사 테크온힐 인공 지능 기반 상품명 그룹핑 방법 및 이를 지원하기 위한 장치

Similar Documents

Publication Publication Date Title
Bholat et al. Text mining for central banks
US9753916B2 (en) Automatic generation of a speech by processing raw claims to a set of arguments
US20200073996A1 (en) Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
Moussa et al. A survey on opinion summarization techniques for social media
US20170308523A1 (en) A method and system for sentiment classification and emotion classification
US20160350288A1 (en) Multilingual embeddings for natural language processing
US20150278195A1 (en) Text data sentiment analysis method
Al-Kabi et al. An opinion analysis tool for colloquial and standard Arabic
US20170039275A1 (en) Automated Article Summarization, Visualization and Analysis Using Cognitive Services
Ganesan et al. Empirical evaluation of pre-trained transformers for human-level NLP: The role of sample size and dimensionality
Albalawi et al. Investigating the impact of pre-processing techniques and pre-trained word embeddings in detecting Arabic health information on social media
Al-Ghadir et al. A study of arabic social media users—posting behavior and author’s gender prediction
Munday Text analysis and translation
Pla et al. Spanish sentiment analysis in Twitter at the TASS workshop
Madyatmadja et al. Contextual text analytics framework for citizen report classification: A case study using the Indonesian language
Altuncu et al. Graph-based topic extraction from vector embeddings of text documents: Application to a corpus of news articles
KR101414268B1 (ko) 유효 단어를 분류하는 장치 및 방법
McCarthy et al. A mixed-methods analysis of western and Hong Kong–based reporting on the 2019–2020 protests
Thomas et al. Predicting visual political bias using webly supervised data and an auxiliary task
Héja Revisiting translational equivalence: Contributions from data-driven bilingual lexicography
Hoberg Supply chain and big data
Esiyok et al. Twitter sentiment tracking for predicting marketing trends
Arshad et al. ABMRF: An Ensemble Model for Author Profiling Based on Stylistic Features Using Roman Urdu.
Stirling et al. Tense, aspect, modality and evidentiality in Australian languages: Foreword
Petrenz Assessing approaches to genre classification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170619

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180711

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190529

Year of fee payment: 6