KR102576358B1

KR102576358B1 - 수어 번역을 위한 학습데이터 생성 장치 및 그의 동작 방법

Info

Publication number: KR102576358B1
Application number: KR1020220182743A
Authority: KR
Inventors: 김종화; 조남제
Original assignee: 주식회사 케이엘큐브
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-09-11

Abstract

본 개시의 일 실시 예에 따른 인공지능 기반의 수어 번역을 위한 학습데이터를 생성하는 학습데이터 생성 장치의 동작 방법은 국어문으로 구성된 제1 텍스트 데이터에 대해 수어문으로 구성된 제2 텍스트 데이터로의 번역을 요청하는 단계, 상기 제2 텍스트 데이터를 수신하면, 상기 제2 텍스트 데이터로부터 하나 이상의 의미 요소들을 획득하는 단계, 상기 제1 텍스트 데이터에 대한 수어 영상 데이터를 획득하는 단계, 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 기반으로 학습데이터를 생성하는 단계, 및 상기 학습데이터를 저장하는 단계를 포함한다.

Description

수어 번역을 위한 학습데이터 생성 장치 및 그의 동작 방법{LEARNING DATA GENERATING DEVICE FOR SIGN LANGUAGE TRANSLATION AND METHOD OF OPERATION THEREOF}

본 개시는 학습데이터 생성 장치 및 그의 동작 방법에 관한 것으로, 보다 상세하게는, 인공지능 학습을 위한 수어 번역용 학습데이터를 생성하는 학습데이터 생성 장치 및 그의 동작 방법에 관한 것이다.

수어(手語, Sign language)는 농인에게 의사를 전달하고자 할 때 사용되는 가장 대표적인 방식으로 제스처(gesture)를 통해 의사를 전달하는 방법을 말한다. 수어는 독자적인 문법을 갖고, 정해진 의미를 갖는 제스처를 연속적으로 수행하여 문장을 표현한다.

수어의 문법은 음성과 문자로 표현되는 음성 언어(vocal language)의 문법과 다르다. 따라서, 청인이 수어로 불편함 없이 의사를 표현하기 위해서는 전문 교육을 장시간 이수해야하기 때문에, 청인의 대다수가 수어를 이용하여 농인과 의사소통하는 것에 어려움을 겪는다. 이러한 의사 전달의 어려움을 해결하기 위해서는 청인에게 익숙한 음성 언어를 농인에게 익숙한 수어로 변환해주는 기술(이하, 수어 번역 기술)이 필수적으로 요구되고, 최근에는 인공지능을 통한 수어 통역/번역 기술에 대한 연구가 활발히 진행되고 있다.

머신 러닝(machine learning) 또는 기계 학습은 인공지능의 한 분야로, 컴퓨터에 미리 준비된 학습데이터를 훈련시켜, 훈련된 지식을 기반으로 새로운 입력에 대하여 적절한 답을 찾고자 하는 일련의 과정이라 할 수 있다. 이때, 컴퓨터를 훈련시키는 학습데이터가 질문(training input)과 정답(training output)이 모두 주어진 경우, 레이블링(labeling) 되어 있다고 한다.

한편, 머신 러닝을 기반으로 수어 번역(또는 통역, 이하 동일)을 하는 경우, 특징 추출 및 학습 알고리즘과 함께 중요한 것이 레이블된 학습데이터의 수집에 있으며, 레이블된 학습데이터가 많이 제공되면 될수록, 학습은 더 효과적으로 진행될 수 있다. 이를 위해서, 수천에서 수만 건의 레이블된 학습데이터가 필요하지만, 레이블된 학습데이터는 일반적으로 수동 작업으로 만들어지고 있는 실정이므로, 방대한 양의 레이블된 학습데이터를 구하는 것은 쉽지 않다. 따라서, 머신 러닝의 효과적인 학습을 위해서는, 효율적으로 레이블된 학습데이터를 생성하는 방안이 필요하다.

본 개시는 수어 통역/번역을 원활하게 할 수 있는 인공지능 모델을 확보하기 위해 필요한 학습데이터를 효율적으로 생성할 수 있는 학습데이터 생성 장치 및 그의 동작 방법를 제공하는 것을 목적으로 한다.

실시 예에 따라, 상기 하나 이상의 의미 요소들을 획득하는 단계는 상기 제2 텍스트 데이터에 대한 형태소 분석을 통해 상기 제2 텍스트 데이터를 수어의 최소 의미 단위인 상기 하나 이상의 의미 요소들로 분리하는 단계를 더 포함할 수 있다.

실시 예에 따라, 상기 수어 영상 데이터를 획득하는 단계는 카메라를 포함하는 촬영 장치에 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 제공하는 단계, 및 상기 촬영 장치로부터 상기 수어 영상 데이터를 수신하는 단계를 더 포함할 수 있다.

실시 예에 따라, 상기 학습데이터를 생성하는 단계는 작업자 단말에 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 전송하는 단계, 상기 작업자 단말로부터 타임라인을 기반으로 상기 하나 이상의 의미 요소들이 상기 수어 영상 데이터에 매칭된 맵핑 정보를 수신하는 단계, 및 상기 맵핑 정보를 기반으로 토큰 정보를 생성하는 단계를 더 포함할 수 있다.

실시 예에 따라, 상기 학습데이터를 저장하는 단계는 상기 토큰 정보의 정확도가 기준 값 이상인 경우 입력이 상기 제1 텍스트 데이터이고 정답이 상기 하나 이상의 의미 요소들의 시퀀스인 상기 학습데이터를 기반으로 학습용 데이터베이스를 생성하는 단계를 더 포함할 수 있다.

본 개시의 일 실시 예에 따른 학습데이터 생성 장치는 외부 장치들과 데이터를 송수신하도록 구성된 인터페이스, 수어 영상 데이터를 획득하도록 구성된 센서, 및 프로세서를 포함한다. 상기 프로세서는 상기 외부 장치들 중 수어문 번역 장치에 국어문으로 구성된 제1 텍스트 데이터에 대해 수어문으로 구성된 제2 텍스트 데이터로의 번역을 요청하고, 상기 제2 텍스트 데이터를 수신하면, 상기 제2 텍스트 데이터로부터 하나 이상의 의미 요소들을 획득하고, 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 기반으로 학습데이터를 생성하고, 그리고 상기 학습데이터를 저장하여 데이터베이스를 생성하도록 구성된다.

본 개시의 일 실시 예에 따른 학습데이터 생성 장치 및 그의 동작 방법은 인공지능 기반의 수어 번역 시스템의 학습에 필요한 레이블된 학습데이터를 효율적으로 생성할 수 있다. 이에 의해, 머신 러닝을 효과적으로 진행할 수 있으며, 이를 통해 생성된 학습데이터를 이용하여 수어 번역 시스템의 활용성을 높일 수 있다.

도 1은 본 개시의 일 실시 예에 따른 수어 학습 시스템을 나타내는 블록도이다.
도 2는 도 1의 학습데이터 생성 장치를 나타내는 블록도이다.
도 3은 도 2의 프로세서를 나타내는 블록도이다.
도 4는 본 개시의 일 실시 예에 따른 학습데이터 생성 장치의 동작 방법을 나타내는 순서도이다.
도 5는 도 4의 S150 단계를 설명하기 위한 도면이다.
도 6a 및 도 6b는 도 5의 S410 단계를 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 학습데이터 생성 장치가 적용된 수어 번역 시스템을 보여주는 블록도이다.

이하에서, 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있을 정도로, 본 발명의 실시 예들이 명확하고 상세하게 기재될 것이다. 다만, 본 발명은 청구범위에 기재된 범위 안에서 여러 가지 상이한 형태로 구현될 수 있으므로 하기에 설명하는 실시 예들은 표현 여부에 불구하고 예시에 불과하다. 즉, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예에 대해 설명하면, 다음과 같다.

도 1은 본 개시의 일 실시 예에 따른 수어 학습 시스템을 나타내는 블록도이다. 수어 학습 시스템(10)은 수어 번역을 위한 머신 러닝에 사용되는 레이블된 학습데이터를 생성할 수 있다. 예를 들어, 수어 학습 시스템(10)은 국어문에 대한 수어문 및 국어문에 대한 수어 영상을 기반으로 데이터 라벨링 작업을 통해 학습데이터를 생성할 수 있다. 도 1을 참조하면, 수어 학습 시스템(10)은 학습데이터 생성 장치(100), 수어문 번역 장치(200), 수어 영상 촬영 장치(300) 및 작업자 단말(400)을 포함할 수 있다.

학습데이터 생성 장치(100)는 수어 번역을 위한 국어문을 입력받을 수 있다. 국어문은 학습데이터 생성 장치(100)의 사용자로부터 UI를 통해 지정 혹은 입력되는 문장일 수 있으며, 학습데이터 생성 장치(100)의 방송신호 수신기에 탑재되어 운영될 경우 수신된 방송신호에서 분리되어 디코딩 처리된 자막 방송의 문장일 수 있으며, 통신망을 통해 연동 가능한 타 컴퓨터 혹은 서버 시스템에서 전송되는 번역 요청 문장일 수 있다.

학습데이터 생성 장치(100)는 국어문을 입력으로 하는 학습데이터를 생성하기 위한 일련의 동작들을 제어하도록 구성된다. 예를 들어, 학습데이터 생성 장치(100)는 수어문 번역 장치(200)에 국어문에 대한 수어문 번역을 의뢰할 수 있다. 학습데이터 생성 장치(100)는 수어 영상 촬영 장치(300)에 국어문에 대한 수어 영상 촬영을 요청할 수 있다. 학습데이터 생성 장치(100)는 수어문 및 수어 영상을 작업자 단말(400)에 제공하여 라벨링 작업을 제어할 수 있다.

실시 예에 따라, 학습데이터 생성 장치(100)는 네트워크(Network)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터, 서버 또는 클라우드로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 즉, 학습데이터 생성 장치(100)는 네트워크(Network)를 통하여 수어문 번역 장치(200), 수어 영상 촬영 장치(300) 및 작업자 단말(400)과 통신할 수 있다. 학습데이터 생성 장치(100)에 관한 상세한 설명은 도 2에서 후술된다.

네트워크(Network)는 수어 학습 시스템(10)은 학습데이터 생성 장치(100), 수어문 번역 장치(200), 수어 영상 촬영 장치(300) 및 작업자 단말(400)을 전기적으로 상호 연결할 수 있다. 네트워크(Network)는 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

수어문 번역 장치(200)는 학습데이터 생성 장치(100)로부터 국어문을 수신하고, 국어문을 수어문으로 번역하도록 구성된다. 수어문 번역 장치(200)는 번역 전문가의 입력 신호를 기반으로 수어문 번역 작업을 수행할 수 있다. 국어문과 수어문을 구분하기 위해, 국어문은 제1 텍스트 데이터로, 수어문은 제2 텍스트 데이터로 명명될 수 있다. 예를 들어, 수어문 번역 장치(200)는 국어문으로 구성된 제1 텍스트 데이터를 수신하여 수어문으로 구성된 제2 텍스트 데이터로 변환할 수 있다.

수어문은 국어문과 문법 체계가 다르기 때문에, 전문가의 수어문 번역 작업이 필요하다. 예를 들어, “나는 튼튼한 집을 샀다”의 문장을 그대로 일대일 번역한다면, “나+튼튼하다+집+사다”로 표현될 수 있고, 이는 한국어 문장에 익숙하지 않은 농인 입장에서 “나는 튼튼하고 (나는) 집을 샀다”고 이해할 수 있다. 따라서, 의도를 제대로 전달하려면, “나+집+사다, 집+강하다”로 어순에 변화를 주고 서술적 표현을 더하면 보다 더 확실한 의미 전달이 가능하다.

수어문 번역 장치(200)는 제2 텍스트 데이터를 학습데이터 생성 장치(100)에 제공할 수 있다. 학습데이터 생성 장치(100)는 제1 텍스트 데이터 및 제2 텍스트 데이터를 수어 영상 촬영 장치(300)에 제공할 수 있다.

수어 영상 촬영 장치(300)는 국어문에 대한 수어 영상을 촬영하도록 구성될 수 있다. 예를 들어, 수어 영상 촬영 장치(300)는 카메라를 포함할 수 있고, 카메라를 통해 제1 텍스트 데이터에 대한 수어 영상 데이터를 생성할 수 있다. 수어 영상은 수어 전문가에 의해 촬영될 수 있고, 실시 예에 따라, 수어 전문가는 제2 텍스트 데이터를 참고하여 수어 영상을 생성할 수 있다. 실시 예에 따라, 수어 영상 촬영 장치(300)는 학습데이터 생성 장치(100)에 통합될 수 있다.

작업자 단말(400)은 라벨링 작업을 수행하는 작업자의 모바일 단말을 포함할 수 있다. 작업자 단말(400)은 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

작업자 단말(400)은 학습데이터 생성 장치(100)에서 제공하는 웹 서버 또는 어플리케이션을 통해 데이터 라벨링 작업을 수행할 수 있다. 예를 들어, 작업자 단말(400)은 작업자의 입력 신호를 기반으로 수어 영상 데이터에 수어의 최소 의미 단위인 의미 요소를 맵핑하여 토큰을 생성할 수 있다. 맵핑 완료된 토큰은 학습데이터 생성 장치(100)에서 검증을 통해 레이블된 학습데이터로 저장될 수 있다.

실시 예에 따라, 학습데이터 생성 장치(100)는 작업자 단말(400)에 라벨링 저작 도구를 제공할 수 있다. 라벨링 저작 도구는 수어 영상 데이터의 맵핑 작업을 효율적으로 수행할 수 있도록 제작된 사용자 인터페이스를 포함할 수 있다. 작업자는 작업자 단말(400)을 통해 라벨링 저작 도구를 이용할 수 있고, 간단한 조작만으로 토큰을 생성함으로써 기존의 저작 도구에 비해 시간 효율적으로 라벨링 작업을 수행할 수 있다. 라벨링 저작 도구에 대한 상세한 설명은 도 6a에서 후술된다.

도 2는 도 1의 학습데이터 생성 장치를 나타내는 블록도이다. 도 1 및 도 2를 참조하면, 학습데이터 생성 장치(100)는 인터페이스(110), 센서(120), 데이터베이스(130), 통신 모듈(140), 메모리(150) 및 프로세서(170)를 포함할 수 있다.

인터페이스(110)는 수어문 번역 장치(200), 수어 영상 촬영 장치(300) 및 작업자 단말(400)과 데이터 또는 정보를 송수신하도록 구성될 수 있다. 예를 들어, 인터페이스(110)는 수어문 번역 장치(200)에 제1 텍스트 데이터를 송신하고, 제2 텍스트 데이터를 수신할 수 있다. 인터페이스(110)는 수어 영상 촬영 장치(300)에 제1 텍스트 데이터 및 제2 텍스트 데이터를 송신하고, 수어 영상 데이터를 수신할 수 있다. 인터페이스(110)는 작업자 단말(400)에 형태소 정보 및 수어 영상 데이터를 송신하고, 토큰 정보를 수신할 수 있다.

센서(120)는 수어 영상 데이터를 생성하기 위해 카메라 및 동작인식장치를 포함할 수 있다. 예를 들어, 동작인식장치는 농인이 착용하는 것으로, 농인이 손에 착용한 후 수어를 구사하면 내장된 센서에서 손동작의 움직임을 인식하는 다수의 동작인식센서가 구성되어 해당 동작을 인식하도록 구성될 수 있다. 센서(120)는 도 1의 수어 영상 촬영 장치(300)에 대응되는 것으로 실시 예에 따라 생략될 수 있다. 이 경우, 외부의 수어 영상 촬영 장치(300)가 수어 영상 데이터를 생성할 수 있다.

데이터베이스(130)는 프로세서(170)에 의해 생성될 수 있다. 데이터베이스(130)는 레이블된 학습데이터를 저장할 수 있다. 예를 들어, 데이터베이스(130)는 룩업 테이블의 형태로 학습데이터를 저장할 수 있고, 인공지능 모델의 트레이닝 시에 저장된 학습데이터를 제공할 수 있다.

데이터베이스(130)는 비휘발성 메모리로 구성될 수 있다. 비휘발성 메모리(Non-volatile memory)는 전원이 공급되지 않은 상태에서도 정보를 저장 및 유지하고, 전원이 공급되면 다시 저장된 정보를 사용할 수 있는 기억 매체를 의미한다. 비휘발성 메모리는 예를 들어, 플래시 메모리(flash memory), 하드디스크(hard disk), SSD(Solid State Drive), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 롬(Read Only Memory, ROM), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나를 포함할 수 있다.

통신 모듈(140)은 프로세서(170)의 제어에 따라 다른 전자 장치 또는 외부 장치와 통신을 수행할 수 있다. 통신 모듈(140)은 통신 인터페이스를 통해 무선 통신 또는 유선 통신을 통해서 네트워크에 연결 또는 장치 간 연결을 통해 통신할 수 있다. 무선 통신은, 예를 들어, Wifi(wireless fidelity), BT(bluetooth), NFC(near field communication), GPS(global positioning system) 또는 셀룰러(cellular) 통신(예를 들어, LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 중) 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.

메모리(150)는 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장할 수 있다. 메모리(150)는 프로세서(170)가 판독할 수 있는 명령어들, 알고리즘(algorithm), 데이터 구조, 프로그램 코드(program code), 및 애플리케이션 프로그램(application program) 중 적어도 하나가 저장할 수 있다. 메모리(150)에 저장되는 명령어들, 알고리즘, 데이터 구조, 및 프로그램 코드는 예를 들어, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다.

예를 들어, 메모리(150)는 플래시 메모리 타입(flash memory type), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), 또는 EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 중 적어도 하나의 타입의 하드웨어 장치를 포함할 수 있다.

프로세서(170)는 인터페이스(110), 센서(120), 데이터베이스(130), 통신 모듈(140) 및 메모리(150)와 전기적으로 연결되어, 각 구성들을 제어하도록 구성될 수 있다. 실시 예에 따라, 프로세서(170)는 중앙처리장치(CPU), 어플리케이션 프로세서(AP), 또는 커뮤니케이션 프로세서(CP, communication processor) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(170)는, 예를 들면, 학습데이터 생성 장치(100)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다. 프로세서(170)의 처리(또는 제어) 동작은 도 3을 참조하여 구체적으로 설명된다.

도 3은 도 2의 프로세서를 나타내는 블록도이다. 프로세서(170)는, 예를 들면, 운영 체제 또는 어플리케이션 프로그램을 구동하여 프로세서(170)에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서(170)는, 예를 들면, SoC(system on chip)로 구현될 수 있다. 실시 예에 따라, 프로세서(170)는 GPU(graphic processing unit) 및/또는 이미지 시그널 프로세서(ISP, image signal processor)를 더 포함할 수 있다.

도 1 내지 도 3을 참조하면, 프로세서(170)는 형태소 분석부(171), 토큰 생성부(172) 및 검증부(173)를 포함할 수 있다.

형태소 분석부(171)는 제2 텍스트 데이터를 기반으로 형태소 분석을 통해 의미 요소를 추출하도록 구성될 수 있다. 의미 요소는 수어의 최소 의미 단위로 구성될 수 있다. 예를 들어, “나는 튼튼한 집을 샀다”의 문장에서, “나+집+사다, 집+강하다”로 수어문 번역이 된다면, “나”, “집”, “사다”, “강하다” 4개의 의미 요소들이 추출될 수 있다. 이러한 의미 요소들의 정보는 형태소 정보로 명명될 수 있다. 형태소 분석부(171)는 형태소 정보를 작업자 단말(400)에 제공할 수 있다.

실시 예에 따라, 형태소 분석부(171)는 Bidirectional LSTM(Long Short-Term Memory) 방식의 형태소 분석기를 활용하여 한국어 문장상의 구문을 분석하여 의미를 이해하고 그에 맞는 최적의 단어를 선택하도록 설계할 수 있다. 이러한 형태소 분석기에서는 단어를 구성하고 있는 각 형태소의 기본형을 인식할 수 있으며 수화통역에 필요 없는 조사 등은 제거할 수 있다.

토큰 생성부(172)는 작업자 단말(400)로부터 수신된 맵핑 정보를 기반으로 토큰을 생성하도록 구성될 수 있다. 예를 들어, 맵핑 정보는 타임라인을 기반으로 하나 이상의 의미 요소들이 수어 영상 데이터에 매칭된 정보를 포함할 수 있다. 이러한 매칭 작업은 라벨링 저작 도구를 통해 수행될 수 있다. 토큰 생성부(172)는 작업자 단말(400)의 매칭 작업이 완료되면, 형태소 정보 및 타임라인 정보를 포함하는 토큰 정보를 생성할 수 있다.

검증부(173)는 토큰 정보의 정확도에 대한 검증을 수행하도록 구성될 수 있다. 예를 들어, 검증부(173)는 토큰 정보를 기반으로 하나 이상의 의미 요소들을 테스트 영상 데이터로 변환하고, 테스트 영상 데이터를 수어 영상 데이터와 비교할 수 있다. 검증부(173)는 유사 판단 알고리즘을 이용하여 테스트 영상 데이터 및 수어 영상 데이터의 유사 여부를 검증하여 토큰 정보의 정확도를 판단할 수 있다. 예를 들어, 검증부(173)는 테스트 영상 데이터 및 수어 영상 데이터의 유사도가 일정 값 이상인 경우, 토큰 정보의 정확도를 기준 값 이상으로 판단할 수 있고, 검증을 완료할 수 있다.

도 4는 본 개시의 일 실시 예에 따른 학습데이터 생성 장치의 동작 방법을 나타내는 순서도이다. 도 4를 참조하면, 학습데이터 생성 장치(100)의 동작 방법 (S100)은 레이블된 학습데이터를 생성하기 위해 S110 단계 내지 S160 단계를 포함할 수 있다.

S110 단계에서, 학습데이터 생성 장치(100)는 국어문을 수신할 수 있다. 국어문은 학습데이터 생성 장치(100)의 사용자로부터 UI를 통해 지정 혹은 입력되는 문장일 수 있으며, 학습데이터 생성 장치(100)의 방송신호 수신기에 탑재되어 운영될 경우 수신된 방송신호에서 분리되어 디코딩 처리된 자막 방송의 문장일 수 있으며, 통신망을 통해 연동 가능한 타 컴퓨터 혹은 서버 시스템에서 전송되는 번역 요청 문장일 수 있다. 학습데이터 생성 장치(100)는 국어문을 제1 텍스트 데이터로서 메모리(150)에 저장할 수 있다.

S120 단계에서, 학습데이터 생성 장치(100)는 국어문에 대한 수어문을 요청할 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 수어문 번역 장치(200)에 국어문에 대한 수어문을 요청할 수 있다. 학습데이터 생성 장치(100)는 번역된 수어문을 제2 텍스트 데이터로서 수신하고, 메모리(150)에 저장할 수 있다.

S130 단계에서, 학습데이터 생성 장치(100)는 수어문에 대한 형태소 분석을 수행할 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 형태소 분석을 통해 제2 텍스트 데이터로부터 하나 이상의 의미 요소들을 추출할 수 있다. 의미 요소란 수어의 최소 의미 단위로 정의될 수 있다. 수어문은 하나 이상의 의미 요소들로 구성될 수 있고, 학습데이터 생성 장치(100)는 제2 텍스트 데이터를 하나 이상의 의미 요소들로 분리할 수 있다.

S140 단계에서, 학습데이터 생성 장치(100)는 국어문에 대한 수어 영상을 획득할 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 수어 영상 촬영 장치(300)에 국어문에 대한 수어 영상 촬영을 요청할 수 있다. 이 경우, 학습데이터 생성 장치(100)는 제1 텍스트 데이터를 수어 영상 촬영 장치(300)에 제공할 수 있는데, 실시 예에 따라, 제2 텍스트 데이터를 함께 제공할 수 있다. 수어 영상 촬영 장치(300)는 제1 텍스트 데이터 및 제2 텍스트 데이터를 기반으로 수어 영상을 촬영해 수어 영상 데이터를 학습데이터 생성 장치(100)에 제공할 수 있다. 실시 예에 따라, 학습데이터 생성 장치(100)는 내부의 센서(120)를 통해 수어 영상 데이터를 획득할 수 있다.

S150 단계에서, 학습데이터 생성 장치(100)는 학습데이터를 생성할 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 작업자 단말(400)에 하나 이상의 의미 요소들에 대한 정보 및 수어 영상 데이터를 제공하고, 작업자 단말(400)로부터 라벨링 작업이 완료된 맵핑 정보를 수신할 수 있다. 실시 예에 따라, 맵핑 정보는 하나 이상의 의미 요소들이 수어 영상 데이터에 타임라인을 기반으로 매칭된 정보를 포함할 수 있다. 학습데이터 생성 장치(100)는 맵핑 정보를 기반으로 토큰을 생성하고, 토큰에 대한 검증을 통해 학습데이터를 생성할 수 있다. 이에 대한 상세한 설명은 도 5에서 후술된다.

S160 단계에서, 학습데이터 생성 장치(100)는 데이터베이스를 생성할 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 검증이 완료된 학습데이터를 레이블된 학습데이터로서 데이터베이스에 저장할 수 있다. 즉, 학습데이터 생성 장치(100)는 토큰 정보의 정확도가 기준 값 이상인 경우 입력이 제1 텍스트 데이터이고 정답이 하나 이상의 의미 요소들의 시퀀스인 레이블된 학습데이터를 저장하여 데이터베이스를 생성할 수 있다.

도 5는 도 4의 S150 단계를 설명하기 위한 도면이다. 도 4 및 도 5를 참조하면, 학습데이터 생성 장치(100)는 작업자 단말(400)과 통신하면서 학습데이터를 생성할 수 있다.

S151 단계에서, 학습데이터 생성 장치(100)는 작업자 단말(400)에 수어 영상 데이터 및 형태소 정보를 전송할 수 있다. 수어 영상 데이터는 수어 영상 촬영 장치(300) 또는 센서(120)에 의해 촬영된 수화 영상을 포함할 수 있고, 형태소 정보는 형태소 분석을 통해 생성된 하나 이상의 의미 요소들에 대한 정보를 포함할 수 있다.

실시 예에 따라, 작업자 단말(400)은 수어 영상 데이터 및 형태소 정보를 통해 맵핑 작업 또는 라벨링 작업을 수행할 수 있다(S410). 이 경우, 학습데이터 생성 장치(100)는 맵핑 작업 또는 라벨링 작업을 수행하기 위한 라벨링 저작 도구를 지원할 수 있는데, 라벨링 저작 도구는 UI를 통해 작업자 단말(400)에 노출될 수 있다.

예를 들어, 도 6a을 참조하면, 라벨링 저작 도구는 제1 내지 제3 화면들(S1, S2, S3)을 포함할 수 있다. 제1 화면(S1)은 수어 영상 데이터를 기반으로 수어 영상이 재생되는 화면일 수 있다. 제2 화면(S2)은 작업 정보, 토큰 정보, 메모 등의 라벨링 저작 도구를 통해 생성되는 정보가 표시되는 화면일 수 있다. 예를 들어, 작업 정보는 작업명, 파일명, 총 시간, 담당자, 상태, 최종 업데이트일 정보를 포함할 수 있다. 예를 들어, 토큰 정보는 단어, 일치동사, 시간(재배치된 타임라인) 정보를 포함할 수 있다. 제3 화면(S3)은 수어 영상에 대한 타임라인 및 타임라인 기반으로 매칭된 의미 요소들이 표시되는 화면일 수 있다.

작업자는 작업자 단말(400)을 통해 라벨링 저작 도구를 실행할 수 있다. 작업자 단말(400)은 라벨링 저작 도구가 실행되면, 제1 화면(S1)에 수어 영상 데이터를 기반으로 수어 영상을 재생시키고, 제3 화면(S3)에 형태소 정보를 기반으로 하나 이상의 의미 요소들을 나열시킬 수 있다. 예를 들어, 제1 내지 제4 의미 요소들(E1, E2, E3, E4)은 제3 화면(S3)에 나열될 수 있다.

제1 내지 제4 의미 요소들(E1, E2, E3, E4)은 시간 정보와 결합되어 토큰이 생성될 수 있다. 작업자는 작업자 단말(400)을 통해 제1 내지 제4 의미 요소들(E1, E2, E3, E4)에 시간 정보를 부가할 수 있고, 예를 들어, 마우스와 같은 입력 장치를 통해 제1 내지 제4 의미 요소들(E1, E2, E3, E4)을 대응되는 수어 영상의 재생 시간에 매칭시킬 수 있다.

제3 화면(S3)을 참조하면, 작업자 단말(400)은 작업자의 입력 신호를 기반으로 제1 내지 제4 의미 요소들(E1, E2, E3, E4)을 시간 순서에 따라 수어 영상에 매칭시킬 수 있다. 예를 들어, 제1 의미 요소(E1)는 수어 영상의 제1 구간(t11~t12)에 매칭될 수 있고, 제2 의미 요소(E2)는 수어 영상의 제2 구간(t21~t22)에 매칭될 수 있고, 제3 의미 요소(E3)는 수어 영상의 제3 구간(t31~t32)에 매칭될 수 있고, 제4 의미 요소(E4)는 수어 영상의 제4 구간(t41~t42)에 매칭될 수 있다. 작업자는 제1 내지 제4 구간을 미세하게 조절할 수 있고, 그 결과 학습데이터 생성 장치(100)는 수어 영상에 매칭된 타임라인 정보를 획득할 수 있다.

도 6b는 도 6a에 따른 라벨링 저작 도구를 실행한 작업자 단말(400)의 예시이다. 도 6b를 참조하면, 학습데이터 생성 장치(100)는 “반품할 상품이 있는데 기사님이 방문하시는 거 말고 직접 보내도 되나요?”라는 국어문에 대해 수어 영상 및 복수의 의미 요소들(“반품”, “물건”, “있다”, “그런데”, “사람”, “오다”, “말다(중단)”, “직접”, “보내다”, “가능”, “?”)을 획득할 수 있다. 작업자가 작업자 단말(400)을 통해 라벨링 저작 도구를 실행하면, 수어 영상이 재생되고, 복수의 의미 요소들이 시간에 따라 자동으로 배치될 수 있다(예를 들어, 글로스 우세 항목으로 배치). 작업자는 복수의 의미 요소들의 타임라인을 재배치함으로써, 형태소 정보와 시간 정보가 결합된 토큰 정보를 생성할 수 있다. 실시 예에 따라, 작업자 단말(400)은 작업자의 입력 신호를 기반으로 글로스 비우세 데이터 및 비수지 데이터를 생성할 수 있다.

즉, 학습데이터 생성 장치(100)는 작업자 단말(400)을 통해 라벨링 저작 도구를 제공할 수 있고, 작업자는 라벨링 저작 도구를 사용함으로써 시간 효율적으로 라벨링 작업을 수행할 수 있다. 구체적으로, 작업자가 라벨링 저작 도구를 실행하면, 수어 영상 및 형태소 정보가 자동으로 배치되며, 작업자는 마우스 등으로 형태소 정보를 수어 영상에 매칭되도록 타임라인에 재배시킴으로써, 토큰을 생성할 수 있다. 이로써, 토큰 생성을 위한 작업 시간이 기존 보다 2배 이상 단축될 수 있다.

다시 도 5를 참조하면, S152 단계에서, 학습데이터 생성 장치(100)는 작업자 단말(400)로부터 맵핑 정보를 수신할 수 있다. 실시 예에 따라, 맵핑 정보는 작업자 단말(400)이 도 6a의 라벨링 저작 도구를 활용해 타임라인 기반으로 수어 영상과 하나 이상의 의미 요소들을 매칭한 매칭 정보를 포함할 수 있다.

S153 단계에서, 학습데이터 생성 장치(100)는 맵핑 정보를 기반으로 토큰을 생성할 수 있다. 토큰은 의미 요소에 대한 정보, 시간 정보, 및 수어 영상에 대한 정보가 연계된 학습데이터의 결과물일 수 있다. 생성된 토큰에 대한 정보는 토큰 정보로 명명될 수 있다.

S154 단계에서, 학습데이터 생성 장치(100)는 토큰 정보를 정확도를 판단하여 학습데이터를 검증할 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 토큰 정보의 정확도가 기준 값 이상인 경우 검증을 완료하고, S155 단계에서, 학습데이터 생성을 완료할 수 있다. 생성 완료된 학습데이터는 레이블된 학습데이터일 수 있고, 예를 들어, 입력이 제1 텍스트 데이터이고 정답이 하나 이상의 의미 요소들의 시퀀스일 수 있다.

실시 예에 따라, 토큰 정보의 정확도는 하나 이상의 의미 요소들을 테스트 영상 데이터로 변환하고, 테스트 영상 데이터를 수어 영상 데이터와 비교하여 판단될 수 있다. 예를 들어, 학습데이터 생성 장치(100)는 유사 판단 알고리즘을 이용하여 테스트 영상 데이터 및 수어 영상 데이터의 유사 여부를 검증하고, 테스트 영상 데이터 및 수어 영상 데이터의 유사도가 일정 값 이상인 경우, 토큰 정보의 정확도를 기준 값 이상으로 판단할 수 있다.

도 7은 본 개시의 일 실시 예에 따른 학습데이터 생성 장치가 적용된 수어 번역 시스템을 보여주는 블록도이다. 도 7을 참조하면, 수어 번역 시스템(1000)은 학습데이터 생성 장치(1100), 수어 번역기(1200), 마이크(1300), STT(Sound To Text, STT) 변환 모듈(1400) 및 디스플레이(1500)를 포함할 수 있다.

학습데이터 생성 장치(1100)는 도 1 내지 도 6b를 통해 설명된 학습데이터 생성 장치가 적용될 수 있다. 따라서, 학습데이터 생성 장치(1100)는 레이블된 학습데이터를 생성할 수 있고, 수어 번역기(1200)에 제공할 수 있다. 수어 번역기(1200)는 뉴럴 네트워크(1250)를 포함할 수 있고, 예를 들어, 딥러닝 신경망 네트워크(DNN)는 레이블된 학습데이터를 트레이닝하여 국어문에 대한 수어 번역 연산을 수행할 수 있다.

마이크(1300)는 사용자의 음성 아날로그 신호를 디지털 신호를 전환할 수 있고, STT 변환 모듈(1400)이 해당 디지털 신호를 텍스트 데이터로 변환할 수 있다. 예를 들어, STT 변환 모듈(1400)은 시퀀스 투 시퀀스 기반으로 음성을 문장으로 STT 변환하는 딥러닝 신경망 네트워크를 이용할 수 있다.

수어 번역기(1200)는 뉴럴 네트워크(1250)를 통해 텍스트 데이터를 의미 요소들의 시퀀스로 번역하고, 의미 요소들의 시퀀스를 대화형 수어 영상과 융합하여 디스플레이(1500)에 제공할 수 있다. 디스플레이(1500)는 대화형 수어 영상을 사용자에게 표시할 수 있다.

상술된 바와 같이, 본 발명에 따른 학습데이터 생성 장치(100)는 레이블된 학습데이터를 생성함으로써 수어를 사용할 수 없는 사람들과 농인들의 대화를 가능하게 하여, 수어 번역 시스템(1000)에 적용될 수 있다. 뿐만 아니라, 학습데이터 생성 장치(100)는 키오스크(청각 장애인의 키오스크 이용 시 수어 애니메이션 표출), 시설물 안내센터, 일기 예보 안내, 영상 지도 서비스, 수어 어플리케이션 서비스 등에 활용될 수 있고, 나아가 한국어-수어 번역기술과 수어 인식 기술의 발전에 따라, IoT, 수화통역, 관광 등 산업 분야에서 인공지능 알고리즘 및 서비스를 개발할 수 있는 인공지능 지식 생태계가 구축될 것으로 기대될 수 있다.

상술된 내용은 본 발명을 실시하기 위한 구체적인 실시 예들이다. 본 발명은 상술된 실시 예들뿐만 아니라, 단순하게 설계 변경되거나 용이하게 변경할 수 있는 실시 예들 또한 포함될 것이다. 또한, 본 발명은 실시 예들을 이용하여 용이하게 변형하여 실시할 수 있는 기술들도 포함될 것이다. 따라서, 본 발명의 범위는 상술된 실시 예들에 국한되어 정해져서는 안 되며 후술하는 특허청구범위뿐만 아니라 이 발명의 특허청구범위와 균등한 것들에 의해 정해져야 할 것이다.

10: 수어 학습 시스템
100: 학습데이터 생성 장치
200: 수어문 번역 장치
300: 수어 영상 촬영 장치
400: 작업자 단말

Claims

인공지능 기반의 수어 번역을 위한 학습데이터를 생성하는 학습데이터 생성 장치의 동작 방법에 있어서,
사용자 입력 신호를 기반으로 국어문으로 구성된 제1 텍스트 데이터를 수신하는 단계;
상기 제1 텍스트 데이터에 대해 상기 국어문과 다른 문법 체계로 형성된 수어문으로 구성된 제2 텍스트 데이터로의 번역을 수어문 번역 장치에 요청하는 단계;
상기 수어문 번역 장치로부터 상기 제2 텍스트 데이터를 수신하면, 상기 제2 텍스트 데이터로부터 하나 이상의 의미 요소들을 획득하는 단계;
상기 제1 텍스트 데이터에 대한 수어 영상 데이터를 촬영 장치에 요청하여 상기 수어 영상 데이터를 획득하는 단계;
상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 기반으로 학습데이터를 생성하는 단계; 및
상기 학습데이터를 저장하는 단계를 포함하고,
상기 학습데이터를 생성하는 단계는:
작업자 단말에 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 전송하는 단계;
라벨링 저작 도구를 제공함으로써, 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 시간에 따라 자동적으로 배치하는 단계;
상기 작업자 단말로부터 상기 라벨링 저작 도구를 통해 상기 하나 이상의 의미 요소들이 상기 수어 영상 데이터에 타임라인을 기반으로 재배치된 맵핑 정보를 수신하는 단계; 및
상기 맵핑 정보를 기반으로 토큰 정보를 생성하는 단계를 더 포함하는 학습데이터 생성 장치의 동작 방법.
제1 항에 있어서,
상기 하나 이상의 의미 요소들을 획득하는 단계는 상기 제2 텍스트 데이터에 대한 형태소 분석을 통해 상기 제2 텍스트 데이터를 수어의 최소 의미 단위인 상기 하나 이상의 의미 요소들로 분리하는 단계를 더 포함하는 학습데이터 생성 장치의 동작 방법.
제1 항에 있어서,
상기 수어 영상 데이터를 획득하는 단계는:
카메라를 포함하는 촬영 장치로부터 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터 기반으로 촬영된 상기 수어 영상 데이터를 수신하는 단계를 더 포함하는 학습데이터 생성 장치의 동작 방법.
삭제
제1 항에 있어서,
상기 학습데이터를 저장하는 단계는 상기 토큰 정보의 정확도가 기준 값 이상인 경우 입력이 상기 제1 텍스트 데이터이고 정답이 상기 하나 이상의 의미 요소들의 시퀀스인 상기 학습데이터를 기반으로 학습용 데이터베이스를 생성하는 단계를 더 포함하는 학습데이터 생성 장치의 동작 방법.
외부 장치들과 데이터를 송수신하도록 구성된 인터페이스;
수어 영상 데이터를 획득하도록 구성된 센서; 및
프로세서를 포함하고,
상기 프로세서는:
사용자 입력 신호를 기반으로 국어문으로 구성된 제1 텍스트 데이터를 수신하고,
상기 외부 장치들 중 수어문 번역 장치에 상기 제1 텍스트 데이터에 대해 상기 국어문과 다른 문법 체계로 형성된 수어문으로 구성된 제2 텍스트 데이터로의 번역을 요청하고,
상기 수어문 번역 장치로부터 상기 제2 텍스트 데이터를 수신하면, 상기 제2 텍스트 데이터로부터 하나 이상의 의미 요소들을 획득하고,
상기 센서에 상기 제1 텍스트 데이터에 대한 상기 수어 영상 데이터를 요청하여 상기 수어 영상 데이터를 수신하고,
상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 기반으로 학습데이터를 생성하고, 그리고
상기 학습데이터를 저장하여 데이터베이스를 생성하도록 구성되고,
상기 프로세서는:
작업자 단말에 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 전송하고,
라벨링 저작 도구를 제공함으로써, 상기 하나 이상의 의미 요소들 및 상기 수어 영상 데이터를 시간에 따라 자동적으로 배치하고,
상기 작업자 단말로부터 상기 라벨링 저작 도구를 통해 상기 하나 이상의 의미 요소들이 상기 수어 영상 데이터에 타임라인을 기반으로 재배치된 맵핑 정보를 수신하고, 그리고
상기 맵핑 정보를 기반으로 토큰 정보를 생성하도록 더 구성된 학습데이터 생성 장치.