KR20160109708A

KR20160109708A - 수화 번역기, 시스템 및 방법

Info

Publication number: KR20160109708A
Application number: KR1020150034618A
Authority: KR
Inventors: 최항서
Original assignee: 주식회사 디지털스케치
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2016-09-21
Also published as: KR101777807B1

Abstract

수화 번역기, 그 시스템 및 방법이 개시된다.
본 발명의 실시 예에 따른 휴대가 가능한 사용자 단말기에 설치되는 수화 번역기는, 영상입력 정보를 바탕으로 수화 번역을 위한 학습 데이터를 저장하는 데이터베이스부; 카메라를 통해 수화자의 영상을 촬영하는 수화 입력부; 상기 수화자로부터 제1 제스처가 인식된 수화 시작점부터 제2 제스처가 인식된 수화 종료점까지의 일정 수화 구간의 영상에서 손의 모양과 움직임에 따른 제스처와 얼굴의 움직임에 따른 표정을 인식하는 제스처 인식부; 및 상기 제스처 인식에 따른 단어들의 조합으로 문장을 생성하고, 상기 문장에 상기 표정 인식에 따른 비수지적 표현을 부가하여 문자 및 음성 중 적어도 하나로 출력하는 제어부를 포함한다.

Description

수화 번역기, 시스템 및 방법{SIGN LANGUAGE TRANSLATOR, SYSTEM AND METHOD}

본 발명은 수화 번역기, 시스템 및 방법에 관한 것으로서, 보다 상세하게는 듣지 못하는 청각 장애인과 들을 수 있는 일반인의 양방향 대화가 가능한 수화 번역기, 시스템 및 방법에 관한 것이다.

일반적으로 수화는 청각적 장애인(농아)들이 사용하는 시각적 언어로써 언어적 구조와 규칙을 가지는 손의 움직임, 모양 및 동작방향 등으로 의사를 표현할 수 있다.

과거와는 달리 청각 장애인들의 사회참여도가 높아지면서 수화는 청각 장애인들간의 대화뿐 아니라 일반인(청인)들과의 대화에도 사용되고 있으나 그 표현방식이 복잡하여 일반인들이 학습하기에는 어려움이 있다.

따라서, 최근에는 문자를 시각적으로 변환하여 수화로 표시하거나 수화를 인식하여 문자로 표시하는 수화 번역기가 개발되고 있다.

종래에 개발된 수화 번역기는 문자를 수화로 번역하는 단방향 방식이 주를 이루고 있다. 이는 문자를 일정 단위로 인식하여 패턴화된 그래픽 동작으로 표현하는 것은 구현이 용이한 반면, 수화를 시각적으로 인식하여 일반인에게 번역하는 방법은 모션/제스처 인식을 위해 특수한 하드웨어의 구성이 필요하고 기술적으로도 어렵기 때문이다.

예컨대, 종래의 수화 번역을 위해서는 청각 장애인(이하, 수화자라 명명함)이 모션인식을 위해 특수 장갑을 끼고 수화를 해야 하는 불편함과 특수 장갑의 센서를 인식하는 하드웨어나 소프트웨어가 구비되어야 하는 단점이 있다. 또한, 특수 장갑이 없이는 수화자의 촬영 영상에서 모션을 추적을 위한 별도의 특수 모션인식장비가 요구되어 휴대 및 비용의 증가로 일반인들이 일상적으로 사용하기 어려운 단점이 있다.

이러한, 종래 수화 번역기의 단점들은 일반인들이 일상적으로 사용할 수 있는 양방향 수화 번역기의 개발을 어렵게 하는 문제점으로 지적되고 있다.

한편, 수화는 기본적으로 다양한 손모양, 손위치, 팔동작 등으로 단어(보통명사)를 표현하고, 사람 이름 등의 고유명사는 일일이 단어화시켜 수화로 만들 수 없기 때문에 손가락으로 자음, 모음 표시하는 지화를 이용하여 고유명사를 표현하고 있다.

그러나, 종래의 영상기반 모션인식기술을 이용하여 수화를 번역함에 있어서, 수화는 손의 움직임 정보와 모양 정보의 조합으로 표현되고, 지화는 손의 모양 정보로 표현되기 때문에 연속된 동작에서 수화와 지화의 시작점과 끝점을 정확히 인식하는 데에는 기술적으로 한계가 있다.

따라서, 수화를 번역한 단어의 오인식 자주 발생되는 문제가 있으며, 단어와 단어를 매끄럽게 연결하지 못하기 때문에 문장의 완성도가 떨어져 어색하고 수화자의 의사전달에 신뢰도가 떨어지는 문제점이 있다.

본 발명의 실시 예는 특수한 장비 없이 사용자 단말기를 통해 일반인들이 일상적으로 사용할 수 있는 양방향 수화 번역기, 시스템 및 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명의 실시 예의 다른 목적은 수화와 지화의 구분을 명확하여 단어 인식률과 문장의 완성도를 향상시킴으로써 의사전달의 신뢰도를 높일 수 있는 수화 번역기, 시스템 및 방법을 제공하는데 있다.

본 발명의 일 측면에 따르면, 휴대가 가능한 사용자 단말기에 설치되는 수화 번역기는, 영상입력 정보를 바탕으로 수화 번역을 위한 학습 데이터를 저장하는 데이터베이스부; 카메라를 통해 수화자의 영상을 촬영하는 수화 입력부; 상기 수화자로부터 제1 제스처가 인식된 수화 시작점부터 제2 제스처가 인식된 수화 종료점까지의 일정 수화 구간의 영상에서 손의 모양과 움직임에 따른 제스처와 얼굴의 움직임에 따른 표정을 인식하는 제스처 인식부; 및 상기 제스처 인식에 따른 단어들의 조합으로 문장을 생성하고, 상기 문장에 상기 표정 인식에 따른 비수지적 표현을 부가하여 문자 및 음성 중 적어도 하나로 출력하는 제어부를 포함한다.

또한, 상기 수화 입력부는, 상기 사용자 단말기의 디스플레이에 수화자의 얼굴 검출 영역과 양손의 검출영역을 구획하는 가이드라인을 표시할 수 있다.

또한, 상기 제스처 인식부는, 손의 골격구조에 따른 특징점을 바탕으로 영상에서 분석된 인체 골격의 양팔 끝단에 있는 손의 중심점을 검출하고, 손의 중심점이 이동하는 것을 추적하여 제스처를 인식하는 손 인식 모듈; 및 얼굴의 눈, 눈썹, 코, 입 및 주름 형태의 안면 특징점을 바탕으로 표정을 인식하는 얼굴 인식 모듈을 포함할 수 있다.

또한, 상기 제어부는, 얼굴 인식에 따른 입 모양으로 수화 및 지화를 구분하되, 수화자가 입을 다물고 있는 경우 수화로 판단하고 입을 벌리고 있으면 지화로 판단하여 단어를 번역할 수 있다.

또한, 상기 데이터베이스부는,

수지적 표현 방식인 단어 별 손의 모양, 손의 중심 위치, 움직임 및 방향을 학습하여 데이터화한 수화 학습 데이터; 지문자 및 지숫자 별 손의 모양을 학습하여 데이터화한 지화 학습 데이터; 수화 번역에 참조하기 위한 비수지적 표현 방식인 얼굴의 표정과 행동을 학습하여 데이터화한 비수지적 학습 데이터; 및 문자나 음성으로 입력되는 정보를 수화 표현하기 위해 인체모델을 형상화한 그래픽 정보를 포함할 수 있다.

또한, 상기 수화 번역기는, 무선 통신을 연결하는 통신부; 입력된 영상의 이미지 프레임 별 수화자의 인체부분을 제외한 배경을 삭제하는 영상 처리부; 발화된 음성을 인식하여 단어 및 문장으로 변환하는 음성 인식부; 및 자판을 통해 입력된 단어 및 문장을 인식하는 문자 인식부를 더 포함하며, 상기 제어부는 음성 및 문자 인식에 따른 상기 문장을 수화로 더 번역하여 양방향 수화번역을 지원할 수 있다.

또한, 상기 제어부는, 상기 데이터베이스부에서 단어 인식에 실패한 제스처나 개인화된 제스처와 의미를 수화 번역을 지원하는 서버로 전송하여 DB화를 요청하고, 상기 서버로부터 학습 처리된 데이터를 업데이트할 수 있다.

한편, 본 발명의 일 측면에 따르면, 수화 번역 시스템은, 상기 수화 번역기를 실현하기 위한 어플리케이션 프로그램을 사용자 단말기에 제공하고, 상기 수화 번역기의 운영 상태를 중앙에서 관리하는 서버를 포함한다.

한편, 본 발명의 일 측면에 따른, 휴대가 가능한 사용자 단말기에 설치되는 수화 번역기의 수화 번역 방법은, a) 카메라를 통해 수화자의 영상을 촬영하고 촬영 영상이 표시되는 디스플레이에 수화자의 얼굴과 양손을 위치시키기 위한 가이드라인을 표시하는 단계; b) 상기 수화자로부터 제1 제스처가 인식된 수화 시작점부터 제2 제스처가 인식된 수화 종료점까지의 일정 수화 구간의 영상에서 손의 모양과 움직임에 따른 제스처와 얼굴의 움직임에 따른 표정을 인식하는 단계; 및 c) 상기 제스처 인식에 따른 단어들의 조합으로 문장을 생성하고, 상기 문장에 상기 표정 인식에 따른 비수지적 표현을 부가하여 문자 및 음성 중 적어도 하나로 출력하는 단계를 포함한다.

또한, 상기 c) 단계 이후에, 청인으로부터 발화된 음성을 인식하여 문장으로 변환하는 단계; 상기 문장에 포함된 단어를 인식하고, 억양이나 문장의 의미에 따른 비지수적 표현 정보를 인식하는 단계; 및 인식된 문장의 단어와 비지수적 표현 정보를 병합하여 인체모델을 형상화한 그래픽으로 수화를 표시하는 단계를 더 포함할 수 있다.

본 발명의 실시 예에 따르면, 복잡한 별도의 장비 없이 휴대가 간편한 사용자 단말기에 양방향 수화번역이 가능한 수화 번역기를 탑재하여 일반인이 자유롭게 청각 장애인과 수화로 대화할 수 있다.

또한, 일반인과 수화자간의 각 사용자 단말기를 무선 통신으로 연결하여 원격지에서도 양방향 수화 통화 개념의 수화 번역이 가능한 효과가 있다.

또한, 제스처와 동시에 검출된 얼굴 인식 정보에 기초한 비수지적 표현을 참조하여 조합된 문장의 의미를 명확히 함으로써 의자전달의 정확도를 향상시킬 수 있다.

그리고, 수화자가 수화의 시작점과 종료점을 입력하여 수화구간을 지정함으로써 수화번역의 처리량과 의미 없는 몸짓으로 인한 오입력을 줄일 수 있으며, 입 모양을 통해 수화와 지화를 구분함으로써 수화번역 결과의 정확도를 향상시킬 수 있다.

도 1은 본 발명의 실시 예에 따른 수화 번역 시스템을 위한 네트워크 구성도를 개략적으로 나타낸다.
도 2는 본 발명의 실시 예에 따른 수화 번역 시스템의 구성을 개략적으로 나타낸 블록도이다.
도 3은 본 발명의 실시 예에 따른 영상 인식 기반 수화 번역을 위한 학습 데이터가 구축된 데이터베이스부를 나타낸다.
도 4는 본 발명의 실시 예에 따른 수화 인식을 위한 가이드라인 표시방법을 나타낸다.
도 5는 본 발명의 실시 예에 따른 수화 번역을 위한 사용자 단말기의 UI를 나타낸다.
도 6은 본 발명의 실시 예에 따른 입 모양으로 수화와 지화를 구분하는 방법을 나타낸다.
도 7은 본 발명의 제1 실시 예에 따른 수화를 음성이나 문자로 번역하는 방법을 개략적으로 나타낸 흐름도이다.
도 8은 본 발명의 제1 실시 예에 따른 음성을 수화로 번역하는 방법을 개략적으로 나타낸 흐름도이다.
도 9는 본 발명의 제2 실시 예에 따른 양방향 수화 번역 방법을 개략적으로 나타낸 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이제 본 발명의 실시 예에 따른 수화 번역기, 시스템 및 방법에 대하여 도면을 참조로 하여 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 수화 번역 시스템을 위한 네트워크 구성도를 개략적으로 나타낸다.

첨부된 도 1을 참조하면, 본 발명의 실시 예에 따른 수화 번역 시스템은 수화 번역기(100)를 어플리케이션 프로그램(Application program) 형태로 제작하여 사용자 단말기(10)로 배포하는 서버(200), 서버(200)나 앱 스토어를 경유하여 내려 받은 상기 수화 번역기(100)가 설치되는 사용자 단말기(10)를 포함한다.

서버(200)는 사용자 단말기(10)에 설치된 수화 번역기(100)의 프로그램 업데이트 및 데이터 업데이트 등 전반적인 운용상태를 관리한다.

사용자 단말기(10)는 스마트 폰, 테블릿 PC, PDA, 노트북, 웨어러블 단말기(예; 스마트 고글) 등과 같이 카메라, 메모리, CPU, 입출력장치 및 통신모듈 등의 하드웨어와 운용체제를 비롯한 기본 소프트웨어를 포함하며 사용자의 휴대가 용이한 단말기를 의미한다.

수화 번역기(100)는 사용자 단말기(10) 내에서 수화 번역을 위해 동작하며 필요 시 서버(200)와 연동하거나 양방향 수화번역을 위해 수화 번역기(100)가 설치된 다른 사용자 단말기와 연동하는 에이전트(agent)로 동작할 수 있다. 또한, 수화 번역기(100)는 협약에 따라 사용자 단말기(10)의 제조과정에서 기본 탑재될 수 있다.

도 2는 본 발명의 실시 예에 따른 수화 번역 시스템의 구성을 개략적으로 나타낸 블록도이다.

첨부된 도 2를 참조하면, 본 발명의 실시 예에 따른 수화 번역기(100)는 사용자 단말기(10)에 탑재되며, 통신부(110), 데이터베이스부(120), 수화 입력부(130), 영상 처리부(140), 제스처 인식부(150), 음성 인식부(160), 문자 인식부(170) 및 제어부(180)를 포함한다.

통신부(110)는 무선 통신으로 서버(200)나 다른 사람의 사용자 단말기(10)와 데이터를 송수신한다. 가령 통신부(110)는 이동통신망으로 서버(200)와 통신할 수 있으며 양방향 수화번역을 위해 상대방의 사용자 단말기(10)와 블루투스, 무선랜 및 데이터 통신 등으로 연결될 수 있다.

한편, 도 3은 본 발명의 실시 예에 따른 영상 인식 기반 수화 번역을 위한 학습 데이터가 구축된 데이터베이스부를 나타낸다.

첨부된 도 3을 참조하면, 데이터베이스부(120)는 영상입력 정보를 바탕으로 수화 번역을 위한 수지적 표현 방식인 단어 별 손의 모양, 손의 중심 위치, 움직임 및 방향 등을 학습하여 데이터화한 수화 학습 데이터를 저장한다.

또한, 데이터베이스부(120)는 지문자(예; 자음, 모음, 숫자) 별 손의 모양을 학습하여 데이터화한 지화 학습 데이터를 저장한다.

또한, 데이터베이스부(120)는 상기 수화 번역에 참조하기 위한 비수지적 표현 방식인 얼굴의 표정과 행동을 학습하여 데이터화한 비수지적 학습 데이터를 저장한다.

그리고, 도면에서는 생략되었으나 데이터베이스부(120)는 문자나 음성으로 입력되는 정보를 수화 표현하기 위해 인체모델을 형상화한 그래픽 정보를 저장하고 있다.

수화 입력부(130)는 수화 번역기(100)가 실행되면 수화 번역을 위한 입력 영상을 획득하기 위해 카메라를 통해 수화자의 영상을 촬영한다.

이 때, 수화 입력부(130)는 카메라의 촬영 영상이 표시되는 디스플레이에 수화자의 얼굴과 양손을 위치시키기 위한 가이드라인을 표시한다.

예컨대, 도 4는 본 발명의 실시 예에 따른 수화 인식을 위한 가이드라인 표시방법을 나타낸다.

첨부된 도 4를 참조하면, 본 발명의 실시 예에 따른 수화 입력부(130)는 사용자 단말기(10)의 디스플레이에 수화자의 얼굴 검출 영역과 양손의 검출영역을 구획하는 가이드라인을 표시한다.

이는 사용자 단말기(10)의 이동으로 카메라의 피사체를 추적할 수 있는 점을 이용하여 미리 설정한 얼굴 검출 영역에 수화자의 얼굴을 위치시키도록 하고 동시에 수화자의 양손의 위치를 손 검출 영역에 디스플레이 패널을 맞추도록 안내하는 것이다.

이런 경우, 수화 입력부(130)를 통해 입력된 영상에서 수화자의 얼굴과 손 영역의 초기 위치를 빠르게 검출할 수 있는 장점이 있다. 또한, 초기 사용자 단말기(10)의 화면에 수화자의 얼굴과 손 영역을 미리 구분 지어 얼굴 및 양손의 검출 성능을 높일 수 있다.

영상 처리부(140)는 수화 입력부(130)에서 영상이 입력되면 입력된 영상의 이미지 프레임 별 수화자의 인체부분을 제외한 배경을 삭제하고 얼굴과 양손 영역을 검출한다.

제스처 인식부(150)는 영상 처리부(140)에서 전처리된 컬러 영상의 좌우 손 검출 영역에서 피부색의 손 영역을 검출하는 손 인식 모듈(151) 및 상기 컬러 영상의 얼굴 검출 영역에서 피부색의 얼굴 영역을 인식하는 얼굴 인식 모듈(152)을 포함한다.

제스처 인식부(150)는 좌우손 검출 영역과 얼굴 검출 영역을 구분하여, 손의 모양과 움직임에 따른 제스처와 얼굴의 움직임 및 표정을 각각 검출할 수 있다. 따라서, 전체 영상에서 얼굴과 손을 인식처리 하는 것에 비해 계획적으로 분할된 손과 얼굴 검출영역에서 해당 정보만을 조회 및 검출함으로써 영상 인식 속도를 빠르게 할 수 있는 이점이 있다.

손 인식 모듈(151)은 손의 골격구조에 따른 특징점을 바탕으로 영상에서 분석된 인체 골격의 양팔 끝단에 있는 손의 중심점을 검출하고, 손의 중심점이 이동하는 것을 추적하여 제스처를 인식한다. 여기서, 상기 제스처를 인식한다는 것은 손목 및 손가락의 골격(관절) 연결 구조에 따른 특징점을 검출하여 손가락을 접거나 펴는 등의 전반적인 손 모양을 인식하는 것을 포함한다.

손 인식 모듈(151)은 연속적인 이미지 프레임 단위로 손 중심점의 위치가 기준범위이상 변경되면 손이 움직이는 것으로 판단하고, 상기 손 중심점이 상기 기준범위 이내에 있으면 손이 정지된 것으로 판단할 수 있다.

이 때, 손 인식 모듈(151)은 손의 모양과 손 중심영역이 변경된 정도에 따른 이동속도를 측정할 수 있으며, 손 중심영역이 정지상태에서 이동 속도가 서서히 증가했다가 다시 감소하여 정지하는 것을 하나의 제스처 단위로 인식할 수 있다.

얼굴 인식 모듈(152)은 얼굴의 눈, 눈썹, 코, 입, 주름 형태 등의 안면 특징점을 바탕으로 얼굴의 표정을 인식한다. 여기서 표정을 인식한다는 것은 수화자의 인식된 표정에 기초하여 즐거움, 슬픔, 화남, 삐짐, 긍정, 부정, 수긍, 의문, 권유 등의 수화자의 감정 상태나 비수지 표현을 검출할 수 있음을 의미한다.

특히, 얼굴 인식 모듈(152)은 입을 다물고 있는 것과 입을 벌리고 있는 모양을 인식할 수 있으며, 이는 후술되는 수화 및 지화의 인식구분을 위한 신호로 활용된다.

또한, 얼굴 인식 모듈(152)은 표정 인식뿐 아니라, 손 인식 모듈(151)과 마찬가지로 적어도 하나의 얼굴 중심점의 이동을 추적하여 얼굴을 기울임, 끄덕임, 좌우로 도리질 하는 등의 비수지적 표현을 인식할 수 있다.

한편, 제스처 인식부(150)는 입력 영상을 통해 제스처와 얼굴을 인식하므로 수화자의 수화의도와 의미 없는 몸짓을 구분하지 못하기 때문에 수화구간을 지정하지 않으면 무분별하게 전체 입력 영상을 번역 처리하게 되므로 의도하지 않은 번역 오류가 발생하고 번역을 위한 데이터 처리량도 증가할 수 있다.

이에, 본 발명의 실시 예에 따른 제스처 인식부(150)는 수화자로부터 기 설정된 제1 제스처가 인식된 수화 시작점부터 제2 제스처가 인식된 수화 종료점까지의 한 구간 내에서 검출된 제스처 및 얼굴 인식 정보를 수화번역 처리를 위해 제어부(180)로 전달한다.

여기서, 상기 제1 제스처는 수화자가 수화를 시작하겠다는 의사표현인 수화 시작 신호이고, 상기 제2 제스처는 수화자가 수화를 종료하겠다는 의사표현인 수화 종료 신호를 의미한다. 제1 및 제2 제스처는 수화자가 수화입력 구간을 지정하는 입력 스위치 신호처럼 사용되며 두 제스처가 동일하거나 또는 서로 다르게 설정될 수 있다.

이러한 본 발명의 실시 예에서는, 수화의 주체인 수화자로부터 의사를 전달하고자 하는 수화구간을 특정 제스처 인식을 통해 직접 입력 받는 것으로써, 수화 구간을 알지 못하는 일반인 사용자가 사용자 단말기(10)의 촬영을 위해 ON/OFF 조작 하는 것과는 차별되는 점을 명확히 한다.

음성 인식부(160)는 사용자로부터 발화된 음성을 인식하여 문장으로 변환한다.

이 때, 음성 인식부(160)는 사용자로부터 직접 발화된 음성을 인식하거나 통신부(110)를 통해 다른 사용자 단말기(10)로부터 수신된 음성을 인식할 수 있다.

문자 인식부(170)는 사용자 단말기(10)의 자판을 통해 입력된 문장을 인식한다.

또한, 문자 인식부(170)는 통신부(110)를 통해 다른 사용자 단말기(10)로부터 수신된 문장을 인식할 수 있다.

제어부(180)는 본 발명의 실시 예에 따른 수화 번역을 위한 프로그램 및 데이터에 기초하여 상기 각부의 전반적인 동작을 제어하며, 수화자의 입력 영상을 문자나 음성으로 번역하고, 일반인의 음성 또는 문자를 수화로 번역하는 양방향 수화번역을 지원한다.

먼저, 제어부(180)가 수화자가 입력 영상을 문자나 음성으로 번역하는 방법을 설명한다.

제어부(180)는 제스처 인식부(150)를 통해 수화자의 입력 영상에서 인식된 제스처 단위에 해당하는 단어를 데이터베이스부(120)의 수화 학습 데이터 및 지화 학습 데이터에서 조회하여 검출한다. 그리고, 검출된 단어들의 패턴을 조합하여 문장을 생성하여 문자 및 음성 중 적어도 하나의 방법으로 출력한다.

이 때, 제어부(180)는 제스처와 동시에 검출된 얼굴 인식 정보에 기초한 비수지적 표현을 참조하여 조합된 문장의 의미를 명확하여 의자전달의 정확도를 향상시킬 수 있다.

도 5는 본 발명의 실시 예에 따른 수화 번역을 위한 사용자 단말기의 UI를 나타낸다.

첨부된 도 5를 참조하면, 제어부(180)는 수화번역을 위해 입력된 화면에서 제스처 인식에 결과에 따라 생성된 문장과 얼굴인식 정보를 참조한 의문형 부호 및 표정인식에 따른 이모티콘을 병합하여 한 화면에 표시함으로써 수화자의 의사 및 감정상태를 정확히 전달하는 UI 화면을 표시한다.

예컨대, 제어부(180)가 제스처의 분석으로 인식된 '학교에 갈래'라는 문장은 '학교에 가겠다'는 것과 '학교에 가겠냐?'는 의문형의 두 가지 의미로 인식될 수 있다. 이런 경우 제어부(180)는 눈썹이 올라가거나 턱이 들리는 얼굴인식 정보를 참조하여 '학교에 갈래?'라는 명확한 표현으로 인식할 수 있다.

또한, 제어부(180)는 수화자의 제스처 인식으로 도출된 수화자의 문장이나 음성과 함께 얼굴(표정) 인식에 따른 수화자의 감정상태를 나타내는 이모티콘을 표시할 수 있다.

또한, 제어부(180)는 UI 화면의 일부에는 스피커 출력을 온오프(ON/OFF)하는 메뉴를 표시하여 수화번역 문장을 음성으로 출력하거나 문자로 출력할 수 있다.

한편, 종래에는 영상인식 기반의 수화를 번역함에 있어서 수화는 손의 움직임 정보와 모양 정보의 조합으로 표현되고, 지화는 손의 모양 정보로 표현되기 때문에 연속된 동작에서 수화와 지화의 시작점과 끝점을 정확히 인식하지 못하여 번역의 오류가 발생되는 문제점이 존재하였다.

이러한 문제를 해결하기 위하여, 제어부(180)는 입력된 얼굴 정보를 참조하여 동일한 시간에 입력된 수화자의 제스처를 수화로 인식하거나 지화로 구분하여 인식할 수 있다.

예컨대, 도 6은 본 발명의 실시 예에 따른 입 모양으로 수화와 지화를 구분하는 방법을 나타낸다.

첨부된 도 6을 참조하면, 수화자의 (A)영상과 (B)영상은 오른손을 가슴에 위치시키는 유사한 제스처를 취하고 있으며, 경우에 따라서 수화적 표현으로는 '나'로 인식될 수 있고, 지화적(지수적) 표현으로는 '아홉(9)'로 인식될 수 있다.

일반적으로 뉴스 진행이나 TV와 같은 매체에 나오는 수화 통역사들은 일반인이 수화를 학습한자로써 장애인의 이해를 돕기 위해 수화전달 내용을 입모양의 구화로써도 동시 표현하기도 하지만, 청각 장애인은 말을 하지 못하므로 입을 굳게 다문체 수화를 하는 경향이 있다.

이에, 본 발명의 실시 예에 따른 수화 번역기(100)는 수화자가 입을 다문 상태에서는 수화로 인식하고 입을 벌린 상태에서는 지화로 인식하는 것으로 정의하고 이를 수화자에게 주지시켜 수화와 지화 입력을 구분한다.

따라서, 제어부(180)는 수화자의 얼굴 정보에서 입 모양을 인식하여 입을 다물고 있는 경우 수화로 판단하여 '나'로 번역하고, 입을 벌리고 있으면 지화로 판단하여 '아홉(9)'으로 번역할 수 있다.

이 때, 제어부(180)는 입 모양에 따른 수화 및 지화를 구별하여 수화적 제스처는 수화 학습 데이터에서만 조회하고, 지화적 제스처는 지화 학습 데이터에서만 조회 하여 단어 검출을 위한 처리량을 줄일 수 있으며, 수화 및 지화의 시작점과 종료 점을 명확히 구분함으로써 번역 오류를 방지할 수 있는 효과가 있다.

한편, 제어부(180)가 일반인의 문자나 음성을 수화로 번역하는 방법을 설명한다.

제어부(180)는 음성 인식부(160)를 통해 입력된 문장이나 문자 인식부(170)를 통해 입력된 문장을 기초로 데이터베이스부(120)에서 수화, 지화 및 비수지적 표현을 검출한다.

제어부(180)는 검색된 수화, 지화 및 비수지적 표현정보를 문장의 형식에 맞게 병합하여 인체모델을 형상화한 그래픽으로 화면에 표시한다.

이 때, 제어부(180)는 양방향의 수화 번역 정보를 하나의 사용자 단말기(10)를 통해 표시하거나, 통신부(110)를 통해 통신이 연결된 수화자의 단말기(10)에 상기 문장 형식에 맞게 병합된 정보를 전송하여 수화 그래픽을 표시하도록 할 수 있다.

이처럼, 하나의 사용자 단말기(10)로 양방향 수화를 번역하는 방법과 복수의 사용자 단말기(10)의 연동으로 수화를 번역하는 방법은 아래의 실시 예를 통해 좀더 구체적으로 설명한다.

[제1 실시예]

본 발명의 제1 실시 예에서는 하나의 사용자 단말기(10)에 설치된 수화 번역기(100)를 활용하여 일반인과 수화자(청각 장애인)가 나란히 디스플레이 화면을 주시한 상태에서 양방향 수화번역을 수행하는 것을 가정하여 설명한다.

먼저, 도 7은 본 발명의 제1 실시 예에 따른 수화를 음성이나 문자로 번역하는 방법을 개략적으로 나타낸 흐름도이다.

첨부된 도 7을 참조하면, 수화 번역기(100)는 사용자 단말기(10)의 정면에 설치된 카메라을 통해 수화자의 영상을 촬영하고, 촬영 영상이 표시되는 디스플레이에 수화자의 얼굴과 양손을 위치시키기 위한 가이드라인을 표시한다(S101).

수화 번역기(100)는 수화자로부터 수화 입력을 시작하는 제1 제스처가 인식되기 전까지는 수화 번역을 대기하고(S102; 아니오), 상기 제1 제스처가 인식되면(S102; 예), 손 모양과 움직임에 따른 제스처 인식을 수행한다(S103).

또한, 수화 번역기(100)는 상기 제스처 인식과 동시에 수화자의 얼굴 특징점 검출에 따른 표정을 인식한다(S104).

수화 번역기(100)는 수화자의 표정 인식 정보에서 입 모양을 검출하여 입을 다물고 있으면(S105; 아니오), 상기 인식된 제스처를 수화로 인식하여, 상기 제스처에 해당하는 단어를 수화 학습 데이터에서 조회 및 검출한다(S106).

반면, 수화 번역기(100)는 수화자가 입을 벌리고 있으면(S105; 예), 입력된 제스처를 지화로 인식하여, 상기 제스처에 해당하는 지문자 및 지숫자를 자화 학습데이터에서 조회 및 검출한다(S107).

수화 번역기(100)는 수화자로부터 수화 입력을 종료하는 제2 제스처가 인식되지 않으면(S108; 아니오), 상기 S103 단계로 돌아가 제스처 인식 및 얼굴 인식을 반복한다.

반면, 수화 번역기(100)는 상기 제2 제스처가 인식되면(S108; 예), 상기 수화 및 지화를 토대로 검출된 단어들의 패턴을 조합하여 문장을 생성한다(S109).

그리고, 수화 번역기(100)는 생성된 문장에 표정 인식에 따른 비지수적 표현을 참조하여 부호를 입력한다(S110).

이 때, 상기 부호는 문장부호 및 수화자의 감정상태를 나타내는 이모티콘을 포함할 수 있다.

수화 번역기(100)는 번역된 문장을 사용자 단말기(10)의 디스플레이 및 스피커를 통해 문자 및 음성으로 출력한다(S111).

여기까지는 수화자의 수화를 문자 및 음성으로 번역하는 방법을 설명하였고, 도 8을 통하여 음성을 수화로 번역하는 방법을 계속 설명한다.

도 8은 본 발명의 제1 실시 예에 따른 음성을 수화로 번역하는 방법을 개략적으로 나타낸 흐름도이다.

첨부된 도 8을 참조하면, 수화 번역기(100)는 일반인으로부터 발화된 음성을 인식하여 문장으로 변환한다(S112).

수화 번역기(100)는 문장에 포함된 단어를 인식하고, 억양이나 문장의 의미에 따른 비지수적 표현 정보를 인식할 수 있다(S113).

이 때, 수화 번역기(100)는 인식된 단어가 보통명사이면 수화 학습 데이터에서 조회하고, 수화 학습 데이터에서 검출되지 않는 고유명사이면 지화 학습데이터에서 검출할 수 있다.

수화 번역기(100)는 인식된 문장의 단어와 비지수적 표현 정보를 병합하여 인체모델을 형상화한 그래픽으로 수화를 표시한다(S114).

즉, 인체 형상의 시각적 캐릭터가 제스처와 얼굴 표정으로 인식된 음성정보를 수화로 표현할 수 있다.

이후, 도면에서는 종료 되는 것으로 표시하였으나, 수화자와 일반인 간의 수화와 음성을 번역하여 각각 사용자 단말기(10)에 출력할 수 있다.

[제2 실시예]

한편, 본 발명의 제2 실시 예에서는 일반인과 수화자 각각의 사용자 단말기(10)에 설치된 수화 번역기(100)를 활용하여 무선 통신으로 양방향 수화번역을 수행하는 것을 가정하여 설명한다.

도 9는 본 발명의 제2 실시 예에 따른 양방향 수화 번역 방법을 개략적으로 나타낸 흐름도이다.

첨부된 도 9를 참조하면, 본 발명의 제2 실시 예에서는 양방향 수화 번역을 위해, 일반인 단말기(10-1, 수화 번역기)와 수화 단말기(10-2, 수화 번역기)는 각각 통신부(110)가 무선 통신으로 연결되는 단계가 선행된다.

그리고, 일반인 단말기(10-1)에 설치된 수화 번역기(100)가 후면에 구비된 카메라를 통해 수화자의 영상을 촬영하여 수화로 번역하는 일련의 단계(S201~S211)는 상기 도 7을 통해 설명한 것과 매우 유사하므로 중복된 설명을 생략하고 다른 점을 위주로 설명한다.

본 발명의 제2 실시 예에서는 일반인 단말기(10-1)에서 문자 또는 음성을 인식하여 문장으로 변환하고(S212), 문장에 포함된 단어를 인식하고, 부호 및 억양으로 비지수적 표현 정보를 인식할 수 있다(S213).

일반인 단말기(10-1)는 인식된 문장 및 비수지적 표현 정보를 수화자 단말기(10-2)로 전송한다(S214).

한편, 수화자 단말기(10-2)는 수신된 문장 및 비수지적 표현 정보를 데이터베이스부(120)에서 검출하고(S215), 검출된 문장의 단어와 비지수적 표현 정보를 병합하여 인체모델을 형상화한 그래픽으로 수화를 표시한다(S216).

즉, 본 발명의 제2 실시 예에는 수화자의 의사표현을 일반인 단말기(10-1)가 번역하여 표시하고, 일반인의 의사표현은 수화자 단말기(10-2)가 번역하여 수화로 표시할 수 있다.

이와 같이, 본 발명의 실시 예에 따르면, 별도의 장비 없이 휴대가 간편한 사용자 단말기에 양방향 수화번역이 가능한 수화 번역기를 탑재하여 일반인이 자유롭게 청각 장애인과 수화로 대화할 수 있는 효과가 있다.

또한, 제스처와 동시에 검출된 얼굴 인식 정보에 기초한 비수지적 표현을 참조하여 조합된 문장의 의미를 명확히 함으로써 의자전달의 정확도를 향상시킬 수 있는 효과가 있다.

이상에서는 본 발명의 실시 예에 대하여 설명하였으나, 본 발명은 상기한 실시 예에만 한정되는 것은 아니며 그 외의 다양한 변경이 가능하다.

예컨대, 전술한 본 발명의 실시 예에서는 수화자의 제스처를 인식하고 데이터베이스부(120)에서 학습 저장된 수화/지화 학습 데이터에서 조회하여 단어를 검출하는 것으로 설명하였다.

그러나, 수화자의 제스처가 데이터베이스부(120)에서 조회되지 않아 번역에 실패하거나 어색한 문장으로 번역될 수 있다.

여기서, 데이터베이스부(120)에서 조회되지 않는 제스처나 단어는 예컨대, 신조어 및 특수 업무에서 사용되는 전문 용어와 유행어, 별명 및 속어와 같은 개인화된 단어 등일 수 있다.

따라서, 수화 번역기(100)의 제어부(180)는 단어인식에 실패한 제스처를 검출하여 동영상이나 이미지형태로 서버(200)에 전송할 수 있으며, 서버(200)에서 추가로 학습 처리된 DB를 수신하여 업데이트함으로써 수화번역의 정확도를 높을 수 있다.

또한, 수화 번역기(100)는 사용자의 개인화된 제스처와 의미를 서버(200)로 전송하여 DB화를 요청하고, 서버(200)에서 DB화된 정보를 업데이트 받음으로써 수화로써도 개인화된 의사표현을 번역기에 적용할 수 있다.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시 예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시 예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

10: 사용자 단말기 100: 수화 번역기
110: 통신부 120: 데이터베이스부
130: 수화 입력부 140: 영상 처리부
150: 제스처 인식부 151: 손 인식 모듈
152: 얼굴 인식 모듈 160: 음성 인식부
170: 문자 인식부 180: 제어부
200: 서버

Claims

휴대가 가능한 사용자 단말기에 설치되는 수화 번역기에 있어서,
영상입력 정보를 바탕으로 수화 번역을 위한 학습 데이터를 저장하는 데이터베이스부;
카메라를 통해 수화자의 영상을 촬영하는 수화 입력부;
상기 수화자로부터 제1 제스처가 인식된 수화 시작점부터 제2 제스처가 인식된 수화 종료점까지의 일정 수화 구간의 영상에서 손의 모양과 움직임에 따른 제스처와 얼굴의 움직임에 따른 표정을 인식하는 제스처 인식부; 및
상기 제스처 인식에 따른 단어들의 조합으로 문장을 생성하고, 상기 문장에 상기 표정 인식에 따른 비수지적 표현을 부가하여 문자 및 음성 중 적어도 하나로 출력하는 제어부를 포함하는 수화 번역기.
제 1 항에 있어서,
상기 수화 입력부는,
상기 사용자 단말기의 디스플레이에 수화자의 얼굴 검출 영역과 양손의 검출영역을 구획하는 가이드라인을 표시하는 수화 번역기.
제 1 항에 있어서,
상기 제스처 인식부는,
손의 골격구조에 따른 특징점을 바탕으로 영상에서 분석된 인체 골격의 양팔 끝단에 있는 손의 중심점을 검출하고, 손의 중심점이 이동하는 것을 추적하여 제스처를 인식하는 손 인식 모듈; 및
얼굴의 눈, 눈썹, 코, 입 및 주름 형태의 안면 특징점을 바탕으로 표정을 인식하는 얼굴 인식 모듈을 포함하는 수화 번역기.
제 1 항에 있어서,
상기 제어부는,
얼굴 인식에 따른 입 모양으로 수화 및 지화를 구분하되, 수화자가 입을 다물고 있는 경우 수화로 판단하고, 입을 벌리고 있으면 지화로 판단하여 단어를 번역하는 수화 번역기.
제 4 항에 있어서,
상기 데이터베이스부는,
수지적 표현 방식인 단어 별 손의 모양, 손의 중심 위치, 움직임 및 방향을 학습하여 데이터화한 수화 학습 데이터;
지문자 및 지숫자 별 손의 모양을 학습하여 데이터화한 지화 학습 데이터;
수화 번역에 참조하기 위한 비수지적 표현 방식인 얼굴의 표정과 행동을 학습하여 데이터화한 비수지적 학습 데이터; 및
문자나 음성으로 입력되는 정보를 수화 표현하기 위해 인체모델을 형상화한 그래픽 정보를 포함하는 수화 번역기.
제 1 항에 있어서,
무선 통신을 연결하는 통신부;
입력된 영상의 이미지 프레임 별 수화자의 인체부분을 제외한 배경을 삭제하는 영상 처리부;
발화된 음성을 인식하여 단어 및 문장으로 변환하는 음성 인식부; 및
자판을 통해 입력된 단어 및 문장을 인식하는 문자 인식부를 더 포함하며,
상기 제어부는 음성 및 문자 인식에 따른 상기 문장을 수화로 더 번역하여 양방향 수화번역을 지원하는 수화 번역기.
제 1 항에 있어서,
상기 제어부는,
상기 데이터베이스부에서 단어 인식에 실패한 제스처나 개인화된 제스처와 의미를 수화 번역을 지원하는 서버로 전송하여 DB화를 요청하고, 상기 서버로부터 학습 처리된 데이터를 업데이트하는 수화 번역기.
제 1 항 내지 제 7 항 중 어느 한 항의 수화 번역기를 실현하기 위한 어플리케이션 프로그램을 사용자 단말기에 제공하고, 상기 수화 번역기의 운영 상태를 중앙에서 관리하는 서버를 포함하는 수화 번역 시스템.
휴대가 가능한 사용자 단말기에 설치되는 수화 번역기의 수화 번역 방법에 있어서,
a) 카메라를 통해 수화자의 영상을 촬영하고 촬영 영상이 표시되는 디스플레이에 수화자의 얼굴과 양손을 위치시키기 위한 가이드라인을 표시하는 단계;
b) 상기 수화자로부터 제1 제스처가 인식된 수화 시작점부터 제2 제스처가 인식된 수화 종료점까지의 일정 수화 구간의 영상에서 손의 모양과 움직임에 따른 제스처와 얼굴의 움직임에 따른 표정을 인식하는 단계; 및
c) 상기 제스처 인식에 따른 단어들의 조합으로 문장을 생성하고, 상기 문장에 상기 표정 인식에 따른 비수지적 표현을 부가하여 문자 및 음성 중 적어도 하나로 출력하는 단계를 포함하는 수화 번역 방법.
제 9 항에 있어서,
상기 c) 단계 이후에,
청인으로부터 발화된 음성을 인식하여 문장으로 변환하는 단계;
상기 문장에 포함된 단어를 인식하고, 억양이나 문장의 의미에 따른 비지수적 표현 정보를 인식하는 단계; 및
인식된 문장의 단어와 비지수적 표현 정보를 병합하여 인체모델을 형상화한 그래픽으로 수화를 표시하는 단계를 더 포함하는 수화 번역 방법.