KR100948600B1 - 제스처/음성 융합 인식 시스템 및 방법 - Google Patents

제스처/음성 융합 인식 시스템 및 방법 Download PDF

Info

Publication number
KR100948600B1
KR100948600B1 KR1020070086575A KR20070086575A KR100948600B1 KR 100948600 B1 KR100948600 B1 KR 100948600B1 KR 1020070086575 A KR1020070086575 A KR 1020070086575A KR 20070086575 A KR20070086575 A KR 20070086575A KR 100948600 B1 KR100948600 B1 KR 100948600B1
Authority
KR
South Korea
Prior art keywords
gesture
voice
fusion
feature information
module
Prior art date
Application number
KR1020070086575A
Other languages
English (en)
Other versions
KR20080050994A (ko
Inventor
정영규
한문성
이재선
박준석
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to JP2009540141A priority Critical patent/JP2010511958A/ja
Priority to PCT/KR2007/006189 priority patent/WO2008069519A1/en
Publication of KR20080050994A publication Critical patent/KR20080050994A/ko
Application granted granted Critical
Publication of KR100948600B1 publication Critical patent/KR100948600B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 제스처/음성 융합 인식 시스템 및 방법에 관한 것으로, 잡음환경에서 음성과 제스처의 융합을 통해 명령어 인식의 성능을 높이기 위해 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보를 추출하는 음성특징추출부, 상기 검출된 시작점과 끝점에 관한 정보를 이용하여 촬영 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 제스처 특징추출부 및 상기 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부를 포함하여 구성되어 쉽고 정확하게 사용자의 명령을 인식할 수 있다.
청각 모델, 융합 인식, 제스처, EPD

Description

제스처/음성 융합 인식 시스템 및 방법{SYSTEM AND METHOD FOR INTEGRATING GESTURE AND VOICE}
본 발명은 융합 인식 기술에 관한 것으로, 특히 실제 노이즈 환경에서 사용자의 명령을 높은 성능으로 인식하기 위하여 음성의 EPD 값을 이용하여 제스처의 특징정보를 추출하여 음성의 특징정보와 융합하여 사용자의 명령을 인식할 수 있는 제스처/음성 융합 인식 시스템 및 방법에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 :2006-S-031-01 과제명 : 네트워크 기반 실감형 서비스를 위한 오감정보처리 기술개발].
최근 들어, 멀티미디어 기술의 발달과 인터페이스 기술의 발달에 따라 인간과 기계의 인터페이스를 쉽고 간편하게 실현하기 위하여 얼굴표정이나 방향, 입술모양, 응시추적, 손동작 그리고 음성 등을 이용하여 멀티모달(Multi-modal)형태의 인식 연구가 활발히 진행되고 있다.
특히, 현재의 Man-Machine 인터페이스 기술 중에서 음성 인식기술과 제스처 인식기술이 가장 편리한 인터페이스 기술로 사용되고 있다. 다만, 음성 인식기술과 제스처 인식기술은 제한된 환경에서는 높을 인식률을 보이지만, 실제 노이즈 환경에서는 그 성능을 제대로 발휘하지 못하는 문제가 있다. 왜냐하면, 음성인식은 환경 노이즈가 성능에 가장 큰 영향을 미치고, 카메라 기반 제스처 인식 기술은 조명 변화와 제스처의 종류에 따라 성능차이가 많이 발생한다. 따라서, 음성 인식기술은 노이즈에 강한 알고리즘을 이용하여 인식할 수 있는 기술의 개발이 필요하고, 제스처 인식기술은 인식 정보를 포함하는 제스처의 특정구간을 추출할 수 있는 기술 개발이 필요하게 되었다. 또한, 일반적인 제스처를 사용하는 경우에는 제스처 특정구간이 쉽게 구분되지 않으므로 인식에 어려움이 있었다.
또한, 음성과 제스처를 융합하여 인식하는 경우에 있어서는 음성의 프레임 처리 속도는 약 10ms/frame 이고, 영상 프레임 처리 속도는 약 66.7ms/frame 이므로 각 프레임을 처리하는 처리 속도에 차이가 있을 뿐만 아니라, 일반적으로 제스처의 구간이 음성 구간과 비교하여 더 많은 시간이 소요됨에 따라 발생하는 음성구간의 길이와 제스처 구간의 길이에 차이가 발생하여 음성과 제스처를 동기화하는 것에 문제가 발생한다.
따라서, 상기와 같은 문제를 해결하기 위해서 환경 노이즈에 강한 알고리즘을 이용하여 사용자의 음성으로부터 명령어 구간을 탐색하여 특징정보를 추출하고, 또한 음성의 명령어 시작점에 관한 정보를 이용하여 제스처의 특징구간을 검출하여 분명하게 구분되지 않는 제스처의 경우에도 쉽게 명령을 인식할 수 있는 수단이 필요하게 되었다.
또한, 음성과 제스처의 융합인식에 있어서 발생하는 동기 차이에 관한 문제를 음성 EPD 값에 의해 검출된 제스처의 명령구간에서 미리 설정된 최적 프레임을 적용하여 동기를 일치하도록 하는 수단이 필요하게 되었다.
상기와 같은 문제를 해결하기 위한 본 발명의 제스처/음성 융합 인식 시스템은 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보을 추출하는 음성특징추출부, 상기 검출된 시작점과 끝점에 관한 정보를 이용하여 촬영 영상의 제스처로부터 명령구간을 검출하여 제스처 특징정보를 추출하는 제스처 특징추출부, 상기 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부를 포함하여 이루어지는 것을 특징으로 한다.
한편, 상기 제스처 특징추출부는 상기 검출된 시작점을 이용하여 상기 촬영 영상으로부터 제스처의 시작점을 검출하는 제스처 시작점 검출모듈, 상기 제스처의 시작점으로부터 미리 설정된 최적 프레임의 수를 적용하여 최적의 영상 프레임을 계산하여 추출하는 최적 프레임 적용 모듈을 포함하는 동기화 모듈을 더 포함하는 것을 특징으로 한다. 이때, 상기 제스처 시작점 검출모듈은 상기 입력된 음성의 시작점(EPD : End Point Detection) 플러그를 상기 촬영 영상에서 체크하여 제스처의 시작점을 검출하는 것을 특징으로 한다.
또한, 상기 음성특징추출부는 상기 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하는 이피디(EPD : End Point Detection) 검출모듈, 청각모델기반 알고리즘을 이용하여 상기 검출된 명령어로부터 상기 명령어에 포함된 음성특징정보를 추출하는 청각모델기반 음성특징추출모듈을 포함하여 이루어지고, 추가적으로, 상기 추출된 음성특징정보로부터 노이즈를 제거하는 것을 특징으로 한다.
또한, 상기 제스처 특징추출모듈은 카메라로부터 촬영된 영상으로부터 손의 움직임을 추적하여, 상기 동기화 모듈에 전송하는 손 추적 모듈, 상기 동기화 모듈에서 추출된 최적의 영상 프레임을 이용하여 제스처 특징정보를 추출하는 제스처 특징 추출모듈을 포함하여 이루어지는 것을 특징으로 한다.
또한, 상기 융합인식부는 미리 설정된 융합학습 모델과 융합 학습 데이터 베이스를 기반으로 학습 파라미터를 생성하는 융합 학습 DB 제어모듈, 상기 추출된 음성특징정보와 제스처특징정보를 상기 생성된 학습 파라미터를 이용하여 제어하는 융합 특징 제어모듈, 상기 융합 특징 제어모듈에 의해 제어되는 결과를 인식 결과로 생성하는 융합 인식 모듈을 포함하여 이루어지는 것을 특징으로 하고, 이때, 상기 융합 특징 제어모듈은 입력되는 벡터의 노드수의 확장과 축소를 통해 상기 추출된 음성특징정보와 제스처특징정보의 특징벡터를 제어하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 제스처/음성 융합 인식 방법은 입력된 음성 중에서 명령어의 시작점(EPD 값)과 끝점을 검출하여 음성특징정보를 추출하는 1 단계, 상기 검출된 시작점 및 끝점을 이용하여 카메라에 의해 입력된 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 2 단계 및 상기 추출된 음성특징정보와 제스처특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 3 단계를 포함하여 이루어지는 것을 특징으로 한다.
이때, 상기 1 단계는 상기 명령어의 시작점과 끝점에 의한 명령어 구간으로부터 청각모델을 기반으로 음성특징정보를 추출하는 것을 특징으로 한다.
또한, 상기 2 단계는 상기 카메라의 입력 영상으로부터 손의 움직임 제스처를 추적하는 A 단계, 상기 검출된 시작점 및 끝점을 이용하여 상기 손의 움직임 제스처에 의한 명령구간을 검출하는 B 단계, 미리 설정된 최적 프레임을 적용하여 상기 제스처에 의한 명령구간으로부터 최적의 프레임을 결정하는 C 단계, 상기 결정된 최적의 프레임으로부터 제스처특징정보를 추출하는 D 단계를 포함하여 이루어지는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 의한 제스처/음성 융합 인식 시스템 및 방법은 음성의 명령어 구간의 시작점인 EPD 값을 이용하여 제스처의 명령어 구간을 검출하여 구분성이 분명하지 않은 제스처의 경우에도 인식률을 높일 수 있고, 또한 제스처의 명령어 구간에 대하여 최적 프레임을 적용하여 음성과 제스처의 동기화를 통해 음성과 제스처에 의한 융합 인식을 실현할 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1 은 본 발명에 의한 제스처/음성 융합 인식 시스템의 개념을 나타내는 도면이다.
도 1 을 참조하면, 제스처/음성 융합 인식 기술은 사람의 음성과 제스처에 의한 명령을 융합하여 인식하고, 그 인식 결과에 의해 발생하는 제어명령을 이용하 여 오감을 표현하는 디바이스를 제어한다.
구체적으로 사람(100)은 음성(110)과 제스처(120)에 의해 자신이 원하는 명령을 한다. 여기서, 사람이 하는 명령에 대하여 예를 들어 설명하면, 사람이 사이버 공간에서 물건을 구매하는 경우에 디스플레이되어 있는 많은 물건 중에서 특정 빵을 선택하는 명령으로 "옥수수 식빵 선택" 이라고 말하면서 손가락으로 옥수수 빵을 지적하는 행동을 할 수 있다.
사람(100)이 음성(110)과 제스처(120)에 의해 명령을 하면 사람의 음성 명령에 관한 특징정보는 음성 인식(111)을 통해 인식하고, 사람의 제스처에 의한 특징 정보는 제스처 인식(121)을 통해 인식한다. 이렇게 인식된 음성과 제스처의 인식 정보는 환경 노이즈에 약한 음성과 구분성이 없는 제스처에 대한 인식률을 높이기 위해 음성과 제스처에 의한 특징정보를 융합 인식(130)에 의해 하나의 사용자 명령으로 인식한다.
본 발명은 이렇게 사람의 음성과 제스처에 대한 융합 인식에 관한 기술이다. 이렇게 인식된 명령은 제어부에 의해 개별적 감각에 대한 출력장치인 스피커(170), 디스플레이 장치(171), 발향기(172), 촉각장치(173) 그리고 미각 장치(174)로 전달되어 각각의 장치를 제어한다. 또한 인식 결과를 네트워크로 전송하여 그 결과에 대한 오감 데이터를 전달하여 각각의 출력장치를 제어할 수도 있다. 다만, 본원발명은 융합 인식에 관한 것으로 인식 이후의 구성은 다양하게 적용될 수 있으므로 이에 대한 설명은 생략한다.
도 2 는 본 발명에 의한 제스처/음성 융합 인식 시스템의 구성을 나타내는 도면이다.
도 2를 참조하면, 제스처/음성 융합 인식 시스템은 마이크(211)로 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보을 추출하는 음성특징추출부(210), 음성특징추출부(210)에 의해 검출된 시작점과 끝점에 관한 정보를 이용하여 카메라에 의해 촬영된 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 제스처 특징추출부(220), 음성특징추출부(210)에 의해 검출된 시작점을 이용하여 촬영 영상으로부터 제스처의 시작점을 검출하고, 이렇게 검출된 제스처의 시작점으로부터 미리 설정된 최적 프레임의 수를 적용하여 최적의 영상 프레임을 계산하는 동기화 모듈(230) 그리고, 이렇게 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부(240)를 포함하여 이루어지는 것을 특징으로 한다. 이하, 각각의 구성요소에 대하여 구체적으로 설명한다.
음성특징추출부(210)는 사용자가 음성을 입력하는 마이크(211), 사용자의 음성 중에서 명령어 구간의 시작점과 끝점을 검출하는 EPD(End Point Detection) 검출 모듈(212), EPD 검출 모듈(212)에 의해 검출된 음성의 명령어 구간에 대하여 청각 모델을 기반으로 음성특징정보를 추출하는 청각모델기반 음성특징추출모듈(213)로 이루어진다. 또한 추출된 음성특징정보에 포함된 노이즈를 제거하는 채널 노이즈 제거모듈을 포함할 수 있다.(미도시)
EPD 검출모듈(212)은 유무선 마이크에 의해 입력된 음성을 분석하여 명령어의 시작과 끝을 검출한다.
구체적으로, EPD 검출모듈(212)은 음성신호를 획득하여, 음성신호의 끝점 검출에 필요한 에너지값을 계산하고, 입력된 음성 신호 중에서 명령어로 계산해야 할 구간을 판별하여 명령어의 시작과 끝을 검출한다.
EPD 검출모듈(212)은 먼저 마이크로부터 음성신호를 획득하여 프레임 계산을 위한 형태로 획득된 음성을 변환한다. 이 과정에서 무선에 의해 음성이 입력되는 경우에는 데이터 손실이나 신호 간섭에 의한 신호 왜곡과 같은 문제가 발생할 수 있으므로 신호 획득시 이에 대한 처리과정이 필요하다.
EPD 검출모듈(212)에서 음성 신호의 끝점 검출에 필요한 에너지값의 계산은 예를 들어 다음과 같이 구해진다. 음성신호를 분석하기 위한 한 프레임의 크기는 160 sample을 기준으로 하고 프레임 에너지는 다음 식에 의해 계산된다.
FrameEnergy = log10
Figure 112007062599383-pat00001
S(n):성대신호샘풀, N:한프레임의 샘플 수
이렇게 구해진 프레임 에너지는 이후 수행되는 끝점 검출을 위한 파라미터로 사용된다.
EPD 검출모듈(212)은 프레임 에너지값을 계산한 후에는 명령어로 실제로 계산해야 할 구간을 판별한다. 예를 들면, 음성신호의 시작점과 끝점을 계산하는 과정은 프레임 에너지를 이용한 4개의 에너지 임계치(threshold)와 10개의 조건에 의 해 결정한다. 여기서, 4개의 에너지 임계치(threshold)와 10개의 조건은 다양하게 설정이 가능하고, 바람직하게는 명령어 구간을 구하기 위해 실험에 의해 가장 적당한 것으로 선택한다. 4개의 임계치는 끝점 검출 알고리즘에 의해 매 프레임마다 시작과 끝을 판별한다.
EPD 검출모듈(212)은 이렇게 검출된 명령어의 시작점(이하, "EPD 값"이라 한다.)에 대한 정보를 동기화 모듈(230)의 제스처 시작점 검출모듈(231)에 전달한다.
또한, EPD 검출모듈(212)은 입력된 음성 중에서 명령어 구간에 대한 정보를 청각모델 기반 음성특징추출모듈(213)에 전송하여 음성특징정보를 추출한다.
음성의 명령어 구간에 대한 정보를 수신한 청각모델 기반 음성특징추출모듈(213)은 EPD 검출모듈(212)에 의해 검출된 명령어 구간으로부터 청각모델에 기반하여 특징정보를 추출한다. 청각모델 기반으로 음성 특징정보를 추출하기 위해 사용되는 알고리즘에는 EIH 알고리즘과 ZCPA 알고리즘 등이 이용된다.
청각모델 기반 음성특징추출모듈(213)에 의해 추출된 음성특징정보는 채널노이즈제거모듈(미도시)에 의해 노이즈를 제거하여 융합인식부(245)에 전달된다.
제스처 특징추출부(220)는 카메라(221)로부터 촬영된 영상으로부터 얼굴과 손을 검출하는 얼굴 및 손 검출모듈(222), 검출된 손의 움직임을 추적하여 동기화모듈(230)에 전달하고, 동기화모듈(230)에 의해 계산된 최적의 프레임을 이용하여 제스처의 특징정보를 추출하는 제스처 특징추출모듈(224)로 이루어진다.
얼굴 및 손 검출모듈(222)은 영상으로부터 제스처의 대상이 되는 얼굴 및 손 을 검출하고, 손 추적 모듈(223)은 영상에 있어서 손의 움직임을 계속적으로 추적한다. 다만, 손 추적 모듈(223)은 손으로 한정하여 설명하였지만, 당업자에 의해 제스처로 인식될 수 있는 다양한 신체의 일부를 추적할 수 있다.
손 추적 모듈(223)에 의해 시간의 진행에 따라 손의 움직임을 계속하여 저장하고, 손의 움직임에서 제스처 명령으로 인식할 수 있는 부분은 동기화 모듈(230)에서 음성특징추출부(210)에서 전달된 EPD 값을 이용하여 검출한다. 이하, EPD 값을 이용하여 손의 움직임 중에서 제스처 명령으로 인식되는 구간을 검출하고, 음성과 제스처의 동기화를 위해 최적 프레임을 적용하는 동기화 모듈(230)에 대하여 설명한다.
동기화 모듈(230)은 EPD 값과 손의 움직임에 대한 영상을 이용하여 제스처의 시작점을 검출하는 제스처 시작점 검출모듈(231)과 검출된 제스처 시작점에 의해 계산된 제스처의 시작 프레임을 이용하여 융합 인식에 필요한 최적의 영상 프레임을 계산하는 최적 프레임 적용모듈(232)를 포함하여 이루어진다.
제스처 시작점 검출모듈(231)은 실시간으로 음성신호와 영상신호가 입력되는 중에 EPD 검출모듈(212)에 의해 음성의 EPD 값이 검출되면 동기화 모듈(230)은 영상신호에서 음성 EPD 플러그를 체크한다. 이러한 방법으로 제스처 시작점 검출모듈(231)은 제스처의 시작 프레임을 계산한다. 또한, 계산된 제스처의 시작 프레임을 이용하여 최적 프레임 적용모듈(232)은 융합 인식에 필요한 최적의 영상 프레임을 계산하여 제스처 특징추출모듈(224)에 전달한다. 최적 프레임 적용모듈(232)에 의해 적용되는 융합 인식에 필요한 최적의 영상 프레임은 제스처의 인식률이 가장 높은 것으로 판단되는 프레임 수를 미리 설정하고, 제스처 시작점 검출모듈(231)에 의해 제스처의 시작 프레임이 계산되면 최적의 영상 프레임을 결정한다.
융합 인식부(244)은 학습 모델 기반으로 음성특징정보와 제스처 특징정보를 효율적으로 융합하기 위한 융합 모델을 생성하는 융합모델 생성모듈(242), 통계적 모델 기반의 융합 인식 알고리즘 개발에 적합한 형태로 구축된 융합 학습 DB(244), 융합모델 생성모듈(242)과 융합학습DB(244)에 의한 학습 및 학습 파라미터를 제어하는 융합학습DB 제어모듈(243), 학습 파라미터와 입력된 음성특징정보와 제스처 특징정보의 특징 벡터를 제어하는 융합특징 제어모듈(241) 그리고 인식 결과를 생성하여 각종 다양한 기능을 제공하는 융합인식모델(245)로 이루어진다.
융합모델 생성모듈(242)는 음성특징정보와 제스처 특징정보를 효율적으로 융합하기 위해 고성능의 융합모델을 생성한다. 고성능의 융합 모델을 결정하기 위해 기존에 사용되는 다양한 학습 알고리즘(Hidden Markov Model(HMM), Neural Network(NN), Dynamic Time Wapping(DTW) 등)을 구현하고 실험에 의해 결정할 수 있다. 특히, 본원발명은 NN을 기반으로 융합 모델을 결정하여 융합 인식에 높은 성능을 발휘할 수 있는 NN 파라미터를 최적화하는 방법을 이용할 수 있다. 다만, 고성능 융합 모델을 생성하는데 있어서 가장 큰 문제 중의 하나는 프레임 수가 다른 두 모달리티를 학습모델 내에서 어떻게 동기화할 것인가 하는 문제이다.
학습모델내에서의 동기화 문제는 학습모델 최적화 문제와 동일한다. 본 발명 은 융합 레이어를 두고 본 레이어에서 음성과 제스처간의 연결 방법을 최적화한다. 최적화를 위해 시간 축을 기준으로 음성과 제스처의 중첩 길이를 계산 한 후 이를 기반으로 동기화 한다. 이러한 중첩길이는 인식률 실험을 통해 가장 높은 인식률을 보이는 연결 방법을 찾는다.
융합학습 DB(244)는 통계적 모델 기반의 융합 인식 알고리즘 개발에 적합한 형태로 융합 인식 데이터베이스를 구축한다.
예를 들어, 10개의 단어를 대상으로 스테레오 카메라와 무선 마이크를 이용하여 다양한 연령층의 데이터를 동기화시켜서 수집한다. 표 1 은 제스처와 음성 융합을 위한 정의된 명령어 셋이다. 정의된 명령어 집합은 일반적으로 사람들이 크게 학습 없이 이해할 수 있는 자연스런 제스처를 대상으로 하였다.
[표 1]
01 잡아
02 놓아
03 열어
04 닫아
05 이리와
06 저리가
07 아래
08
09 오른쪽
10 왼쪽
이때 음성의 샘플링 비율은 16kHz에 16bits을 사용하고, 채널 수 1(mono)의 Pulse Coded Modulation (PCM) 방식의 Waveform을 이용하여 녹음한다. 영상은 STH- DCSG-C 스테레오 카메라를 이용하여 초당 15frame, 320x240크기의 24bits BITMAP 이미지를 블루 스크린 배경과 4개의 형광등 박스가 설치된 조명하에서 녹화하였다. 스테레오 카메라에서 음성 인터페이스가 존재하지 않기 때문에 음성 수집 모듈과 영상 수집 모듈을 독립적으로 작성하여 음성 녹음 프로그램에서 IPC (Inter-Process Communications)를 통해 영상 수집 프로세스를 제어하는 방법으로 영상과 음성의 동기화 프로그램을 작성하여 데이터를 수집하였다. 영상 수집 모듈은 OpenCV(Computer Vison)와 SVS(Small Vision System) 라이브러리를 이용하여 구성하였다.
스테레오 카메라 영상은 별도의 캘리브레이션 과정을 거쳐 실제 녹음 환경에 적응시켜야 하며 최적의 영상을 획득하기 위해 관련 gain, exposure, brightness, red, blue파라미터 값을 수정하여 색감 및 노출 및 WB값을 조정하였다. 캘리브레이션 정보 및 파라미터 정보는 별도의 ini 파일로 저장하여 영상 저장 모듈에서 호출하여 참조하도록 하였다.
융합학습DB 제어모듈(243)은 융합모델 생성모듈(242)과 연계하여 미리 생성되어 저장된 융합학습DB(244)를 기반으로 학습 파라미터를 생성한다.
융합특징 제어모듈(241)은 융합학습DB 제어모듈(243)에 의해 생성된 학습 파라미터와 음성특징추출부(210)과 제스처특징추출부(220)에 의해 추출된 음성과 제스처의 특징정보의 특징벡터를 제어한다. 이러한 제어는 입력 벡터의 노드수의 확장과 축소에 관계된다. 융합특징 제어모듈(241)은 융합 레이어를 갖는 것을 특징으 로 하고, 이러한 융합 레이어는 각기 다른 크기를 갖는 음성과 제스처의 길이를 효율적으로 융합하여 단일 인식률을 제시하도록 개발된다.
융합인식모듈(245)은 융합특징 제어모듈(241)에 의한 제어결과를 이용하여 인식결과를 생성한다. 또한 융합 표현기 혹은 네트워크 등과 상호작용을 위한 각종 기능을 제공한다.
도 3 은 본 발명에 의한 제스처/음성 융합 인식 방법을 나타내는 흐름도이다.
도 3 을 참조하면, 제스처/음성 융합 인식 방법은 전체 세 개의 스레드로 구성되어 동작한다. 세 개의 스레드는 음성 특징을 추출하는 음성특징추출 스레드(10)와 제스처의 특징을 추출하는 제스처특징 추출 스레드(20) 그리고 음성과 제스처를 융합인식을 수행하는 융합인식 스레드(30)로 이루어진다. 세 스레드(10, 20, 30)는 학습 파라미터를 로드하는 시점에 생성하고, 스레드 플러그를 이용하여 유기적으로 동작한다. 이하, 세 스레드(10, 20, 30)가 유기적인 동작을 통한 제스처/음성 융합 인식 방법을 설명한다.
사용자가 음성과 제스처를 이용해 명령을 하는 경우에, 음성특징추출 스레드는(10)는 유무선 마이크를 이용해 계속해서 음성을 수신한다.(S311) 그리고 제스처특징 추출 스레드(20)는 카메라를 이용해 제스처를 포함하는 영상을 계속해 수신한 다.(S320) 마이크를 이용해 계속해서 입력되는 음성의 음성 프레임을 계산하면서(S312) EPD 검출모듈(212)은 음성에 포함된 명령어의 시작점과 끝점(음성 EPD 값)을 검출한다.(S313) 음성 EPD 값이 검출되면 음성 EPD 값을 제스처특징 추출 스레드의 동기화 단계(40)로 전달한다. 또한 음성에 포함된 명령어의 시작점과 끝점에 의해 음성의 명령어 구간이 결정되면, 청각모델기반 음성특징추출모듈(213)은 청각모델을 기반으로 명령어 구간으로부터 음성 특징을 추출하여(S314), 융합인식 스레드(30)로 전달한다.
제스처특징 추출 스레드(20)는 카메라를 통해 계속해서 입력되는 영상으로부터 손 및 얼굴을 검출한다.(S321) 이렇게 손과 얼굴이 검출되면 사용자의 제스처를 추적한다.(S322) 사용자의 제스처는 계속해서 변하므로 일정한 길이의 제스처를 버퍼에 저장한다.(S323)
제스처를 버퍼에 저장하는 과정에서 음성 EPD 값이 검출되어 전달되면, 버퍼에 저장된 제스처 영상에서의 음성 EPD 플러그를 체크한다.(S324) 음성 EPD 플러그에 의해 영상의 특징정보를 포함하는 제스처의 시작점과 끝점을 검색하고(S325), 이렇게 검색된 제스처 특징을 저장한다.(S326) 이렇게 저장된 제스처특징은 음성과 동기가 다르므로 미리 설정된 최적 프레임을 적용하여 제스처의 시작 프레임부터 최적 프레임을 계산한다. 그리고 계산된 최적 프레임은 제스처특징 추출모듈(224)을 이용해 제스처 특징정보를 추출하여 융합 인식 스레드로 전달한다.
음성특징추출 스레드(10)와 제스처 특징추출 스레드(20)에서 성공적으로 음성과 제스처의 특징정보가 추출되면 융합인식 스레드(30)에서 인식결과를 확인하는 동안 음성/제스처 특징추출 스레드(10, 20)는 정지(Sleep) 상태에 놓이게 된다.(S328, S315)
융합인식 스레드(30)는 음성특징정보와 제스처 특징정보를 전달받기 전에 미리 융합모델생성모듈(245)에 의해 고성능 융합모델을 생성하고, 이렇게 생성된 융합모델과 융합학습DB(244)를 제어하여 융합학습DB 제어모듈(243)은 학습 파라미터를 생성하여 로드한다.(S331) 이렇게 학습 파라미터가 로드되면 융합인식 스레드(30)는 음성/제스처 특징정보가 전달되기 전까지 정지(Sleep) 상태로 유지된다.(S332)
이렇게 정지(Sleep)상태에 있는 융합인식 스레드(30)는 음성과 제스처의 특징정보의 추출이 완료되어(S333) 특징정보에 관한 신호를 받으면 각각의 특징을 메모리에 로드한다.(S334) 음성과 제스처의 특징정보가 로드되면 미리 설정된 최적화한 융합 학습 모델과 학습 파라미터를 이용하여 인식결과를 계산한다.(S335)
융합인식부(240)에 의해 인식결과가 계산되면 정지 상태에 있는 음성특징 추출 스레드(10)와 제스처특징 추출 스레드(20)는 다시 입력되는 음성과 영상으로부터 특징정보를 추출하는 작업을 실행한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 당업자에게 있어 명백할 것이다.
도 1 은 본 발명에 의한 제스처/음성 융합 인식 시스템의 개념을 나타내는 도면이다.
도 2 는 본 발명에 의한 제스처/음성 융합 인식 시스템의 구성을 나타내는 도면이다.
도 3 은 본 발명에 의한 제스처/음성 융합 인식 방법을 나타내는 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
210 : 음성특징추출부 212 : EPD 검출모듈
213 : 청각모델기반 음성특징추출모듈 220 : 제스처특징추출부
222 : 얼굴 및 손 검출모듈 223 : 손 추적 모듈
230 : 동기화모듈 231 : 제스처 시작점 검출모듈
232 : 최적 프레임 적용 모듈 240 : 융합인식부
241 : 융합특징 제어모듈 242 : 융합모델 생성모듈
243 : 융합 학습 DB 제어모듈 244 : 융합 학습 DB
245 : 융합 인식 모듈

Claims (15)

  1. 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보을 추출하는 음성특징추출부;
    상기 검출된 시작점과 끝점에 관한 정보를 이용하여 촬영 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 제스처 특징추출부;
    상기 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부;
    상기 검출된 시작점을 이용하여 상기 촬영 영상으로부터 제스처의 시작점을 검출하는 제스처 시작점 검출모듈; 및
    상기 제스처의 시작점으로부터 미리 설정된 최적 프레임의 수를 적용하여 최적의 영상 프레임을 계산하여 추출하는 최적 프레임 적용 모듈을 포함하는 동기화 모듈;
    을 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  2. 삭제
  3. 제 1 항에 있어서, 상기 제스처 시작점 검출모듈은
    상기 입력된 음성의 시작점(EPD : End Point Detection) 플러그를 상기 촬영 영상쪽에서 체크하여 제스처의 시작점을 검출하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  4. 제 1 항에 있어서, 상기 음성특징추출부는
    상기 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하는 이피디(EPD : End Point Detection) 검출모듈;
    청각모델기반 알고리즘을 이용하여 상기 검출된 명령어로부터 상기 명령어에 포함된 음성특징정보를 추출하는 청각모델기반 음성특징추출모듈을 포함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  5. 제 4 항에 있어서, 상기 음성특징추출부는
    상기 추출된 음성특징정보로부터 노이즈를 제거하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  6. 제 3 항에 있어서, 상기 제스처 특징추출부는
    카메라로부터 촬영된 영상으로부터 손의 움직임을 추적하여, 상기 동기화 모듈에 전송하는 손 추적 모듈;
    상기 동기화 모듈에서 추출된 최적의 영상 프레임을 이용하여 제스처 특징정보를 추출하는 제스처 특징 추출모듈을 포함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  7. 제 1 항에 있어서, 상기 융합인식부는
    미리 설정된 융합학습 모델과 융합 학습 데이터 베이스를 기반으로 학습 파라미터를 생성하는 융합 학습 DB 제어모듈;
    상기 추출된 음성특징정보와 제스처특징정보를 상기 생성된 학습 파라미터를 이용하여 제어하는 융합 특징 제어모듈;
    상기 융합 특징 제어모듈에 의해 제어되는 결과를 인식 결과로 생성하는 융합 인식 모듈을 포함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  8. 제 7 항에 있어서, 상기 융합학습 모델은
    Neural Network(NN) 학습 알고리즘을 기반으로 생성되는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  9. 제 7 항에 있어서, 상기 융합 학습 데이터 베이스는
    스테레오 카메라와 무선 마이크를 이용하여 다양한 연령층의 음성과 제스처에 대한 특징정보를 융합하여 통계적 모델 기반의 융합 인식 알고리즘에 적용가능한 형태로 구축되는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  10. 제 7 항에 있어서, 상기 융합 인식 모듈은
    상기 추출된 음성특징정보와 제스처특징정보를 융합하는 융합 레이어를 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  11. 제 7 항에 있어서, 상기 융합 특징 제어모듈은
    입력되는 벡터의 노드수의 확장과 축소를 통해 상기 추출된 음성특징정보와 제스처특징정보의 특징벡터를 제어하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
  12. 입력된 음성 중에서 명령어의 시작점(EPD 값)과 끝점을 검출하여 음성특징정보를 추출하는 1 단계;
    카메라의 입력 영상으로부터 손의 움직임 제스처를 추적하는 2 단계;
    상기 검출된 시작점과 끝점을 이용하여 상기 손의 움직임 제스처에 의한 명령구간을 검출하는 3 단계;
    미리 설정된 최적 프레임을 적용하여 상기 제스처에 의한 명령구간으로부터 최적의 프레임을 결정하는 4 단계;
    상기 결정된 최적의 프레임으로부터 제스처특징정보를 추출하는 5 단계; 및
    상기 추출된 음성특징정보와 제스처특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 6 단계를 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 방법.
  13. 제 12 항에 있어서, 상기 1 단계는
    상기 명령어의 시작점과 끝점에 의한 명령어 구간으로부터 청각모델을 기반으로 음성특징정보를 추출하는 것을 특징으로 하는 제스처/음성 융합 인식 방법.
  14. 삭제
  15. 제 12 항에 있어서, 상기 1 단계는
    상기 추출된 음성특징정보로부터 노이즈를 제거하는 단계를 더 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 방법.
KR1020070086575A 2006-12-04 2007-08-28 제스처/음성 융합 인식 시스템 및 방법 KR100948600B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009540141A JP2010511958A (ja) 2006-12-04 2007-12-03 ジェスチャー/音声統合認識システム及び方法
PCT/KR2007/006189 WO2008069519A1 (en) 2006-12-04 2007-12-03 Gesture/speech integrated recognition system and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20060121836 2006-12-04
KR1020060121836 2006-12-04

Publications (2)

Publication Number Publication Date
KR20080050994A KR20080050994A (ko) 2008-06-10
KR100948600B1 true KR100948600B1 (ko) 2010-03-24

Family

ID=39806143

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070086575A KR100948600B1 (ko) 2006-12-04 2007-08-28 제스처/음성 융합 인식 시스템 및 방법

Country Status (2)

Country Link
JP (1) JP2010511958A (ko)
KR (1) KR100948600B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013069936A1 (en) * 2011-11-07 2013-05-16 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
KR20130097581A (ko) * 2012-02-24 2013-09-03 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9002714B2 (en) 2011-08-05 2015-04-07 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR101650769B1 (ko) 2015-05-28 2016-08-25 미디어젠(주) 제스처 인식을 이용한 차량용 음성 인식시스템

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101329100B1 (ko) * 2008-12-08 2013-11-14 한국전자통신연구원 상황 인지 장치 및 이를 이용한 상황 인지 방법
JP5473520B2 (ja) * 2009-10-06 2014-04-16 キヤノン株式会社 入力装置及びその制御方法
US8600166B2 (en) * 2009-11-06 2013-12-03 Sony Corporation Real time hand tracking, pose classification and interface control
KR102254484B1 (ko) * 2014-05-08 2021-05-21 현대모비스 주식회사 제스처 하이브리드 인식 장치 및 방법
KR102265143B1 (ko) * 2014-05-16 2021-06-15 삼성전자주식회사 입력 처리 장치 및 방법
WO2018061743A1 (ja) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 ウェアラブル端末
WO2018084576A1 (en) * 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
CN108248413A (zh) * 2016-12-28 2018-07-06 广州市移电科技有限公司 设有充电桩的路灯
JP6719745B2 (ja) * 2017-03-24 2020-07-08 日本電信電話株式会社 モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10986287B2 (en) 2019-02-19 2021-04-20 Samsung Electronics Co., Ltd. Capturing a photo using a signature motion of a mobile device
CN110287363A (zh) * 2019-05-22 2019-09-27 深圳壹账通智能科技有限公司 基于深度学习的资源推送方法、装置、设备及存储介质
KR102322817B1 (ko) * 2020-09-10 2021-11-08 한국항공대학교산학협력단 도플러 레이다 및 음성 센서를 이용한 cnn 기반의 hmi 시스템, hmi 시스템의 센서 데이터 처리 장치 및 그 동작 방법
KR102539047B1 (ko) * 2021-06-04 2023-06-02 주식회사 피앤씨솔루션 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108302A (ja) * 1991-10-14 1993-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声と指示動作を用いた情報入力方法
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3822357B2 (ja) * 1998-02-09 2006-09-20 株式会社東芝 マルチモーダル入出力装置のインタフェース装置及びその方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108302A (ja) * 1991-10-14 1993-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声と指示動作を用いた情報入力方法
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002714B2 (en) 2011-08-05 2015-04-07 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US9733895B2 (en) 2011-08-05 2017-08-15 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
WO2013069936A1 (en) * 2011-11-07 2013-05-16 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
KR20130097581A (ko) * 2012-02-24 2013-09-03 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
KR101650769B1 (ko) 2015-05-28 2016-08-25 미디어젠(주) 제스처 인식을 이용한 차량용 음성 인식시스템

Also Published As

Publication number Publication date
JP2010511958A (ja) 2010-04-15
KR20080050994A (ko) 2008-06-10

Similar Documents

Publication Publication Date Title
KR100948600B1 (ko) 제스처/음성 융합 인식 시스템 및 방법
WO2008069519A1 (en) Gesture/speech integrated recognition system and method
US10621991B2 (en) Joint neural network for speaker recognition
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US12002138B2 (en) Speech-driven animation method and apparatus based on artificial intelligence
KR101749100B1 (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
US10691898B2 (en) Synchronization method for visual information and auditory information and information processing device
US7860718B2 (en) Apparatus and method for speech segment detection and system for speech recognition
US10878819B1 (en) System and method for enabling real-time captioning for the hearing impaired via augmented reality
CN112162628A (zh) 基于虚拟角色的多模态交互方法、装置及***、存储介质、终端
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
WO2017151466A1 (en) Modular deep learning model
CN110874137B (zh) 一种交互方法以及装置
JP2012014394A (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
CN109271533A (zh) 一种多媒体文件检索方法
CN109558788B (zh) 静默语音输入辨识方法、计算装置和计算机可读介质
JP2010256391A (ja) 音声情報処理装置
KR102368300B1 (ko) 음성 및 표정에 기반한 캐릭터의 동작 및 감정 표현 시스템
CN109241924A (zh) 基于互联网的多平台信息交互***
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN111326152A (zh) 语音控制方法及装置
CN113129867A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN111462732B (zh) 语音识别方法和装置
CN107452381B (zh) 一种多媒体语音识别装置及方法
KR102345625B1 (ko) 자막 생성 방법 및 이를 수행하는 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140411

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150312

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160314

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170314

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180313

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190313

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20200106

Year of fee payment: 11