KR102602513B1 - 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치 - Google Patents

오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치 Download PDF

Info

Publication number
KR102602513B1
KR102602513B1 KR1020210069558A KR20210069558A KR102602513B1 KR 102602513 B1 KR102602513 B1 KR 102602513B1 KR 1020210069558 A KR1020210069558 A KR 1020210069558A KR 20210069558 A KR20210069558 A KR 20210069558A KR 102602513 B1 KR102602513 B1 KR 102602513B1
Authority
KR
South Korea
Prior art keywords
unit
command
voice
sound data
augmented reality
Prior art date
Application number
KR1020210069558A
Other languages
English (en)
Other versions
KR20220161094A (ko
Inventor
최치원
김정환
백지엽
조성동
민경진
이강휘
Original Assignee
주식회사 피앤씨솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피앤씨솔루션 filed Critical 주식회사 피앤씨솔루션
Priority to KR1020210069558A priority Critical patent/KR102602513B1/ko
Publication of KR20220161094A publication Critical patent/KR20220161094A/ko
Application granted granted Critical
Publication of KR102602513B1 publication Critical patent/KR102602513B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0176Head mounted characterised by mechanical features
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치에 관한 것으로서, 보다 구체적으로는 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치로서, 미리 정의된 명령어와 상기 미리 정의된 명령어에 대응되는 복수의 언어로 된 음성 명령어를 매칭하여 저장하는 명령어 저장부; 음향 데이터를 수집하는 음향 수집부; 상기 음향 수집부에서 수집한 음향 데이터를 분석하여 음향 데이터의 종류를 판별하는 음향 판별부; 상기 음향 판별부의 판별 결과 상기 음향 데이터가 음성 명령어이면, 상기 명령어 저장부를 이용해 상기 음향 데이터를 목표 언어의 음성 명령어로 번역하는 명령어 번역부; 및 상기 명령어 번역부에서 번역된 목표 언어의 음성 명령어를 텍스트 또는 음성으로 출력하는 명령어 출력부를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치에 따르면, 미리 정의된 명령어와 이에 대응되는 복수의 언어로 된 음성 명령어를 매칭해 저장하고, 저장된 매칭 정보를 사용해 오프라인 환경에서 음향 데이터를 목표 언어의 음성 명령어로 번역하여 출력함으로써, 오프라인의 임베디드 환경에서 제한적인 번역 기능을 수행할 수 있다.

Description

오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치{AUGMENTED REALITY GLASSES DEVICE WITH VOICE COMMAND TRANSLATION IN OFFLINE ENVIRONMENT}
본 발명은 증강현실 글라스 장치에 관한 것으로서, 보다 구체적으로는 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치에 관한 것이다.
디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 헤드 마운티드 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.
한편, 음성인식에서 가장 중요한 단계는 STT(speech to text)를 구현하는 일이다. STT 모델을 구현하기 위해서는 전처리(신호처리), 음향모델, 언어모델의 과정을 거친 후 음성 신호가 텍스트 형태로 전환 될 수 있다. 이렇게 변환된 텍스트를 활용하여 문자 기반 서비스 또는 외국어 번역기와 같은 다양한 플랫폼을 개발할 수 있다.
그런데, STT를 구현하기 위해서는 매우 높은 컴퓨팅 파워가 요구되므로, 헤드 마운티드 디스플레이와 같은 소형 디바이스의 임베디드 상태에서 직접 구현되는 STT 모델은 성능이 낮고 속도가 느려 실시간 사용이 어려운 문제가 있다. 특히, 헤드 마운티드 디스플레이는 머리에 착용하는 특성상 크기와 무게를 최소화해야 하므로, 높은 컴퓨팅 파워를 갖추기는 어려운 반면 음성인식의 필요는 높다. 따라서 온라인 환경에서 헤드 마운티드 디스플레이와 같은 소형 디바이스는 음성 신호를 서버로 송신하고 서버에서 STT를 처리하여 텍스트 결과를 수신하는 과정을 통해 음성인식을 처리하는 경우가 많다.
요즘 증강현실 글라스 장치(AR 글래스)를 활용하는 분야가 넓어지고 있으며 특히, AR 글래스를 산업에 투입하여 외국인과의 소통을 위한 음성 번역기로 활용하고자 하는 비즈니스가 존재한다. 하지만 이와 같은 AR 글래스의 번역기는 온라인 환경이 필수이고 외부의 STT, 언어 번역기를 갖추어야 하는 비용이 발생하게 된다. 따라서 이와 같은 문제를 해결하기 위한 솔루션이 필요하다.
한편, 본 발명과 관련된 선행기술로서, 공개특허 제10-2019-0093966호(발명의 명칭: HMD 장치 및 그 동작 방법, 공개일자: 2019년 08월 12일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 미리 정의된 명령어와 이에 대응되는 복수의 언어로 된 음성 명령어를 매칭해 저장하고, 저장된 매칭 정보를 사용해 오프라인 환경에서 음향 데이터를 목표 언어의 음성 명령어로 번역하여 출력함으로써, 오프라인의 임베디드 환경에서 제한적인 번역 기능을 수행할 수 있는, 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치는,
오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치로서,
미리 정의된 명령어와 상기 미리 정의된 명령어에 대응되는 복수의 언어로 된 음성 명령어를 매칭하여 저장하는 명령어 저장부;
음향 데이터를 수집하는 음향 수집부;
상기 음향 수집부에서 수집한 음향 데이터를 분석하여 음향 데이터의 종류를 판별하는 음향 판별부;
상기 음향 판별부의 판별 결과 상기 음향 데이터가 음성 명령어이면, 상기 명령어 저장부를 이용해 상기 음향 데이터를 목표 언어의 음성 명령어로 번역하는 명령어 번역부; 및
상기 명령어 번역부에서 번역된 목표 언어의 음성 명령어를 텍스트 또는 음성으로 출력하는 명령어 출력부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 명령어 저장부는,
상기 미리 정의된 명령어와 복수의 언어로 된 음성 명령어를 매칭해 매칭 테이블로 저장할 수 있다.
더욱 바람직하게는,
상기 명령어 저장부에 저장된 매칭 테이블을 근거리 무선 통신을 사용해 다른 증강현실 글라스 장치에 전송 공유하는 통신부를 더 포함할 수 있다.
바람직하게는, 상기 음향 판별부는,
상기 음향 데이터를 분석하여 시동어, 음성 명령어 또는 기타로 분류해 종류를 판별하며, 음성 명령어로 판별되면 상기 명령어 번역부로 전달할 수 있다.
바람직하게는, 상기 음향 판별부는,
상기 음향 데이터에 필터뱅크(filterbank)를 적용해 처리한 다음 상기 음향 데이터의 종류를 판별할 수 있다.
바람직하게는, 상기 명령어 번역부는,
상기 음향 데이터의 언어를 자동으로 인식하며, 인식 언어의 음성 명령어를 목표 언어의 음성 명령어로 번역할 수 있다.
바람직하게는,
사용자가 머리에 착용할 수 있는 HMD 프레임;
영상 정보가 사용자에게 제공될 수 있도록 영상 광을 출력하는 디스플레이부;
상기 HMD 프레임을 착용한 사용자의 양안의 전방에 배치되며, 사용자의 시야를 통한 실제 세계(real world)의 광의 적어도 일부를 투과시키고, 상기 디스플레이부에서 출력되는 영상 광을 상기 사용자의 눈 방향으로 전달하여, 상기 실제 세계의 광과 영상 광의 결합에 의한 증강현실을 제공하는 광학부;
음향을 출력하는 스피커부; 및
상기 명령어 출력부에서 출력되는 음성 명령어가 상기 디스플레이부 또는 스피커부로 출력되도록 전송 제어하는 제어부를 포함할 수 있다.
더욱 바람직하게는, 상기 제어부는,
상기 명령어 번역부에서 번역된 목표 언어의 음성 명령어에 대응하는 동작을 실행 제어할 수 있다.
본 발명에서 제안하고 있는 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치에 따르면, 미리 정의된 명령어와 이에 대응되는 복수의 언어로 된 음성 명령어를 매칭해 저장하고, 저장된 매칭 정보를 사용해 오프라인 환경에서 음향 데이터를 목표 언어의 음성 명령어로 번역하여 출력함으로써, 오프라인의 임베디드 환경에서 제한적인 번역 기능을 수행할 수 있다.
도 1은 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치의 구성을 도시한 도면.
도 2 및 도 3은 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치의 명령어 저장부가 저장하는 테이블을 예를 들어 도시한 도면.
도 4는 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치의 음향 판별부의 음향 데이터 분석 과정을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치의 룩업테이블 공유 모습을 예를 들어 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)는, 명령어 저장부(105), 음향 수집부(110), 음향 판별부(115), 명령어 번역부(120) 및 명령어 출력부(125)를 포함하여 구성될 수 있으며, 통신부(130), HMD 프레임(135), 디스플레이부(140), 광학부(145), 스피커부(150) 및 제어부(155)를 더 포함하여 구성될 수 있다.
명령어 저장부(105)는, 미리 정의된 명령어와 미리 정의된 명령어에 대응되는 복수의 언어로 된 음성 명령어를 매칭하여 저장할 수 있다. 보다 구체적으로, 명령어 저장부(105)는, 미리 정의된 명령어와 복수의 언어로 된 음성 명령어를 매칭해 매칭 테이블로 저장할 수 있다.
도 2 및 도 3은 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 명령어 저장부(105)가 저장하는 테이블을 예를 들어 도시한 도면이다. 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 명령어 저장부(105)는, 도 2 및 도 3에 도시된 바와 같은 한글 명령어와 영어 명령어, 숫자의 매칭 테이블 이외에도, 중국어, 일본어, 스페인어, 베트남어 등 다양한 언어를 매칭 테이블로 구성해 저장할 수 있다.
여기서, 명령어 저장부(105)는, 목적에 따라 특수한 환경에서 자주 사용하는 명령어를 미리 정의하고, 미리 정의된 명령어를 다양한 언어로 매칭해 둘 수 있다. 예를 들어, 관광지에서 많이 사용되는 명령어, 외국인 노동자의 작업 지시를 위한 명령어 등, 증강현실 글라스 장치(100)가 주로 사용되는 환경에 따라 명령어를 정의하고 다양한 언어로 번역해 매칭시켜 둘 수 있다.
음향 수집부(110)는, 음향 데이터를 수집할 수 있다. 음향 수집부(110)는, 증강현실 글라스 장치(100)의 음향 데이터 수집을 지원하는 적어도 하나 이상의 마이크와, 마이크와 연동된 음향 데이터 수집 프로그램을 포함할 수 있다. 음향 데이터 수집 프로그램이 백그라운드로 실행되어 마이크를 통해 음향 데이터를 실시간으로 수집할 수 있으며, 미리 정해진 주기로 음향 데이터를 수집할 수도 있다. 음향 데이터의 수집을 백그라운드로 수행할지 여부는 사용자 설정을 통해 변경할 수 있다. 음향 수집부(110)가 수집한 음향 데이터는 증강현실 글라스 장치(100)의 저장 장치에 저장될 수 있다.
음향 판별부(115)는, 음향 수집부(110)에서 수집한 음향 데이터를 분석하여 음향 데이터의 종류를 판별할 수 있다. 보다 구체적으로, 음향 판별부(115)는, 음향 데이터를 분석하여 시동어, 음성 명령어 또는 기타로 분류해 그 종류를 판별하며, 음성 명령어로 판별되면 추후 상세히 설명할 명령어 번역부(120)로 전달할 수 있다.
여기서, 시동어는 음성인식을 활성화하는 단어 또는 구로써, 사용자가 원하는 대로 설정할 수 있으나, 시동어는 일상 대화에서 많이 사용되지 않는 단어나 구로 설정하는 것이 바람직하므로, 증강현실 글라스 장치(100)의 제조사나 관리자 등이 적절한 시동어를 특정해 미리 설정해둘 수도 있다. 시동어로서, 아마존의 “알렉사”, 구글의 “OK 구글”, 카카오의 “헤이 카카오” 등을 예로 들 수 있다.
음향 판별부(115)는, 수집되는 음향 데이터를 실시간으로 감시 및 분석하여 시동어를 먼저 판별하고, 시동어 다음에 입력되는 음향 데이터를 음성 명령어로 인식할 수 있다. 시동어나 음성 명령어가 아닌 음향 데이터는 잡음 또는 사용자의 일상 대화 등 기타로 판별할 수 있다.
도 4는 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 음향 판별부(115)의 음향 데이터 분석 과정을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 음향 판별부(115)는, 임계값(threshold) 이상의 진폭을 갖는 음향 데이터를 전처리하고 필터를 적용하여, 시동어 및/또는 음성 명령어를 판별할 수 있다. 여기서, 음향 판별부(115)는, 음향 데이터에 필터뱅크(filterbank)를 적용해 처리한 다음 음향 데이터의 종류를 판별할 수 있다.
명령어 번역부(120)는, 음향 판별부(115)의 판별 결과 음향 데이터가 음성 명령어이면, 명령어 저장부(105)를 이용해 음향 데이터를 목표 언어의 음성 명령어로 번역할 수 있다. 여기서, 목표 언어는 번역 목표가 되는 언어를 의미하는 것으로, 사용자나 관리자 등에 의해 미리 설정될 수 있으며, 사용자의 사용 언어가 목표 언어가 될 수 있다.
또한, 명령어 번역부(120)는, 음향 데이터의 언어를 자동으로 인식하며, 인식 언어의 음성 명령어를 목표 언어의 음성 명령어로 번역할 수 있다. 즉, 인식 언어는 음향 데이터의 언어를 인식한 결과로 자동으로 설정될 수 있고, 명령어 번역부(120)는 자동으로 설정된 인식 언어에서 목표 언어로 음성 명령어를 번역할 수 있다. 실시예에 따라서, 인식 언어와 목표 언어는 사용자에 의해 미리 설정될 수 있고, 음향 데이터의 인식된 언어가 목표 언어이면 설정된 인식 언어로 번역하여, 양방향 번역이 가능하도록 구현할 수도 있다.
예를 들어, 설정된 인식 언어가 한국어, 목표 언어가 영어일 때, 명령어 번역부(120)는 음향 데이터의 인식된 언어가 한국어이면 명령어 저장부(105)에 저장된 매칭 테이블을 사용해 한국어 음성 명령어를 영어 음성 명령어로 번역할 수 있다. 또한, 언어 자동 인식을 사용해 음향 데이터의 인식된 언어가 중국어이면 매칭 테이블을 사용해 중국어 음성 명령어를 영어 음성 명령어로 번역할 수 있다. 실시예에 따라서는, 음향 데이터의 인식된 언어가 영어(목표 언어)이면 매칭 테이블을 사용해 영어 음성 명령어를 한국어 음성 명령어로 번역해 양방향 번역을 구현할 수도 있다.
이와 같이, 명령어 번역부(120)가 매칭 테이블을 사용해 미리 정의된 명령어에 대한 번역을 수행함으로써, 오프라인 환경으로 서버 등에 접속할 수 없는 상황에서 증강현실 글라스 장치(100)의 소형 임베디드 환경에서 제한적이기는 하나 필요한 번역을 처리할 수 있다. 특히, 관광지, 단순 노동 업무 등 특수한 환경에서 자주 사용하는 명령어와 많이 사용되는 목표 언어로 번역한 결과를 미리 매칭 테이블로 저장해두면, 오프라인 환경에서도 제한적이기는 하지만 번역을 처리할 수 있고, 온라인 환경에서도 서버와 통신을 하는 것보다 빠르고 편리하게 필수적인 음성 명령어의 번역을 처리할 수 있다.
명령어 출력부(125)는, 명령어 번역부(120)에서 번역된 목표 언어의 음성 명령어를 텍스트 또는 음성으로 출력할 수 있다. 즉, 번역된 목표 언어의 음성 명령어를 텍스트 형태로 증강현실로 출력해 제공할 수 있고, TTS(Text to Speech)를 사용해 음성으로 출력할 수도 있다.
통신부(130)는, 명령어 저장부(105)에 저장된 매칭 테이블을 근거리 무선 통신을 사용해 다른 증강현실 글라스 장치(100)에 전송 공유할 수 있다. 여기서, 통신부(130)는 증강현실 글라스 장치(100)의 일측에 설치되며, 통신부(130)가 사용하는 근거리 무선 통신은 블루투스(Bluetooth), NFC 등으로 구현될 수 있다.
도 5는 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 룩업테이블 공유 모습을 예를 들어 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)가, 서버와 통신을 할 수 없는 오프라인 상황에서 통신부(130)를 이용해 근거리 무선 통신으로 증강현실 글라스 장치(100)들 사이에 매칭 테이블을 공유하여, 매칭 테이블을 업데이트할 수 있다. 따라서 서로 다른 특수한 환경을 위한 매칭 테이블을 각각 저장하고 있는 둘 이상의 증강현실 글라스 장치(100)가 매칭 테이블 공유를 통해 새로운 특수 환경에서도 명령어 번역을 수행할 수 있다.
HMD 프레임(135)은, 사용자가 머리에 착용할 수 있는 프레임 구성이다. 이러한 HMD 프레임(135)은, 사용자가 머리에 착용한 상태에서 빛이 들어올 수 있는 프레임 구조를 갖는 헬멧(helmet) 형태, 고글(goggles) 형태, 안경 형태로 구성될 수 있다.
디스플레이부(140)는, 영상 정보가 사용자에게 제공될 수 있도록 영상 광을 출력할 수 있다. 디스플레이부(140)는 OLED 등 다양하게 구성될 수 있다.
광학부(145)는, HMD 프레임(135)을 착용한 사용자의 양안의 전방에 배치되며, 사용자의 시야를 통한 실제 세계(real world)의 광의 적어도 일부를 투과시키고, 디스플레이부(140)에서 출력되는 영상 광을 사용자의 눈 방향으로 전달하여, 실제 세계의 광과 영상 광의 결합에 의한 증강현실을 제공할 수 있다. 즉, 광학부(145)는 증강현실 글라스 장치(100)를 착용한 사용자가 증강현실을 경험할 수 있도록 구성될 수 있다. 광학부(145)는 복수의 렌즈와 미러 등으로 구성되며 다양한 방식으로 구현될 수 있는데, 예를 들어 광학 회절 방식, 빔 스플리터 방식, 핀 미러 방식 등으로 구현될 수 있다.
스피커부(150)는, 음향을 출력할 수 있으며, 헤드셋, 골전도 이어폰 등으로 구현될 수 있다.
제어부(155)는, 명령어 출력부(125)에서 출력되는 음성 명령어가 디스플레이부(140) 또는 스피커부(150)로 출력되도록 전송 제어할 수 있다. 또한, 제어부(155)는, 명령어 번역부(120)에서 번역된 목표 언어의 음성 명령어에 대응하는 동작을 실행 제어할 수도 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)에 따르면, 미리 정의된 명령어와 이에 대응되는 복수의 언어로 된 음성 명령어를 매칭해 저장하고, 저장된 매칭 정보를 사용해 오프라인 환경에서 음향 데이터를 목표 언어의 음성 명령어로 번역하여 출력함으로써, 오프라인의 임베디드 환경에서 제한적인 번역 기능을 수행할 수 있다.
본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 소형 임베디드 환경에서 실행 효율을 검증하기 위해, 증강현실 글라스 장치(100)에 라떼판다 알파를 탑재하고 음성 명령어 인식 및 번역을 수행했을 때의 리소스 사용량을 측정하였다.
실험 결과 다음 표 1과 같이 음성 명령어 인식 및 번역을 사용하더라도 10% 미만의 리소스만을 사용하므로 매우 효율적으로 제한적인 범위의 번역 기능을 실행할 수 있다는 것을 확인할 수 있다.
본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)의 사용 예시로서, 관광지에서 외국인들에게 제공되는 AR 글래스에 활용될 수 있다. 즉, 관광지에 관련한 장소 및 명령어를 다양한 언어로 매칭해 명령어 저장부에 매칭 테이블로 저장하고, 이를 이용해 음성 번역을 제공할 수 있다. 예를 들어, 가이드가 한국어로 장소 및 명령어를 음성으로 알려주면 증강현실 글라스 장치(100)는 사용자의 목표 언어의 텍스트 또는 외국어 음성으로 변경해 알려줄 수 있다. 따라서 외국인 관광객과 한국인 가이드 사이의 언어적 문제를 해결하는 방법으로 활용될 수 있다.
또한, 본 발명의 일실시예에 따른 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)는, 외국인 노동자들을 위한 작업 지시 시에, 작업 지시 및 의사소통에 활용될 수도 있다. 즉, 단순한 업무의 수행에는 특정 단어를 말할 때가 많아서, 작업에 필요한 지시 사항(미리 정의된 명령어)을 여러 언어로 매칭해 명령어 저장부에 매칭 테이블을 미리 저장할 수 있다. 미리 저장한 매칭 테이블을 사용해 한국인과 외국인 작업자 사이의 업무를 지시할 수 있다. 또한, 매칭 테이블을 사용해 한국어와 외국어 음성 명령어를 양방향으로 번역할 수 있으므로, 업무 관련 커뮤니케이션을 원활하게 할 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 본 발명의 특징에 따른 증강현실 글라스 장치
105: 명령어 저장부
110: 음향 수집부
115: 음향 판별부
120: 명령어 번역부
125: 명령어 출력부
130: 통신부
135: HMD 프레임
140: 디스플레이부
145: 광학부
150: 스피커부
155: 제어부

Claims (8)

  1. 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100)로서,
    상기 증강현실 글라스 장치(100)가 사용되는 환경에 따라 미리 정의된 명령어와 상기 미리 정의된 명령어에 대응되는 복수의 언어로된 음성 명령어를 매칭하여 저장하되, 사용 환경에 따라 상기 미리 정의된 명령어와 복수의 언어로 된 음성 명령어를 매칭해 매칭 테이블로 저장하는 명령어 저장부(105);
    음향 데이터를 수집하는 음향 수집부(110);
    상기 음향 수집부(110)에서 수집한 음향 데이터에 필터뱅크(filterbank)를 적용해 처리한 다음, 상기 음향 데이터를 분석하여 음향 데이터의 종류를 판별하는 음향 판별부(115);
    상기 음향 판별부(115)의 판별 결과 상기 음향 데이터가 음성 명령어이면, 상기 명령어 저장부(105)를 이용해 상기 음향 데이터를 목표 언어의 음성 명령어로 번역하되, 상기 음향 데이터의 언어를 자동으로 인식하며, 인식 언어의 음성 명령어를 목표 언어의 음성 명령어로 번역하는 명령어 번역부(120);
    상기 명령어 번역부(120)에서 번역된 목표 언어의 음성 명령어를 텍스트 또는 음성으로 출력하는 명령어 출력부(125);
    상기 명령어 저장부(105)에 저장된 매칭 테이블을 근거리 무선 통신을 사용해 다른 증강현실 글라스 장치(100)에 전송 공유하는 통신부(130);
    사용자가 머리에 착용할 수 있는 HMD 프레임(135);
    영상 정보가 사용자에게 제공될 수 있도록 영상 광을 출력하는 디스플레이부(140);
    상기 HMD 프레임(135)을 착용한 사용자의 양안의 전방에 배치되며, 사용자의 시야를 통한 실제 세계(real world)의 광의 적어도 일부를 투과시키고, 상기 디스플레이부(140)에서 출력되는 영상 광을 상기 사용자의 눈 방향으로 전달하여, 상기 실제 세계의 광과 영상 광의 결합에 의한 증강현실을 제공하는 광학부(145);
    음향을 출력하는 스피커부(150); 및
    상기 명령어 출력부(125)에서 출력되는 음성 명령어가 상기 디스플레이부(140) 또는 스피커부(150)로 출력되도록 전송 제어하는 제어부(155)를 포함하며,
    상기 음향 판별부(115)는,
    상기 음향 데이터를 분석하여 시동어, 음성 명령어 또는 기타로 분류해 종류를 판별하며, 음성 명령어로 판별되면 상기 명령어 번역부(120)로 전달하되, 수집되는 음향 데이터를 실시간으로 감시 및 분석하여 시동어를 먼저 판별하고, 시동어 다음에 입력되는 음향 데이터를 음성 명령어로 인식하며, 시동어나 음성 명령어가 아닌 음향 데이터는 기타로 판별하며,
    상기 제어부(155)는,
    상기 명령어 번역부(120)에서 번역된 목표 언어의 음성 명령어에 대응하는 동작을 실행 제어하며,
    서버와 통신을 할 수 없는 오프라인 상황에서 상기 통신부(130)를 이용해 근거리 무선 통신으로 다른 증강현실 글라스 장치(100)와의 사이에 매칭 테이블을 공유하여 매칭 테이블을 업데이트함으로써, 서로 다른 환경을 위한 매칭 테이블을 각각 저장하고 있는 둘 이상의 증강현실 글라스 장치(100)가 매칭 테이블 공유를 통해 새로운 환경에서도 명령어 번역을 수행할 수 있는 것을 특징으로 하는, 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치(100).
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
KR1020210069558A 2021-05-28 2021-05-28 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치 KR102602513B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210069558A KR102602513B1 (ko) 2021-05-28 2021-05-28 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210069558A KR102602513B1 (ko) 2021-05-28 2021-05-28 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치

Publications (2)

Publication Number Publication Date
KR20220161094A KR20220161094A (ko) 2022-12-06
KR102602513B1 true KR102602513B1 (ko) 2023-11-16

Family

ID=84406944

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210069558A KR102602513B1 (ko) 2021-05-28 2021-05-28 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치

Country Status (1)

Country Link
KR (1) KR102602513B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103415A1 (ja) * 2014-12-25 2016-06-30 日立マクセル株式会社 ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
JP2017102516A (ja) * 2015-11-30 2017-06-08 セイコーエプソン株式会社 表示装置、通信システム、表示装置の制御方法、及び、プログラム
KR102043365B1 (ko) 2015-05-27 2019-11-11 구글 엘엘씨 음성 인식 전자 디바이스에서 선택적으로 오프라인으로 실행가능한 음성 액션을 위한 데이터의 로컬 유지

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414577B1 (ko) * 2012-11-12 2014-07-03 한남대학교 산학협력단 사용자 신체 및 음성을 이용한 컴퓨터 인터페이스 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103415A1 (ja) * 2014-12-25 2016-06-30 日立マクセル株式会社 ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
KR102043365B1 (ko) 2015-05-27 2019-11-11 구글 엘엘씨 음성 인식 전자 디바이스에서 선택적으로 오프라인으로 실행가능한 음성 액션을 위한 데이터의 로컬 유지
JP2017102516A (ja) * 2015-11-30 2017-06-08 セイコーエプソン株式会社 表示装置、通信システム、表示装置の制御方法、及び、プログラム

Also Published As

Publication number Publication date
KR20220161094A (ko) 2022-12-06

Similar Documents

Publication Publication Date Title
US10019993B2 (en) Multi-level voice menu
JP7483798B2 (ja) ワードフロー注釈
EP3507718B1 (en) Using textual input and user state information to generate reply content to present in response to the textual input
US9368113B2 (en) Voice activated features on multi-level voice menu
US8223088B1 (en) Multimode input field for a head-mounted display
KR20150058286A (ko) 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징
JP6392374B2 (ja) ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
US10950240B2 (en) Information processing device and information processing method
US11748071B2 (en) Developer and runtime environments supporting multi-input modalities
KR101517975B1 (ko) 동시 통/번역 기능을 가지는 이어폰 장치
US9305064B1 (en) Keyword-based conversational searching using voice commands
KR102602513B1 (ko) 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치
US11620328B2 (en) Speech to media translation
WO2023220198A1 (en) Multi-stage summarization for customized, contextual summaries
KR102584436B1 (ko) 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법
KR20160149025A (ko) 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치
KR102631227B1 (ko) 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법
KR102667192B1 (ko) 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법
WO2023212014A1 (en) Multimodal ui with semantic events
KR20230050160A (ko) 머리 착용형 디스플레이 장치를 위한 확인 이벤트 처리 방법 및 장치
KR20230079846A (ko) Ar 스마트 글래스 및 스마트 글래스의 출력 제어 방법
Damasceno et al. Comparison of the virtual environment Implementation with Services of speaks

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right