KR102313272B1

KR102313272B1 - 증강 현실 기반 실시간 음성 번역 서비스 제공 방법, 장치 및 시스템

Info

Publication number: KR102313272B1
Application number: KR1020210067192A
Authority: KR
Inventors: 최인환
Original assignee: 최인환
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-10-14

Abstract

증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법으로서, 사용자의 단말의 카메라를 통해 물체를 포함하는 영상을 획득하고, 상기 영상으로부터 상기 물체를 포함하는 제1 이미지를 획득하는 단계; 상기 제1 이미지에 포함된 상기 물체의 일면에서 제1 언어로 된 제1 텍스트 데이터를 인식하는 단계; 상기 제1 이미지 및 상기 제1 텍스트 데이터를 관리 서버로 전송하는 단계; 상기 관리 서버에서 제1 텍스트 데이터를 번역하여 제2 언어로 된 제2 텍스트 데이터를 생성하는 단계; 상기 제2 텍스트 데이터를 상기 제2 언어로 된 제1 음성 데이터로 변환하는 단계; 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 상기 사용자의 단말로 송신하는 단계; 및 상기 사용자의 단말의 화면의 터치 입력이 유지되는 동안, 상기 영상과 함께 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 출력하는 단계를 포함하고, 상기 제2 텍스트 데이터는 상기 영상 내의 상기 제1 텍스트 데이터가 위치한 부분 상에서 상기 제1 음성 데이터의 출력과 동기되어 순차적으로 출력되는 것을 특징으로 하는음성 번역 서비스 방법이 제공된다.

Description

증강 현실 기반 실시간 음성 번역 서비스 제공 방법, 장치 및 시스템{METHOD, APPARATUS AND SYSTEM FOR PROVIDING REAL-TIME SERVICES OF VOICE TRANSLATION BASED ON AUGMENTED REALITY}

아래 실시예들은 음성 번역 서비스에 관한 것으로서, 구체적으로는 증강 현실에 기반하여 텍스트 번역과 음성 번역 서비스를 함께 제공하는 기술에 관한 것이다.

낯선 타지에서 길을 찾기란 어지간한 방향 감각의 소유자가 아니고선 결코 만만한 일이 아니다. 특히 장소가 해외라면 문제는 더욱 커진다. 안내 표지판이나 경고 문구, 식당에서 매번 펼치는 메뉴판 등은 여행 중 피해서도, 그렇다고 피할 수도 없는 대표적인 언어 장벽이다.

이와 관련하여, 스마트폰의 발달로 인하여 번역 서비스를 제공하는 다양한 어플리케이션이 개발되어 왔다. 예를 들어, 영어 단어를 입력하면 그에 대한 번역을 제공하는 전통적인 방식의 번역 서비스에서부터, 책이나 사물을 스캔하거나 사진을 찍으면 그 중에서 문자를 인식할 수 있고 그 문자에 대응하는 번역문을 제공하거나 화면에 표시하는 번역 서비스까지 다양한 방식의 번역 서비스가 제공되고 있다. 따라서, 사용자는 스마트폰을 이용하여 안내 표지판이나 메뉴판 등을 촬영함으로써 당해 안내 표지판이나 메뉴판에 있는 외국어에 대한 실시간 번역을 제공받을 수 있다.

한편, 구글(***)에서 제공하는 워드 렌즈는 일종의 증강 현실(Augmented Reality: AR)을 이용한 실시간 번역 서비스로서, 카메라 모드를 통해 번역이 필요한 곳에 프레임을 맞추면 화면에 잡힌 언어가 원하는 언어로 번역되는 방식이다. 이는, 기존 방식인 카메라로 찍은 사진에서 원하는 문구를 선택하는 방식이나 일일이 번역할 문구를 타이핑 하는 방식에서 벗어나 쉽고 빠른 번역이 가능한 것이 장점이다.

그러나, 종래의 번역 서비스에서는 사진이나 영상의 물체에 기재된 외국어에 대응하는 번역을 단지 시각적으로 제공하는 것에 그쳤으며, 시각에 문제가 있는 장애인이나 노인 등에게는 장벽이 있었다.

공개특허공보 제10-2017-0061798호

본 발명은 상술한 문제점들을 해결하기 위한 것으로서, 증강 현실에 기반하여 사물에 기재되어 있는 언어를 실시간으로 텍스트뿐만 아니라 음성으로 번역하는 서비스의 제공 방법, 장치 및 시스템을 제공하는 것을 목적으로 한다. 또한, 본 발명은, 직관적이고 간단한 방식으로 번역 서비스를 구동시키고 그에 대한 번역을 음성으로 들을 수 있게 하여, 시각에 문제가 있는 사람도 이용이 가능한 방법, 장치 및 시스템을 제공하는 것을 추가적인 목적으로 한다.

아울러, 본 발명의 목적은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

일실시예에 따르면, 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법으로서, 사용자의 단말의 카메라를 통해 물체를 포함하는 영상을 획득하고, 상기 영상으로부터 상기 물체를 포함하는 제1 이미지를 획득하는 단계; 상기 제1 이미지에 포함된 상기 물체의 일면에서 제1 언어로 된 제1 텍스트 데이터를 인식하는 단계; 상기 제1 이미지 및 상기 제1 텍스트 데이터를 관리 서버로 전송하는 단계; 상기 관리 서버에서 제1 텍스트 데이터를 번역하여 제2 언어로 된 제2 텍스트 데이터를 생성하는 단계; 상기 제2 텍스트 데이터를 상기 제2 언어로 된 제1 음성 데이터로 변환하는 단계; 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 상기 사용자의 단말로 송신하는 단계; 및 상기 사용자의 단말의 화면의 터치 입력이 유지되는 동안, 상기 영상과 함께 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 출력하는 단계를 포함하고, 상기 제2 텍스트 데이터는 상기 영상 내의 상기 제1 텍스트 데이터가 위치한 부분 상에서 상기 제1 음성 데이터의 출력과 동기되어 순차적으로 출력되는 것을 특징으로 하는 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법이 제공된다.

상기 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법은, 상기 관리 서버에서 상기 제1 이미지로부터 상기 물체의 정보를 인식하는 단계; 상기 물체의 정보에 기초하여 상기 제1 텍스트 데이터의 정보를 분류하고, 상기 제1 텍스트 데이터의 정보에 기초하여 제2 음성 데이터를 생성하는 단계; 상기 제1 텍스트 데이터의 정보 및 상기 제2 음성 데이터를 상기 사용자의 단말로 송신하는 단계를 더 포함하고, 상기 제2 음성 데이터는, 상기 사용자의 단말에서 상기 제1 음성 데이터가 출력되기 전에 출력되고, 상기 제1 텍스트 데이터의 정보 및 상기 제1 텍스트 데이터에 기초하여, 상기 제2 텍스트 데이터가 출력되는 텍스트의 폰트, 크기 및 색을 변경시키고, 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터가 출력되는 속도가 변경되는 것을 특징으로 한다.

상기 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법은, 상기 사용자의 단말에서 상기 사용자로부터 관심 사항을 입력받는 단계를 더 포함하고, 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 출력하는 것은, 상기 사용자의 위치에 기초하여 상기 관심 사항과 상기 제1 텍스트 데이터의 정보와의 매칭도에 따라 출력 여부가 결정된다.

상기 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법은, 상기 사용자의 단말에서 상기 사용자로부터 관심 사항을 입력받는 단계를 더 포함하고, 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터가 출력되는 속도는, 상기 사용자의 위치에 기초하여 상기 관심 사항과 상기 제1 텍스트 데이터의 정보와의 매칭도에 따라 또한 변경되는 것을 특징으로 한다.

상기 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법에 있어서, 상기 물체의 정보를 인식하는 단계는, 상기 제1 이미지에서 상기 물체의 외곽선을 인식하고, 상기 물체의 외곽선을 트래킹하여 특정 각도 이상으로 변경되는 부분을 새로운 구간의 시작으로 판단함으로써 상기 물체의 외곽선을 구간별로 분할하는 단계; 상기 물체의 외곽선에서 구간별로 분할된 복수의 선 각각을 직선 또는 곡선으로 분류하는 단계; 상기 복수의 선 각각이 연결되는 지점에 위치한 복수의 점 각각을 인식하고, 상기 복수의 점 각각에 대해 직선과 직선이 연결되는 제1 유형, 직선과 곡선이 연결되는 제2 유형, 곡선과 직선이 연결되는 제3 유형, 곡선과 곡선이 연결되는 제4 유형으로 분류되는 유형을 결정하는 단계; 상기 복수의 점 각각의 순번, 상기 제1 이미자 상에서의 2차원 좌표 및 상기 유형에 대한 정보를 상기 물체의 특징점 정보로 결정하는 단계; 및 상기 특징점 정보와 미리 저장된 물체의 종류에 따른 특징점 정보를 비교하여 소정의 임계치 이상인 경우 제1 이미지에 포함된 물체를 상기 미리 저장된 물체로 인식하는 단계를 포함한다.

일실시예에 따른 시스템은 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.

일실시예에 따르면, 본 발명의 증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법, 장치 및 시스템을 통하여, 사용자가 쉽고 빠르게 사물에 기재된 외국어의 번역을 텍스트뿐만 아니라 음성으로 들을 수 있는 효과가 있다. 또한, 스마트폰의 화면을 터치하는 것만으로도 원하는 사물에 기재된 외국어를 음성으로 들을 수 있으므로, 시각에 문제가 있는 노인이나 장애인도 직관적으로 간단하게 외국어를 이해할 수 있는 효과도 있다.

한편, 실시예들에 따른 효과는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 해당 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은, 일실시예에 따른 음성 번역 서비스의 구성을 나타내는 도면이다.
도 2는, 일실시예에 따른 사용자의 단말의 구성을 나타내는 도면이다.
도 3은, 일실시예에 따른 관리 서버의 구성을 나타내는 도면이다.
도 4는, 일실시예에 따른 음성 번역 서비스를 제공하는 방법을 설명하기 위한 흐름도를 나타낸 도면이다.
도 5는, 텍스트 정보에 따라 상이한 번역 서비스를 제공하는 추가의 방법을 설명하기 위한 흐름도를 나타낸 도면이다.
도 6은, 일실시예에 따라 사용자의 단말의 디스플레이에 출력되는 번역 모드의 화면을 나타내는 도면이다.
도 7은, 일실시예에 따라 사용자의 단말의 디스플레이에 출력되는 설명 모드의 화면을 나타내는 도면이다.
도 8은, 일실시예에 따른 물체의 특징점 정보를 추출하여 물체를 인식하는 방법을 설명하기 위한 흐름도를 나타낸 도면이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트폰, 텔레비전, 스마트 기기 등 다양한 형태의 제품으로 구현될 수 있다.

도 1은, 일실시예에 따른 음성 번역 서비스의 구성을 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 번역 서비스 제공 시스템은 사용자의 단말(100) 및 관리 서버(200)를 포함할 수 있다. 일실시예에 따른 음성 번역 서비스 제공 시스템은, 사용자의 단말(100)에서 카메라를 통해 촬영을 하여 영상의 일 이미지와 텍스트를 관리 서버(200)로 전송하면, 관리 서버(200)에서 그에 대한 텍스트 번역 및 음성 번역 데이터를 생성하여 사용자의 단말(100)로 전송하고, 사용자의 단말(100)에서는 증강 현실에 텍스트 번역을 표시하면서 음성 번역을 제공할 수 있다.

예시적인 일실시형태로서, 사용자의 단말(100)과 관리 서버(200)는 통신 네트워크를 통해 서로간에 정보를 송수신할 수 있다. 일실시예에 따르면, 도 1과 같이 사용자의 단말(100)은 통신 네트워크에 무선으로 접속될 수 있고, 관리 서버(200)는 그 통신 네트워크에 유선으로 접속될 수 있지만, 이러한 예시에 한정되지 않고 사용자의 단말(100) 및 관리 서버(200) 간에, 유선, 무선 또는 유무선 통합의 다양한 공지의 방식으로 통신 네트워크에 접속될 수도 있다. 예시적인 일실시형태에 있어서, 사용자의 단말(100)과 관리 서버(200)와의 통신 네트워크는 유무선 방식의 PAN(Personal Area Network), LAN(Local Area Network), Wi-Fi, 또는 이동 통신망 뿐만 아니라, 동축 케이블, 블루투스, 적외선 통신 등의 다양한 통신 방식을 통한 P2P 방식의 네트워크 등 어떠한 종류의 네트워크도 적용될 수 있다.

도 2는, 일실시예에 따른 사용자의 단말(100)의 구성을 나타내는 도면이다.

일실시예에 따른 사용자의 단말(100)은 휴대폰, 스마트폰, 개인 휴대 정보 단말기(PDA), 노트북이나 태블릿 PC 등과 같은 유무선 통신이 가능한 장치일 수도 있다. 예시적인 일실시형태에서 사용자의 단말(100)은 본 발명의 서비스를 제공하는 전용 단말 장치일 수도 있다.

예시적인 일실시형태에서 사용자의 단말(100)은 디스플레이(110)를 포함한다. 디스플레이(110)는 사용자에 대한 시각적 출력으로서 단말기의 출력 인터페이스를 제공한다. 예를 들어, 디스플레이(110)로서 LCD(액정 디스플레이) 기술 또는 LED(발광 다이오드) 기술이 사용될 수 있지만, 그외 디스플레이 기술이 사용될 수도 있다. 예를 들어, 디스플레이(110)는 사용자로부터의 입력 인터페이스를 함께 제공할 수도 있으며, 이러한 경우에 디스플레이(110)는 터치스크린일 수도 있다.

예시적인 일실시형태에서 사용자의 단말(100)은 당해 네트워크를 통하여 데이터의 송수신을 가능하게 하는 트랜시버(transceiver; 120)를 포함할 수도 있다. 트랜시버(120)는 서버로부터 전송되는 다양한 데이터 정보들을 수신하고 가공하여 후술할 프로세서(160)에 전달하며, 단말기 내에서 프로세싱된 다양한 데이터 정보들을 가공하여 서버로 송신하는 역할을 한다.

예시적인 일실시형태에서 사용자의 단말(100)은 사용자의 입력을 수신하는 입력 모듈(130)을 포함할 수도 있다. 예를 들어, 입력 모듈(130)은 상술한 바와 같이 디스플레이(110)과 함께 통합된 터치스크린의 터치 센서일 수도 있다. 예를 들어, 입력 모듈(130)은 디스플레이(110)와 별도로 사용자의 단말(100)에 구현되는 버튼일 수도 있다. 예를 들어, 입력 모듈(130)은 터치스크린의 터치 센서 및 별도로 구현된 버튼을 함께 포함하는 개념일 수도 있다. 그러나, 입력 모듈(130)은 상술한 예시적인 방식에 한정되지 않고, 사용자의 접촉이나 압력을 인식하는 다양한 장치들을 포함하는 개념이며, 나아가 카메라를 이용한 이미지나 영상 또는 주위의 밝기와 같은 시각적 입력, 음성이나 박수 소리와 같은 청각적 입력 등 사용자의 단말(100)에 입력을 제공할 수 있는 다양한 장치들을 포함할 수도 있다.

예시적인 일실시형태에서 사용자의 단말(100)은 오디오 신호를 출력하는 오디오 출력 모듈(140)을 포함할 수도 있다. 일실시예에 따른 오디오 출력 모듈(140)은 오디오 신호를 프로세싱하는 모듈과 스피커를 포함할 수도 있다. 오디오 신호를 프로세싱하는 모듈은 후술할 프로세서(160)에 포함될 수도 있다. 일실시예에 따른 오디오 출력 모듈(140)은 유선 헤드폰이나 유선 이어폰을 사용자의 단말(100)에 연결할 수 있는 오디오 잭을 포함하는 개념으로도 사용될 수도 있다. 또한, 무선 헤드폰이나 무선 이어폰을 사용자의 단말(100)에 무선으로 연결할 수 있는 블루투스 등의 무선 통신 모듈을 포함할 수도 있다.

예시적인 일실시형태에서 사용자의 단말(100)은 본 발명의 증강 현실에 기반하여 음성 번역 서비스를 제공하는 프로그램과 함께 서비스에서 사용될 수 있는 영상 데이터, 이미지 데이터, 텍스트 데이터, 음성 데이터를 저장하고, 사용자가 입력하는 정보를 저장할 수 있는 저장 모듈(150)을 포함할 수도 있다. 예를 들어, 저장 모듈(150)은 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체 (Magnetic Media), CD-ROM 이나 DVD 와 같은 광 기록 매체, 플롭티컬 디스크 (Floptical Disk) 와 같은 자기-광 매체(Magneto-Optical Media), 롬 (ROM), 램 (RAM), 플래시 메모리, 및 NAS (Network Access Storage) 와 같은 네트워크 저장 매체를 포함할 수도 있으나, 이러한 예시적인 방식에 한정되는 것은 아니고 데이터를 저장할 수 있는 장치이면 어떠한 것도 포함한다.

예시적인 일실시형태에서 저장 모듈(150)에 저장되는 프로그램은, 사용자의 단말(100)이 스마트폰인 경우에는 어플리케이션 스토어에서 다운을 받아서 저장될 수도 있고, 사용자의 단말(100) 전용으로서 사용자의 단말(100)의 출고시에 저장된 상태로 출고되거나 추후 업데이트 될 수도 있으나, 설명한 예시에 한정되는 것은 아니고 다양한 변형이 가능하다.

예시적인 일실시형태에서 사용자의 단말(100)은 음성 번역 서비스를 제공하는 프로그램을 실행하고 사용자의 단말(100) 내의 다양한 모듈들의 동작을 프로세싱하는 프로세서(160)를 포함할 수도 있다. 예를 들어, 프로세서(160)는 개인용 컴퓨터나 스마트폰과 같은 사용자의 단말(100)을 동작시키는 운영체제(OS)를 프로세싱할 수도 있고, 운영체제에서 동작되는 프로그램 또는 어플리케이션을 프로세싱할 수도 있으나, 음성 번역 서비스를 제공하는 프로그램만이 실행되는 사용자의 단말(100)을 동작하도록 프로세싱할 수도 있다.

도 3은, 일실시예에 따른 관리 서버(200)의 구성을 나타내는 도면이다.

일실시예에 따른 관리 서버(200)는 통신부(210), 저장부(220), 물체 인식부(230), 번역부(240) 및 음성 변환부(250)를 포함한다. 예를 들어, 관리 서버(200)는 본 발명의 서비스 제공업자가 운영하는 서버일 수도 있다.

예시적인 일실시형태에 있어서, 통신부(210)는 네트워크를 통해 사용자의 단말(100)과 정보를 송수신하는 기능을 수행한다. 또한, 통신부(210)는 사용자의 단말(100)로부터 사용자와 관련된 정보, 영상 데이터, 이미지 데이터, 텍스트 데이터와 같은 데이터를 수신하거나, 사용자의 단말(100)로 텍스트 데이터 또는 음성 변환된 데이터를 송신할 수도 있다.

예시적인 일실시형태에 있어서, 저장부(220)는 디스크 장치, 메모리 등의 저장 수단으로서 사용자의 단말(100)로부터 수신한 정보를 저장할 수 있다. 또한, 저장부(220)는 사용자의 단말(100)로부터 수신한 정보를 변경 또는 가공하여 생성된 정보들, 예를 들어 외국어 텍스트 데이터를 번역한 텍스트 데이터나 음성 데이터, 그 외국어 텍스트가 기재되어 있는 물체나 외국어 텍스트가 어떠한 종류의 텍스트인지 나타내는 각종 데이터들을 저장할 수도 있다. 일실시예에 따른 저장부(220)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM 이나 DVD 와 같은 광 기록 매체, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM), 램(RAM), 플래시 메모리, 및 NAS(Network Access Storage) 와 같은 네트워크 저장 매체를 포함할 수도 있으나, 이러한 예시적인 방식에 한정되는 것은 아니고 데이터를 저장할 수 있는 장치이면 어떠한 것도 포함한다. 일실시예에 따른 저장부(220)는 관리 서버(200) 내에 포함될 수도 있고, 네트워크를 통해 관리 서버(200)에서 연결가능한 별도의 서버로서 구축할 수도 있다.

예시적인 일실시형태에 있어서, 물체 인식부(230)는 사용자의 단말(100)로부터 수신된 이미지를 분석하고, 물체의 정보, 즉 이미지에 포함된 물체가 무엇인지를 인식할 수 있다.

일실시예에 따르면, 물체 인식부(230)는 이미지 데이터로부터 이미지 프로세싱(image processing) 기법을 통해 물체의 특징점 정보를 추출할 수 있다. 또한, 물체 인식부(230)는 추출된 특징점 정보를 이용하여 이미지 데이터로부터 물체를 인식한다. 물체 인식부(230)는 추출된 특징점 정보와 저장부(220)에 미리 저장된 물체의 특징점 정보를 비교하여 그 결과가 소정의 임계치 이상인 경우, 이미지 데이터에 포함된 물체를 특징점 정보가 비교된 물체로 인식할 수 있다. 예를 들어, 이미지 데이터에 포함된 물체가 약병인 경우, 물체 인식부(230)는 이미지 데이터에서 추출된 특징점 정보와 저장부(220)에 미리 저장된 약병의 특징점 정보를 비교하여 그 결과가 소정의 임계치 이상인 경우, 이미지 데이터에 포함된 물체를 특징점 정보가 비교된 약병으로서 인식할 수 있다.

일실시예에 따르면, 물체 인식부(230)는 이미지 데이터에 딥러닝 알고리즘을 적용하여 물체를 인식할 수 있다. 이 경우 딥러닝 알고리즘은 이미지 데이터로부터 다양한 물체에 대한 정보를 추출하기 위해 미리 학습된 뉴럴 네트워크일 수 있다. 딥러닝 알고리즘은 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(Deep Neural Network: DNN) 또는 n-계층 뉴럴 네트워크(n-layers neural networks)를 포함할 수 있다. 예를 들어, 딥러닝 알고리즘은 CNN(Convolutional Neural Networks)일 수 있으나, 반드시 이에 제한되는 것은 아니다. 딥러닝 알고리즘은 RNN(Recurrent Neural Network) 또는 LSTM(Long Short-Term Memory Model) 등을 포함할 수도 있다.

일실시예에 따르면, 물체 인식부(230)는 인식된 물체의 정보에 기초하여 물체에 기재된 텍스트 데이터의 정보를 분류할 수 있다. 예를 들어, 물체를 표지판으로 인식했을 경우에는 물체에 기재된 텍스트 데이터의 정보를 안내문 또는 주의문 등으로 분류할 수 있다. 예를 들어, 물체를 약병이나 화장품병으로 인식했을 경우에는 물체에 기재된 텍스트 데이터의 정보를 제품 및 제조사명이 기재된 병 전면부, 또는 용법이나 주의사항이 기재된 병 후면부로 분류할 수 있다. 예를 들어, 물체를 메뉴판으로 인식했을 경우에는 물체에 기재된 텍스트 데이터의 정보를 음식명 및 가격 정보로 분류 할 수 있다.

예시적인 일실시형태에 있어서, 번역부(240)는 제1 언어로 된 제1 텍스트 데이터로부터 제2 언어로 번역된 제2 텍스트 데이터를 생성한다.

예를 들어, 제1 언어는 외국어일 수 있고, 구체적으로 영어일 수도 있다. 제1 언어의 또다른 예시로서는, 한국어, 일본어, 중국어, 스페인어, 프랑스어, 독일어, 러시아어, 포르투갈어, 이탈리아어, 베트남어, 태국어, 인도네시아어, 힌디어 중 어느 하나일 수도 있다.

예를 들어, 제2 언어는 제1 언어와 상이한 언어로서 한국어일 수 있다. 즉, 제2 텍스트 데이터는 한국어로 번역된 뉴스 본문의 내용을 포함할 수 있다. 제2 언어의 또다른 예시로서는, 제1 언어와 상이한 외국어로서 일본어, 중국어, 스페인어, 프랑스어, 독일어, 러시아어, 포르투갈어, 이탈리아어, 베트남어, 태국어, 인도네시아어, 힌디어 중 어느 하나일 수도 있다. 다만, 제1 언어 및 제2 언어로 기재된 언어들은 예시에 불과하며, 본 명세서에 기재되지 않은 언어들을 다양하게 이용할 수 있다.

일실시예에 따른 번역부(240)에서의 번역 엔진은, 번역부(240) 내에서 실행될 수도 있고, 통신 네트워크에 연결된 다른 번역 엔진으로 제1 텍스트 데이터를 전송한 후 번역된 제2 텍스트 데이터를 수신받아 사용할 수도 있다.

예시적인 일실시형태에 있어서, 음성 변환부(250)는 TTS(Text To Speech) 엔진을 포함할 수 있다. 예를 들어, 음성 변환부(250)는 TTS 엔진을 이용하여 텍스트 데이터를 음성 데이터로 변환할 수 있다.

일실시예에 따르면, 음성 변환부(250)는 제2 언어로 번역된 제2 텍스트 데이터를 제2 언어로 된 음성 데이터로 변환할 수 있다. 예를 들어, 음성 변환부(250)는 한국어로 된 텍스트 데이터를 한국어로 된 음성 데이터로 변환할 수 있다.

일실시예에 다르면, 음성 변환부(250)는 물체 인식부(230)에서 인식된 물체의 정보, 또는 물체에 기재된 텍스트 데이터의 정보를 음성 데이터로 변환할 수 있다. 예를 들어, 음성 변환부(250)는 약병에 기재된 주의사항에 대하여 "약병의 주의사항입니다."라는 음성을 출력하는 음성 데이터로 변환할 수 있다.

일실시예에 따른 음성 변환부(250)에서의 TTS 엔진은, 음성 변환부(250) 내에서 실행될 수도 있고, 통신 네트워크에 연결된 다른 TTS 엔진으로 텍스트 데이터를 전송한 후 변환된 음성 데이터를 수신받아 사용할 수도 있다. 이렇게 생성된 음성 데이터는 텍스트 데이터들과 함께 사용자의 단말(100)로 전송되어 사용자의 단말에서 출력될 수 있다.

도 4는, 일실시예에 따른 음성 번역 서비스를 제공하는 방법을 설명하기 위한 흐름도를 나타낸 도면이다.

도 4를 참조하면, 먼저 S110 단계에서, 사용자의 단말(100)은 카메라(130)를 통하여 실시간 영상을 획득하고, 그 실시간 영상으로부터 텍스트가 기재되어 있는 물체가 포함되어 있는 제1 이미지를 획득한다.

일실시예에 따르면, 사용자의 단말(100)에서 음성 번역 서비스를 제공하는 프로그램을 실행하면, 사용자의 단말(100)에 설치되어 있는 카메라가 동작하여 실시간으로 영상을 획득한다. 또한, 획득된 영상은 사용자의 단말(100)의 디스플레이(110)에서 실시간으로 재생된다.

일실시예에 따르면, 사용자의 단말(100)의 프로세서(160)는 이미지 프로세싱을 통하여 획득된 영상으로부터 물체가 포함되어 있는 제1 이미지를 획득한다. 다만, 물체에 텍스트가 기재되어 있지 않으면, 물체가 포함되어 있는 제1 이미지를 획득하지 않을 수 있다. 제1 이미지를 획득하는 방법은 특별히 제한되지 않는다. 예를 들어, 획득된 영상은 복수의 프레임의 이미지들로 구성될 수 있으며, 이미지들 중 물체에 대한 초점이 가장 잘 잡혀 있는 하나의 프레임의 이미지를 선택하여 제1 이미지로 결정할 수 있다. 또는 복수의 프레임의 이미지들을 합성함으로써 물체가 선명하게 나타나는 제1 이미지를 생성할 수도 있다.

다음으로, S120 단계에서, 사용자의 단말(100)은 제1 이미지에 포함된 물체에 기재된 제1 언어로 된 제1 텍스트 데이터를 인식한다. 예를 들어, 제1 언어는 외국어일 수 있고, 구체적으로 영어일 수도 있다. 제1 언어의 또다른 예시로서는, 한국어, 일본어, 중국어, 스페인어, 프랑스어, 독일어, 러시아어, 포르투갈어, 이탈리아어, 베트남어, 태국어, 인도네시아어, 힌디어 중 어느 하나일 수도 있으나, 이러한 예에 한정되는 것은 아니다.

일실시예에 따르면, 사용자의 단말(100)의 프로세서(160)는, 문자 인식 알고리즘을 통해 제1 이미지로부터 물체에 기재된 문자를 인식하고 판독한다. 예시적인 일실시형태에 있어서, 프로세서(160)는 제1 이미지의 물체 내에 문자가 존재한다고 추정되는 영역을 설정하고, 문자의 외곽이 되는 영역을 크기와 위치를 변경하여 그로부터 잘라내고, 잘라낸 문자 영역에 대하여 저장 모듈(150)에 저장된 문자 이미지 데이터와의 매칭 판정을 실시한다. 예를 들어, 제1 언어가 영어인 경우, 대문자의 알파벳 "A 내지 Z" 및 소문자의 알파벳 "a 내지 z"의 52개의 문자 이미지 데이터와 함께 "0 내지 9"의 10개의 숫자 이미지 데이터 및 복수개의 기호 이미지 데이터가 미리 저장되어 있고, 각 문자 이미지 데이터는 각 문자를 식별하는 문자 코드와 각 문자의 문자 이미지로부터 추출한 특징 정보로 구성된다. 예를 들어, 특징 정보는 HOG(Histogram of Gradient)으로 추출되는 특징량이 될 수 있다. 다만, 각 문자 이미지 데이터는 상술한 예시에 한정되지 않고, 예를 들어, 특징 정보는 문자의 폰트에 기초하여 생성된 각 문자의 특징을 나타내는 정보일 수도 있다. 나아가, 각 문자의 이미지 자체를 사전 데이터로서 할 수도 있다. 어떤 사전 데이터를 사용할지는 매칭 판정 대상의 문자 영역과 사전 데이터를 비교할 때 사용되는 알고리즘에 따라 정해질 수도 있다. 매칭 판정에 의해, 문자 이미지 데이터의 리스트 중 가장 유사한 것으로 평가된 문자 이미지에 관한 문자가 매칭 판정에 사용된 문자 영역과 관련지어지고, 각 문자의 가장 유력한 후보 문자로 결정되며, 같은 방식으로 제1 이미지의 물체 내의 모든 문자에 대해 가장 유력한 후보 문자가 결정된다.

제1 텍스트 데이터의 인식 후에는, S130 단계에서, 사용자의 단말(100)로부터 제1 이미지와 제1 텍스트 데이터가 함께 전송되어 관리 서버(200)에서 수신하게 된다. 이후, 관리 서버(200)에서 제1 이미지 또는 제1 텍스트 데이터에 기초하여 정보가 생성된다.

다음으로, S140 단계에서, 관리 서버(200)의 번역부(240)에서는 수신된 제1 텍스트 데이터의 제1 언어를 번역하여 제2 언어로 된 제2 텍스트 데이터를 생성한다. 예를 들어, 제2 언어는 제1 언어와 상이한 언어로서 한국어일 수 있다. 즉, 제2 텍스트 데이터는 한국어로 번역된 뉴스 본문의 내용을 포함할 수 있다. 제2 언어의 또다른 예시로서는, 제1 언어와 상이한 외국어로서 일본어, 중국어, 스페인어, 프랑스어, 독일어, 러시아어, 포르투갈어, 이탈리아어, 베트남어, 태국어, 인도네시아어, 힌디어 중 어느 하나일 수도 있으나, 이러한 예시에 한정되는 것은 아니다.

일실시예에 따르면, 제1 언어로부터 제2 언어로의 번역은, 번역부(240)에 있는 번역 엔진에 의해 수행될 수 있다. 또한, 제1 언어로부터 제2 언어로의 번역은, 관리 서버(200)로부터 통신 네트워크에 연결된 다른 서버로 제1 텍스트 데이터를 전송한 후 그 서버에 저장된 번역 엔진으로 제1 텍스트 데이터를 번역하여 생성된 제2 텍스트 데이터를 관리 서버(200)로 다시 수신받아 사용할 수도 있다.

다음으로, S150 단계에서는, 제2 언어로 번역된 제2 텍스트 데이터를 동일한 제2 언어로 된 제1 음성 데이터로 변환한다.

예시적인 일실시형태에 있어서, 텍스트 데이터를 음성 데이터로 변환하는 것은 TTS(Text To Speech) 엔진을 통해 수행될 수 있다. TTS 엔진은 텍스트로부터 음성을 합성해내는 기능을 갖는다. 예를 들어, TTS 엔진은 모델로 선정된 한 사람의 음성을 녹음하여 일정한 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 문장에 대한 음성을 인위적으로 만들어내는 기능을 한다.

일실시예에 따른 TTS 엔진은 사용자가 입력한 텍스트에서 기호화된 언어 표현(symbolic linguistic representation)을 내보내는 프론트엔드와 합성된 음성의 파형을 내보내는 백엔드로 구성될 수 있다. 구체적으로 프론트엔드는 텍스트를 정규화하고 각 단어를 발음 기호로 변환하여 텍스트 단어, 문장등을 운율 단위로 분할함으로써 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현을 만들 수 있다. 백엔드는 프론트엔드가 내보낸 결과에 기초하여 자연스러운 음성을 만들기 위해 운율 등의 음성을 조정하여 실제 음성 데이터를 생성한다.

이상 TTS 엔진에 관한 예시적인 기능을 기술하였으나, 이에 한정되는 것은 아니고 텍스트 데이터를 음성 데이터로 변환하는 기능을 갖는 다양한 형태의 변형이 가능하다.

예시적인 일실시형태에 있어서, 텍스트 데이터를 음성 데이터로 변환하는 것은 관리 서버(200)에서 수행될 수도 있고, 통신 네트워크에 연결된 다른 서버로 제2 텍스트 데이터를 전송한 후 그 서버에 저장된 TTS 엔진으로 제2 텍스트 데이터를 변환하여 생성된 음성 데이터를 관리 서버(200)로 다시 수신받아 사용할 수도 있다.

제1 음성 데이터가 생성된 후에는, S160 단계에서, 제2 언어로 된 제1 음성 데이터와 그 기초가 되는 제2 언어로 된 제2 텍스트 데이터를 전송하여 사용자의 단말(100)에서 수신한다.

마지막으로, 사용자의 단말(100)에서는 카메라(130)를 통하여 획득되는 실시간 영상에 포함된 물체의 텍스트가 기재된 영역에 제2 언어로 번역된 제2 텍스트 데이터를 합성하여 증강 현실로 디스플레이(110)에 출력할 뿐만 아니라, 제2 언어로 된 제1 음성 데이터를 오디오 출력 모듈(140)을 통해 출력한다. 즉, 사용자는, 사용자의 단말(100)의 카메라(130)로 원하는 물체 또는 대상을 촬영하고 있는 것만으로도, 외국어로 번역된 텍스트뿐만 아니라 음성을 들을 수 있다.

일실시예에 따르면, 제2 텍스트 데이터와 제1 음성 데이터의 출력은, 사용자가 사용자의 단말의 디스플레이를 터치함으로써 개시되며, 사용자가 디스플레이의 터치를 계속 유지하고 있는 동안에만 제2 텍스트 데이터 및 제1 음성 데이터가 출력될 수도 있다. 즉, 사용자는, 사용자의 단말(100)의 터치 스크린의 아무 곳이나 누르는 것만으로도 조작이 가능하므로, 시각에 문제가 있는 노인이나 장애인도 직관적으로 간단하게 외국어를 이해할 수 있다. 일실시예에 따르면, 제2 텍스트 데이터와 제1 음성 데이터의 출력은 동기화되고, 제1 음성 데이터의 음성에 맞춰서 제2 텍스트 데이터의 텍스트가 순차적으로 출력될 수도 있다.

도 5는, 텍스트 정보에 따라 상이한 번역 서비스를 제공하는 추가의 방법을 설명하기 위한 흐름도를 나타낸 도면이다.

예를 들어, 도 4의 S130 단계에서 관리 서버(200)가 사용자의 단말(100)로부터 제1 이미지 및 제1 텍스트 데이터를 수신한 이후에, 추가적으로 도 5의 S210 단계가 진행될 수 있다.

S210 단계에서는, 관리 서버(200)의 물체 인식부(230)에서, 수신된 제1 이미지로부터 물체의 정보를 인식한다.

일실시예에 따르면, 관리 서버(200)의 물체 인식부(230)는 사용자의 단말(100)로부터 수신된 제1 이미지를 분석하여, 물체의 정보, 즉 이미지에 포함된 물체가 무엇인지를 인식할 수 있다. 예를 들어, 물체 인식부(230)는 이미지 데이터로부터 이미지 프로세싱(image processing) 기법을 통해 물체의 특징점 정보를 추출하여 물체가 무엇인지 인식할 수도 있고, 또는 이미지 데이터에 딥러닝 알고리즘을 적용하여 물체를 인식할 수도 있다. 물체의 특징점 정보를 추출하여 물체를 인식하는 본 발명의 특유의 방법에 대해서는 후술한다.

다음으로, S220 단계에서는, 관리 서버(200)의 물체 인식부(230)에서, 인식된 물체의 정보에 기초하여 제1 텍스트 데이터의 정보를 분류한다.

일실시예에 따르면, 관리 서버(200)의 물체 인식부(230)는 물체의 종류에 따라 사용자의 단말(100)로부터 수신된 제1 텍스트 데이터의 정보, 즉 제1 텍스트 데이터가 어떠한 종류의 데이터인지를 분류할 수 있다.

예시적인 일실시형태에 있어서, 제1 텍스트 데이터의 정보의 분류는, 물체의 정보(종류)에 따라 기재될 수 있는 텍스트 데이터의 종류를 키워드 별로 미리 정해놓고, 제1 텍스트 데이터에 포함된 키워드 정보를 비교하여 해당 텍스트 데이터의 종류와 매칭되는 것으로 분류할 수 있다. 예를 들어, 물체의 정보를 표지판으로 인식했을 때는 표지판의 제목을 키워드로 하여 "CAUTION", "INFORMATION" 등의 키워드를 선정하고, 제1 텍스트 데이터의 텍스트 서두 부분에 "CAUTION"이 포함되면 제1 텍스트 데이터의 정보를 "주의 표지판"으로 분류할 수 있다. 또다른 예로서, 물체의 정보를 음식 메뉴판으로 인식했을 때는 "$" 또는 "숫자"가 문자열과 함께 나열되면, 제1 텍스트 데이터의 정보를 음식명과 가격 정보로 분류할 수 있다.

다른 예시적인 일실시형태에 있어서, 제1 텍스트 데이터의 정보의 분류할 때 물체의 종류와 그에 기재된 텍스트 데이터들로부터 미리 학습된 기계학습 모델을 이용하여, 물체의 정보(종류)에 관련된 제1 텍스트 데이터의 종류를 분류할 수도 있다. 기계학습 모델로서는, 선형 회귀(linear regression), 결정 트리(decision tree), 서포트 벡터 머신(SVM) 등의 분류 모델이 사용될 수도 있고, 딥러닝으로 학습되는 RNN(Recurrent Neural Network) 또는 LSTM(Long Short-Term Memory Model) 등이 사용될 수도 있나, 이는 예시적인 것으로서 다양한 기계학습 모델의 적용이 가능하다.

다음으로, S230 단계에서는, 관리 서버(200)의 음성 변환부(250)에서, 제1 텍스트 데이터의 정보에 기초하여 제2 음성 데이터를 생성한다.

일실시예에 따르면, 제2 음성 데이터는 제1 음성 데이터와 동일한 제2 언어로 된다. 또한 제2 음성 데이터로 변환되기 이전에 제1 텍스트 데이터의 정보에 기초하여 변환될 텍스트 데이터를 먼저 생성하고, 생성된 텍스트 데이터를 제2 음성 데이터로 변환할 수도 있다. 예를 들어, 제1 텍스트 데이터의 정보가 주의 표지판이면 "주의 사항이 기재된 표지판입니다"라는 텍스트 데이터를 생성하고 이를 제2 음성 데이터로 변환할 수도 있다. 또는 제1 텍스트 데이터의 정보가 메뉴판의 음식명 및 가격 정보이면 "메뉴판의 음식명과 가격 정보입니다"라는 텍스트 데이터를 생성하고 이를 제2 음성 데이터로 변환할 수도 있다.

또한, 제2 음성 데이터의 변환은, 전술한 제1 음성 데이터로 변환하는 것과 동일한 엔진과 알고리즘으로 수행될 수 있으므로 구체적인 사항은 전술한 것과 동일하다.

제2 음성 데이터가 생성된 후에는, S240 단계에서, 제1 텍스트 데이터의 정보와 제2 음성 데이터를 전송하여 사용자의 단말(100)에서 수신한다.

일실시예에 따르면, 제1 텍스트 데이터의 정보와 제2 음성 데이터의 전송은, 바람직하게는 도 4의 S160 단계에서의 제2 텍스트 데이터와 제1 음성 데이터의 전송과 함께 행해질 수도 있고, 별개로 행해질 수도 있다.

다음으로, S250 단계에서는, 사용자의 단말(100)의 오디오 출력 모듈(140)을 통해 제2 음성 데이터를 출력한다.

일실시예에 따르면, 제2 음성 데이터의 출력은, 사용자의 단말(100)에서 물체에 기재된 텍스트를 번역한 제1 음성 데이터가 출력되기 전에 출력된다. 예를 들어, 제2 음성 데이터로서 "주의 사항이 기재된 표지판입니다"가 음성으로 출력된 후에 제1 음성 데이터로서 주의 사항에 대한 기재 내용이 번역되어 음성으로 출력될 수 있다. 또는, 제2 음성 데이터로서 "메뉴판의 음식명과 가격 정보입니다"가 음성으로 출력된 후에 제1 음성 데이터로서 메뉴판의 음식명에 대한 가격 정보가 번역되어 음성으로 출력될 수 있다.

일반적으로 사물에 기재된 내용을 육안으로 확인하는 로직을 생각해보면, 바로 내용만을 보는 것이 아니라, 육안으로 사물이 어떤 것인지를 먼저 파악하게 되고 그를 바탕으로 사물에 기재된 내용을 읽게 됨으로써, 그 내용의 파악을 용이하게 할 수 있다. 이와 동일한 취지로서, 사용자는 물체에 기재된 텍스트의 번역을 듣기 이전에, 당해 물체와 기재 내용이 어떠한 것인지를 먼저 파악할 수 있으므로, 이후 출력되는 번역 내용을 보다 용이하게 파악할 수 있는 장점이 있다.

다음으로, S260 단계에서는, 사용자의 단말(100)의 물체에 기재된 사항의 번역인 제2 텍스트 데이터 또는 제1 음성 데이터가 출력되는 방식을 제1 텍스트 데이터의 정보에 따라 상이하게 변경한다.

일실시예에 따르면, 사용자의 단말(100)의 프로세서(160)는 제1 텍스트 데이터의 정보, 즉 물체에 기재된 텍스트의 종류와 함께 제1 텍스트 데이터 자체에 기초하여 텍스트의 번역인 제2 텍스트 데이터가 출력되는 텍스트의 폰트, 크기 및 색을 변경할 수 있다. 예를 들어, 제1 텍스트 데이터의 정보가 '주의 표지판의 주의사항'인 경우에는 출력되는 제2 텍스트 데이터의 텍스트의 폰트를 큰 사이즈의 고딕체로 적색으로 강조하여 표시할 수도 있다. 또한, 제1 텍스트 데이터 자체에 기초하여, 제1 텍스트 데이터의 텍스트의 폰트, 크기 및 색을 제2 텍스트 데이터의 텍스트의 폰트, 크기 및 색으로 할 수도 있다. 또한, 제1 텍스트 데이터의 기재 내용 중에서 키워드를 인식하여 그 키워드에 대응되는 제2 텍스트 데이터의 텍스트의 폰트, 크기 및 색을 다른 것으로 할 수도 있다.

일실시예에 따르면, 사용자의 단말(100)의 프로세서(160)는 제1 텍스트 데이터의 정보, 즉 물체에 기재된 텍스트의 종류와 함께 제1 텍스트 데이터 자체에 기초하여 텍스트의 번역인 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도를 변경할 수 있다. 예를 들어, 제1 텍스트 데이터의 정보가 '경고 표지판의 주의사항'인 경우에는, 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도를 빠르게 하여 사용자에게 경각심을 불러일으키게 할 수도 있다. 예를 들어, 제1 텍스트 데이터의 정보가 '약병에 기재된 효능'인 경우에는, 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도를 다소 느리게 하여 사용자가 약의 효능을 인식하는데 충분한 시간을 부여할 수도 있다. 또한, 제1 텍스트 데이터의 기재 내용 중에서 장황한 문장으로 이루어진 부분에 대해서는, 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도를 빠르게 할 수도 있고, 기재 내용 중 키워드를 포함하거나 짧은 문장으로 이루어진 부분에 대해서는, 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도를 느리게 할 수도 있다.

일실시예에 따르면, 사용자의 단말(100)에서는 사용자의 관심 사항을 입력받을 수도 있다. 또한, 사용자의 단말(100)에서는 사용자의 현재 위치를 인식할 수도 있다.

예시적인 일실시형태에 있어서, 사용자의 현재 위치에 따라서 사용자가 미리 입력한 관심 사항과 제1 텍스트 데이터의 정보와 매칭되는 경우에만 제2 텍스트 데이터 및 제1 음성 데이터가 출력될 수도 있다.

예를 들어, 사용자가 해외에 있는 유명 미술관을 방문할 때, 방문전 미리 그 미술관의 이름과 작품 설명을 키워드로 하여 관심 사항을 사용자의 단말(100)에 입력해둘 수 있다. 이에 따라, 사용자는 그 미술관을 돌아다니면서 본 발명의 증강 현실에 기반하여 음성 번역 서비스를 제공하는 프로그램을 실행시키면, 미술관 내의 미술 작품의 하단 등에 붙어 있는 작품 설명에 카메라를 비췄을 때만 번역이 실행되어 작품 설명에 대한 제2 텍스트 데이터 및 제1 음성 데이터가 출력되게 된다. 따라서, 사용자는, 지나치게 많은 외국어 환경 내에서, 자신이 원하는 관심 사항에 대해서만 번역 서비스를 제공받을 수 있다는 이점이 있다.

예시적인 일실시형태에 있어서, 사용자의 현재 위치에 따라서 사용자가 미리 입력한 관심 사항과 제1 텍스트 데이터의 정보와 매칭되는 경우에 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도가 변경될 수도 있다.

위와 같은 예에 있어서, 사용자가 미술관 내의 미술 작품의 하단 등에 붙어 있는 작품 설명에 카메라를 비췄을 때에는 작품 설명에 대한 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도가 느리게 되어, 사용자가 작품 설명의 내용을 충분히 이해할 수 있는 시간을 부여할 수 있다. 또한, 그 외 다른 물체의 기재 내용에 대해서는 제2 텍스트 데이터 및 제1 음성 데이터가 출력되는 속도가 빠르게 되어서 차별을 둘 수 있다.

예시적인 일실시형태에 있어서, 사용자의 단말(100)에서는, 관리 서버(200)의 물체 인식부(230)에서 인식된 물체의 정보에 기초하여 물체의 정보를 음성으로 알려주는 설명 모드, 및 물체에 기재된 텍스트만을 감지하여 그 텍스트를 번역하여 텍스트 및 음성으로 출력해주는 번역 모드를 선택할 수도 있다.

도 6은, 일실시예에 따라 사용자의 단말(100)의 디스플레이(110)에 출력되는 번역 모드의 화면을 나타내는 도면이다.

일실시예에 따르면, 사용자의 단말(100)의 음성 번역 서비스를 제공하는 프로그램을 실행시키면, 사용자의 단말(100)의 카메라(130)를 통해 실시간 영상을 획득하여 디스플레이(110)에 도 6(a)와 같이 화면이 출력된다. 도 6(a)의 영상은 건물의 벽에 부착되어 있는 표지판을 촬영한 것이며, 표지판에는 영어로 된 경고 문구가 기재되어 있다.

일실시예에 따르면, 도 6(a)의 화면의 하단 부분과 같이, 설명 모드 및 번역 모드의 아이콘이 표시될 수 있으며, 본 실시예에서는 번역 모드를 선택하여 아이콘이 활성화되어 있다. 또한, 도 6(a)의 화면의 상단 중간 부분과 같이, 번역을 원하는 언어를 선택할 수 있고, 본 실시예에서는 번역을 원하는 언어로서 한국어를 선택하고 있다. 또한, 도 6(a)의 화면의 상단 우측 부분과 같이, 텍스트 번역 또는 음성 번역의 지원을 선택할 수 있는 아이콘이 표시될 수 있으며, 본 실시예에서는 텍스트 번역 지원으로서 [T] 아이콘이 활성화되어 있고 음성 번역 지원으로서 스피커 아이콘이 활성화되어 있으므로, 텍스트 번역과 음성 번역을 모두 지원하는 것으로 설정되어 있다.

도 6(a)에 있어서 "CAUTION! AUTOMATIC GATES"의 문구는, 가장 상단에 위치하고 검은 바탕 중 대문자 볼드체에 흰색의 큰 폰트 사이즈로 기재되어 있다. 또한, "Gate timed for ONE vehicle, NO PLAYING OR CLIMBING on or around gate"의 문구는 중간에 위치하고 흰 바탕 중 대문자와 소문자, 볼드체가 혼합되어 있으며 적색의 중간 폰트 사이즈로 기재되어 있다. 또한, "Owner and management not liable for any injury, damage or loss caused by problems or malfunction of gates."는 가장 하단에 위치하고 흰 바탕 중 소문자로 흑색의 작은 폰트 사이즈로 기재되어 있다.

사용자의 단말(100)의 프로세서(160)은, 예를 들어, 도 6(a)에 나타난 것과 같은 정지 이미지를 제1 이미지로 획득한다. 또한, 문자들의 외곽이 되는 직사각형 영역(예를 들면, 도 6(b)에서 문자 주위의 회색으로 된 직사각형 영역)을 설정하고 그 내부의 영역의 이미지와 문자 이미지 데이터와 매칭함으로써, 상기 문자들을 인식하게 되고, 이를 제1 텍스트 데이터로 저장한다.

도 6(b)의 영상은, 도 6(a)의 영상에 제1 텍스트 데이터의 번역인 제2 텍스트 데이터가 합성되어 출력됨으로써 증강 현실을 구현한 것을 나타낸다. 영어로 된 문자 주위에는 회색 음영으로 영역이 설정되어 있고, 그 내부의 제1 텍스트 데이터의 단어 또는 문장에 대응되어 제2 텍스트 데이터가 출력되어 있다. 도 6(b)에는 제2 텍스트 데이터의 전체가 출력되어 나타나면서, 제1 음성 데이터(한글 음성 데이터)의 재생과 동기화되어 재생되는 부분에 대응되는 제2 텍스트 데이터(한글 텍스트 데이터) 부분이 황색으로 표시되고 있다. 또한, 제1 음성 데이터(한글 음성 데이터)의 재생과 동기화되어 제2 텍스트 데이터(한글 텍스트 데이터)가 순차적으로 출력되게 해도 된다.

이때, 관리 서버(200)에서는, 사용자의 단말(100)로부터 수신된 제1 이미지와 제1 텍스트 데이터에 기초하여, 이미지 내의 물체가 경고 표지판인 것을 인식하고, 표지판 내에 제1 텍스트 데이터의 정보로서 주의, 주의 내용, 소유자의 면책 사항이 기재되어 있음을 인식한다. 또한, 영어로 된 제1 텍스트 데이터를 한글로 된 제2 텍스트 데이터와 제1 음성 데이터로 변환시켜 사용자의 단말(100)로 전송하게 된다.

또한, 제1 텍스트 데이터의 정보에 기초하여 "주의 사항이 기재된 표지판입니다"라는 제2 음성 데이터를 생성하고 사용자의 단말(100)로 전송하게 된다. 이러한 제2 음성 데이터는 도 6(b)와 같이 한글로 된 제2 텍스트 데이터가 출력되기 전에 미리 사용자의 단말(100)에서 출력되게 되어, 사용자에게 알릴 수 있다.

도 6(b)에 있어서, "CAUTION! AUTOMATIC GATES"의 영어 문구에 대응되는 한글 문구는, 원문인 영어 문구의 폰트의 특성과 같이 볼드체의 큰 폰트 사이즈로 출력되어 있다. 또한, "Owner and management not liable for any injury, damage or loss caused by problems or malfunction of gates."의 영어 문구는 소유자 등의 면책 사항이며 긴 문장으로 되어 있으므로, 대응되는 한글 문구가 작은 폰트 사이즈로 출력되어 있다.

이때 출력되는 한글 음성에 있어서도, "주의! 자동문"의 경우나 "게이트 위나 주변에서 놀거나 기어오르는 것을 금지합니다"의 경우에는 음성의 출력 속도를 비교적 느리게 하고, 소유자 등의 면책 사항 부분의 경우에는 음성의 출력 속도를 비교적 빠르게 함으로서, 사용자가 주의 깊게 들어야 할 부분이 강조되어 인식될 수 있다.

도 7은, 일실시예에 따라 사용자의 단말(100)의 디스플레이(110)에 출력되는 설명 모드의 화면을 나타내는 도면이다.

일실시예에 따르면, 사용자의 단말(100)의 음성 번역 서비스를 제공하는 프로그램을 실행시키면, 사용자의 단말(100)의 카메라(130)를 통해 실시간 영상을 획득하여 디스플레이(110)에 도 7(a) 또는 7(b)와 같이 화면이 출력된다. 도 7(a)의 영상은 건물의 벽에 부착되어 있는 표지판을 촬영한 것이고, 도 7(b)는 실내에 있는 여성과 사물을 촬영한 것이다.

사용자의 단말(100)의 프로세서(160)는, 예를 들어, 도 7(a) 또는 도 7(b)에 나타난 것과 같은 정지 이미지를 제1 이미지로 획득하고, 이를 관리 서버(200)로 전송한다. 관리 서버(200)에서는 사용자의 단말(100)로부터 수신된 제1 이미지와 제1 텍스트 데이터에 기초하여 제1 이미지 내의 물체를 인식하고, 인식된 물체의 정보를 생성하여 사용자의 단말(100)로 전송하게 된다.

도 7(a) 및 도 7(b)의 영상에서는, 인식된 물체의 정보가 실시간 영상에 물체의 정보가 합성되어 증강 현실을 구현되고 있다. 예를 들어, 실시간 영상에 물체의 정보가 말풍선의 형태로 합성될 수도 있으나, 이러한 예시에 한정되는 것은 아니다. 도 7(a)와 같이, 벽에 부착된 2차원의 물체를 텍스트와 함께 인식함으로써 물체의 정보를 “안내 표지판”으로 인식하고, 말풍선으로 표시될 수 있다. 또한, 도 7(b)와 같이, 제1 이미지 내의 복수의 3차원의 물체를 사람, 나무 등으로 인식할 수도 있고, 보다 구체적으로 생물(동물, 식물, 야채, 과일, 꽃 등)의 이름이나, 사람의 성별 또는 연령 등이 분석됨으로써, “성인 여자”, “유칼립투스”, “쿠션” 등으로 세분화하여 말풍선으로 표시될 수도 있다.

일실시예에 따르면, 설명 모드에서 인식된 물체의 정보인 말풍선을 터치할 경우에는, 관리 서버(200) 또는 인터넷 상의 다른 서버등에 접속하여 해당 물체의 정보를 검색하고, 설정된 언어로 화면에 표시할 수도 있다.

도 8은, 일실시예에 따른 물체의 특징점 정보를 추출하여 물체를 인식하는 방법을 설명하기 위한 흐름도를 나타낸 도면이다.

구체적으로는, 도 5의 S210 단계에서의 관리 서버(200)의 물체 인식부(230)가 제1 이미지로부터 물체의 정보를 인식하는 방법에 대한 것이다. 일실시예에 따르면, 관리 서버(200)의 물체 인식부(230)는 사용자의 단말(100)로부터 수신된 제1 이미지를 이미지 프로세싱(image processing) 기법을 통해 물체의 특징점 정보를 추출하여, 물체의 정보, 즉 이미지에 포함된 물체가 무엇인지를 인식할 수 있다.

먼저, S310 단계에서, 물체의 에지들을 포함하는 제2 이미지를 생성하고 물체의 외곽선을 인식한다.

일실시예에 따르면, 물체를 포함한 제1 이미지를 이미지 프로세싱을 통하여 에지화 또는 이진화할 수 있다. 예를 들어, 제1 이미지로부터 에지를 검출하거나 흑백화소로 변환시키기 위하여 수학적 도구인 미분 연산이 이용될 수 있다. 예를 들면, 제1 이미지가 그레이스케일 이미지로 변환된 후, 픽셀 위치 (x,y)에 대해 2차 미분을 이용하여 에지를 검출할 수 있다. 2차 미분 연산을 통하여 이미지의 에지 부분에의 픽셀값의 부호가 바뀌는 영교차(zero crossing)가 발생할 수 있다.

에지화된 제1 이미지 중 물체의 최외곽 에지인 외곽선을 인식하고, 물체의 외곽선 내부에 있는 영역을 물체 영역으로 구분하고, 물체의 외곽선 외부에 있는 영역을 배경 영역으로 구분할 수 있다. 이에 따라, 제1 이미지에서 배경 영역을 삭제하여, 물체만을 포함하고 있는 이미지인 제2 이미지를 생성할 수 있다.

다음으로, S320 단계에서, 물체의 외곽선을 구간별로 분할할 수 있다. 예를 들어, 물체의 외곽선을 트래킹하여 특정 각도 이상으로 변경되는 부분을 새로운 구간의 시작으로 판단하여 물체의 외곽선을 구간별로 분할할 수 있다.

다음으로, S330 단계에서, 물체의 외곽선에서 구간별로 분할된 복수의 선 각각을 인식할 수 있으며, S340 단계에서, 복수의 선 각각이 연결되는 지점에 위치한 복수의 점 각각을 인식할 수 있다. 제2 이미지에 있어서 복수의 점 각각은 2차원 좌표계에서 위치가 인식될 수 있다.

S350 단계에서, S330 단계에서 인식된 복수의 선 각각을 유형별로 분류할 수 있다. 선의 유형은 러프하게 직선과 곡선으로 구분될 수 있으며, 복수의 선들을 각각 직선과 곡선으로 분류할 수 있다.

S360 단계에서는, S340 단계에서 인식된 복수의 점 각각을 유형별로 분류할 수 있다. 점의 유형은 직선과 직선이 연결되는 제1 유형, 직선과 곡선이 연결되는 제2 유형, 곡선과 직선이 연결되는 제3 유형, 곡선과 곡선이 연결되는 제4 유형으로 구분될 수 있으며, 선과 선이 만나는 복수의 점 각각을 제1 유형, 제2 유형, 제3 유형 및 제4 유형으로 분류할 수 있다.

마지막으로, S370 단계에서는, 복수의 점들에 대하여 각각의 순번, 2차원 좌표 및 상기 유형에 대한 정보를 물체의 특징점 정보로 추출한다. 예를 들어, 제3 이미지를 통해 제1 점, 제2 점 및 제3 점이 인식된 경우, 제1 점, 제2 점 및 제3 점을 연결하는 순번과, 제1 점, 제2 점 및 제3 점 각각이 위치하고 있는 좌표, 제1 점, 제2 점 및 제3 점 각각이 분류된 유형에 대한 정보를 제2 이미지에 있는 물체의 특징 정보로 추출할 수 있다.

전술한 것처럼, 물체 인식부(230)는 추출된 특징점 정보를 이용하여 이미지 데이터로부터 물체를 인식한다. 물체 인식부(230)는 추출된 특징점 정보와 저장부(220)에 미리 저장된 물체의 특징점 정보를 비교하여 그 결과가 소정의 임계치 이상인 경우, 이미지 데이터에 포함된 물체를 특징점 정보가 비교된 물체로 인식할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법으로서,
사용자의 단말의 카메라를 통해 물체를 포함하는 영상을 획득하고, 상기 영상으로부터 상기 물체를 포함하는 제1 이미지를 획득하는 단계;
상기 제1 이미지에 포함된 상기 물체의 일면에서 제1 언어로 된 제1 텍스트 데이터를 인식하는 단계;
상기 제1 이미지 및 상기 제1 텍스트 데이터를 관리 서버로 전송하는 단계;
상기 관리 서버에서 제1 텍스트 데이터를 번역하여 제2 언어로 된 제2 텍스트 데이터를 생성하는 단계;
상기 제2 텍스트 데이터를 상기 제2 언어로 된 제1 음성 데이터로 변환하는 단계;
상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 상기 사용자의 단말로 송신하는 단계;
상기 사용자의 단말의 화면의 터치 입력이 유지되는 동안, 상기 영상과 함께 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 출력하는 단계;
상기 관리 서버에서 상기 제1 이미지로부터 상기 물체의 정보를 인식하는 단계;
상기 물체의 정보에 기초하여 상기 제1 텍스트 데이터의 정보를 분류하고, 상기 제1 텍스트 데이터의 정보에 기초하여 제2 음성 데이터를 생성하는 단계; 및
상기 제1 텍스트 데이터의 정보 및 상기 제2 음성 데이터를 상기 사용자의 단말로 송신하는 단계를 포함하고,
상기 제2 텍스트 데이터는 상기 영상 내의 상기 제1 텍스트 데이터가 위치한 부분 상에서 상기 제1 음성 데이터의 출력과 동기되어 순차적으로 출력되고,
상기 제2 음성 데이터는, 상기 사용자의 단말에서 상기 제1 음성 데이터가 출력되기 전에 출력되고,
상기 제1 텍스트 데이터의 정보 및 상기 제1 텍스트 데이터에 기초하여, 상기 제2 텍스트 데이터가 출력되는 텍스트의 폰트, 크기 및 색을 변경시키고, 상기 제2 텍스트 데이터 및 상기 제1 음성 데이터가 출력되는 속도가 변경되는 것을 특징으로 하는,
증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법.
삭제
제1항에 있어서,
상기 사용자의 단말에서 상기 사용자로부터 관심 사항을 입력받는 단계를 더 포함하고,
상기 제2 텍스트 데이터 및 상기 제1 음성 데이터를 출력하는 것은, 상기 사용자의 위치에 기초하여 상기 관심 사항과 상기 제1 텍스트 데이터의 정보와의 매칭도에 따라 출력 여부가 결정되는,
증강 현실에 기반하여 음성 번역 서비스를 제공하는 방법.