KR20230022789A

KR20230022789A - 제로 유아이 기반의 자동 통역 서버 및 방법

Info

Publication number: KR20230022789A
Application number: KR1020220045016A
Authority: KR
Inventors: 윤승; 김상훈; 이민규; 맹준규
Original assignee: 한국전자통신연구원
Priority date: 2021-08-09
Filing date: 2022-04-12
Publication date: 2023-02-16

Abstract

마이크 기능, 스피커 기능, 통신 기능 및 웨어러블 기능을 구비하는 복수의 단말 장치들과 통신하는 제로 유아이 기반의 자동 통역 서버에 의해 수행되는 방법이 제공된다. 상기 방법은 소정의 자동 통역 구역 내 위치한 단말 장치들을 연결하는 단계; 상기 자동 통역 구역 내 단말 장치 중 제1 단말 장치로부터 제1 사용자의 음성 신호를 수신하는 단계; 상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계; 및 상기 음성 신호에 대한 자동 통역을 수행하여 상기 매칭 결과에 상응하는 적어도 하나의 제2 사용자의 제2 단말 장치로 자동 통역 결과를 전송하는 단계를 포함한다.

Description

제로 유아이 기반의 자동 통역 서버 및 방법{SERVER AND METHOD FOR AUTOMATIC INTERPRETATION BASED ON ZERO UI}

본 발명은 제로 유아이 기반의 자동 통역 서버 및 방법에 관한 것으로, 특히, 표시 화면과 같은 사용자 인터페이스(User Interface: UI)가 필요하지 않은 제로 유아이(Zero UI) 기반의 자동 통역 서버 및 그 방법에 관한 기술이다.

음성인식, 자동번역 및 음성합성 기술의 발달에 따라 자동통역 기술이 널리 확산되고 있다. 자동통역 기술은 일반적으로 스마트폰 또는 자동통역을 위한 전용 단말기에 의해 수행된다.

사용자는 스마트폰 또는 전용 단말기에서 제공하는 화면을 터치하거나 버튼을 클릭한 후, 스마트폰 또는 전용 단말기를 입 근처에 가까이 대고 통역하고자 하는 문장을 발성한다.

이후 스마트폰 또는 전용 단말기는 음성 인식 및 자동 번역 등을 통해 사용자의 발화 문장으로부터 번역문을 생성하고, 그 번역문을 화면에 출력하거나 음성 합성을 통해 그 번역문에 대응하는 통역된 음성을 출력하는 방식으로 통역 결과를 상대방에게 제공한다.

이처럼 스마트폰 또는 전용 단말기에 의해 수행되는 일반적인 자동 통역 과정은 통역하고자 하는 문장을 발성할 때마다 스마트폰 또는 전용 단말기의 터치 동작 또는 클릭 동작을 요구한다.

또한 이 경우에 상대방이 어떤 언어를 사용하는지 불확실한 상태에서는 어떤 언어를 통역 대상으로 해야 하는지 불명확한 경우도 발생한다.

이러한 요소들은 사용자에게 매우 불편을 가하며, 자연스러운 대화를 방해하는 요소들이다.

공개특허공보 제10-2021-0124050호 (2021.10.14)

본 발명이 해결하고자 하는 과제는 자동 통역 구역 내에 위치한 사용자들을 자동으로 매칭 연결하여, 사용자가 통역하고자 하는 문장을 발성할 때마다 수행하는 불필요한 동작 없이, 상대방과의 자연스러운 대화를 수행할 수 있는 자동 통역 서버 및 방법을 제공하는데 있다.

본 발명의 다른 목적은, 사용자의 음성이 상대방의 자동 통역 단말 장치로 입력되거나 반대로 상대방의 음성이 사용자의 자동 통역 단말 장치로 입력되는 상황에서 사용자의 자동 통역 단말 장치 및/또는 상대방측 사용자의 자동 통역 단말 장치가 오동작하는 문제를 해결할 수 있을 뿐만 아니라, 통역 상대방이 아닌 다른 제3자의 음성이 입력되어 자동 통역 단말 장치가 오동작하는 문제를 해결할 수 있는 자동 통역 서버 및 방법을 제공하는데 있다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 마이크 기능, 스피커 기능, 통신 기능 및 웨어러블 기능을 구비하는 복수의 단말 장치들과 통신하는 제로 유아이 기반의 자동 통역 서버에 의해 수행되는 방법은 소정의 자동 통역 구역 내 위치한 단말 장치들을 연결하는 단계; 상기 자동 통역 구역 내 단말 장치 중 제1 단말 장치로부터 제1 사용자의 음성 신호를 수신하는 단계; 상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계; 및 상기 음성 신호에 대한 자동 통역을 수행하여 상기 매칭 결과에 상응하는 적어도 하나의 제2 사용자의 제2 단말 장치로 자동 통역 결과를 전송하는 단계를 포함한다.

또한, 본 발명의 제2 측면에 따른 제로 유아이 기반의 자동 통역 서버는 소정의 자동 통역 구역 내 위치한 복수의 단말 장치들과 연결되어 통신하는 통신모듈, 상기 복수의 단말 장치들로부터 사용자의 음성 신호 및 사용 언어를 포함하는 화자 정보를 등록 및 저장하고, 자동 통역 기능을 제공하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시킴에 따라, 상기 자동 통역 구역 내 단말 장치의 음성 신호를 수신하면, 상기 음성 신호 및 화자 정보에 기초하여 상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하고, 상기 음성 신호에 대한 자동 통역을 수행하여 상기 매칭 결과에 상응하는 단말 장치로 자동 통역 결과를 상기 통신모듈을 통해 전송하는 프로세서를 포함한다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 제로 유아이 기반의 자동 통역 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

전술한 본 발명의 일 실시예에 의하면, 자동 통역 단말 장치가 웨어러블 기기의 형태로 구현되어, 자동 통역을 수행하기 위한 화면 또는 버튼과 같은 사용자 인터페이스가 필요하지 않기 때문에, 사용자가 단말기의 화면을 터치하거나 버튼을 클릭하는 불필요한 동작없이, 자동 통역을 처리함으로써, 사용자와 상대방 간의 자연스러운 대화가 가능하다.

또한, 자동통역 구역 내에서 서버와 단말 장치간, 그리고 각 단말 장치간 자동 연결을 지원함으로써 사용자 간의 불필요한 연결 단계를 생략할 수 있다.

또한, 개인화 음성 검출 과정과 실제 발화한 사용자에 대한 화자 검증 및 식별 과정을 통해, 발화한 사용자의 음성이 상대방의 단말 장치로 입력되어 상대방의 단말 장치에서 중복 자동 통역을 수행하는 오동작을 방지할 수 있다.

이러한 효과를 통해 본 발명은 면대면 상황에서 제로(zero) UI 기반의 자연스러운 자동 통역 대화를 가능하게 한다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 제로 유아이 기반의 자동 통역 시스템의 전체 구성도이다.
도 2는 본 발명의 일 실시예에 따른 단말 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 자동 통역 서버의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 자동 통역 방법의 순서도이다.
도 5는 자동 통역 구역 내 단말 장치들을 연결하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에서 사용자들을 매칭하는 과정을 설명하기 위한 순서도이다.
도 7은 본 발명의 일 실시예에서의 사용자들을 매칭하는 과정을 설명하기 위한 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 제로 유아이 기반의 자동 통역 시스템(1)의 전체 구성도이다. 도 2는 본 발명의 일 실시예에 따른 단말 장치의 블록도이다. 도 3은 본 발명의 일 실시예에 따른 자동 통역 서버(100)의 블록도이다.

본 발명의 일 실시예에 따른 자동 통역 시스템(1)은 자동 통역 서버(100, 이하 서버), 제1 사용자의 제1 단말 장치(200), 제2 사용자의 제2 단말 장치(300) 및 데이터베이스(400)를 포함한다.

한편, 도 1에서는 제1 및 제2 단말 장치(200, 300)만을 도시하였으나 반드시 이에 한정되는 것은 아니며, 단말 장치의 개수에는 제한이 없다. 즉, 복수의 단말 장치가 서버(100)와 연결되어 자동 통역 서비스가 수행될 수 있다.

제1 사용자와 제2 사용자는 자동 통역 기반의 대화를 나누는 사용자로서, 제1 사용자는 제1 언어를 사용할 수 있는 사용자이고, 제2 사용자는 제1 언어와 상이한 제2 언어를 사용할 수 있는 사용자이다.

이하, 설명에서 제1 사용자는 제1 단말 장치(200)를 통해 제1 언어로 음성을 발화하고, 제2 사용자는 제2 단말 장치(300)를 통해 제1 언어가 제2 언어로 번역된 자동 통역 결과를 수신하는 것으로 가정하여 설명하도록 한다.

이때, 제1 사용자와 제2 사용자의 역할은 반드시 고정되는 것이 아니며, 대화를 주고받음에 따라 음성 발화 및 자동 통역 결과 수신은 각각의 단말 장치에서 모두 수행됨은 물론이다.

한편, 제1 및 제2 단말 장치(200, 300)의 형태는 특별히 한정되는 것은 아니나 웨어러블 기기로 구성됨이 바람직하다. 즉, 제1 및 제2 단말 장치(200, 300)는 각각 단일의 웨어러블 기기로 구성될 수도 있으며, 또는 제1 및 제2 사용자 단말(스마트폰, 태블릿 등)과 웨어러블 기기가 유선 또는 무선으로 연결되는 형태로 실시될 수도 있다.

도 2를 참조하면, 제1 및 제2 단말 장치(200, 300)는 음성 수집부(210, 310), 통신부(220, 320) 및 음성 출력부(230, 330)를 포함하여 구성될 수 있다.

음성 수집부(210, 310)는 각 사용자들의 음성을 수집하는 구성으로, 고성능 마이크 기능을 구비하는 장치일 수 있다. 음성 수집부(210, 310)는 사용자의 음성을 음성 신호로 변환하여 통신부(220, 320)로 전달한다.

통신부(220, 320)는 음성 수집부(210, 310)로부터 전달된 사용자의 음성 신호를 서버(100)로 전송한다. 이를 수신한 서버(100)는 음성 신호를 기반으로 자동 통역 결과를 생성하게 된다. 이러한 통신부(220, 320)는 서버(100) 또는 다른 단말 장치와 연결될 수 있도록 하는 기능을 제공한다.

음성 출력부(230, 330)는 통신부(220, 320)를 통해 자동 통역 결과를 수신하여 사용자에게 전달한다. 음성 출력부(230, 330)는 스피커를 구비하는 기기로, 예를 들어 이어폰 또는 헤드셋으로 실시될 수 있다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 자동 통역 서버(100)는 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신모듈(110)은 소정의 자동 통역 구역 내에 위치한 복수의 단말 장치(200, 300)들과 연결되어 통신한다. 즉, 각 단말 장치(200, 300)의 통신부를 통해 음성 신호를 수신하거나, 자동 통역 결과를 전송한다.

메모리(120)에는 복수의 단말 장치(200, 300)들로부터 사용자의 음성 신호 및 사용 언어를 포함하는 화자 정보를 등록 및 저장하고, 자동 통역 기능을 제공하기 위한 프로그램이 저장된다.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 자동 통역 구역 내 단말 장치의 음성 신호를 수신하면, 음성 신호 및 화자 정보에 기초하여 단말 장치(200, 300)의 발화 수신 가능 거리 내에 위치한 복수의 사용자를 매칭한다. 그리고 음성 신호에 대한 자동 통역을 수행하여 매칭 결과에 상응하는 단말 장치(200, 300)로 자동 통역 결과를 통신모듈을 통해 전송한다.

한편, 서버(100)는 각 사용자 및 단말 장치(200, 300)의 정보를 데이터베이스(400)에 등록하는 과정을 수행해야 한다. 서버(100)는 단말 장치(200, 300)를 통해 또는 별도의 웹사이트 등을 통해 사용자 본인의 화자 특성을 구별할 수 있는 화자 임베딩 기반의 화자 정보를 등록한다. 이때, 서버(100)는 사용자의 음성 신호와 사용 언어를 포함하는 화자 정보를 등록받게 된다.

등록된 화자 정보는 이후 자동 통역 과정에서 개인화 음성 검출, 화자 검증, 화자 식별 과정에 사용된다. 또한, 사용 언어와 같은 부가 정보는 자동 통역 상대방을 연결하는데 사용될 수 있다.

이하에서는 도 4 내지 도 7를 참조하여 본 발명의 일 실시예에 따른 자동 통역 서버(100)에 의해 수행되는 방법에 대해 보다 상세히 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 자동 통역 방법의 순서도이다. 도 5는 자동 통역 구역 내 단말 장치들을 연결하는 과정을 설명하기 위한 도면이다.

먼저, 서버(100)는 소정의 자동 통역 구역 내에 위치한 단말 장치들을 연결한다(S110).

도 5를 참조하면, 서버(100)는 소정의 자동 통역 구역을 활성화시키고(S111), 활성화된 자동 통역 구역 내에 대한 단말 장치(200, 300)의 인식 결과를 수신한다(S112). 이후, 서버(100)는 자동 통역 구역을 인식한 단말 장치(200, 300)와 연결을 수행한다(S113).

보다 구체적으로, 서버(100)는 사용자의 단말 장치(200, 300)가 자동 통역 구역 내에 진입하거나 또는 자동 통역 구역이 활성화되어, 단말 장치(200, 300)가 자동 통역 구역을 인식하게 되면 서버(100)와 단말 장치(200, 300)는 서로 연결될 수 있다.

서버(100)는 화자 정보에 포함된 사용 언어 정보를 기반으로 통역 대상 사용자의 단말 장치(200, 300)들이 연결되도록 한다. 사용 언어 정보는 각 사용자가 사용하는 언어의 종류를 나타내는 정보로, 제1 단말 장치(200)의 사용자가 상대방인 제2 단말 장치(300)의 제2 사용자가 사용하는 언어를 식별하기 위한 정보로 사용될 수 있다. 이러한 사용 언어 정보를 기반으로 서버(100)는 제1 사용자의 제1 단말 장치(200)와 제2 사용자의 제2 단말 장치(300)의 연결 여부를 결정할 수 있다.

또한, 서버(100)는 연결 과정에서 사용자에게 어떤 사용자와 연결되었는지 또는 연결이 실패하였는지에 관한 정보를 제공할 수 있다. 이 경우, 서버(100)는 각 단말 장치(200, 300)를 통해 또는 각 사용자 단말로 현재 연결된 사용자 리스트, 또는 연결 실패된 사용자 리스트를 제공할 수 있다.

리스트를 확인한 각 사용자는 단말 장치(200, 300)를 통해 연결되지 않은 타 사용자와의 연결을 서버(100)로 요청하거나, 또는 연결 성립된 타 사용자와의 연결의 해제 요청을 할 수 있다.

한편, 본 발명의 일 실시예에서의 자동 통역 구역은 단말 장치(200, 300)가 해당 구역에 위치함에 따라, 통역 가능한 단말 장치(200, 300) 간의 자동 연결이 가능하도록 하고, 매칭된 단말 장치 간의 음성 신호에 대한 자동 통역 결과를 제공 가능한 구역을 의미한다.

즉, 자동 통역 구역 내에서 자동 통역 서비스가 제공되며, 자동 통역 구역 밖에서는 단말 장치(200, 300)와 서버(100) 간 연결이 제한됨에 따라 자동 통역 서비스는 제공되지 않는다.

이러한 자동 통역 구역은 일 실시예로, 특정 커버리지로 지정된 구역, 예를 들어 특정 WiFi를 사용하는 구역이 자동 통역 구역으로 지정될 수 있다. 다른 일 실시예로, 사용자가 모바일 핫스팟을 이용하여 자동 통역 구역을 활성화할 수도 있다. 또 다른 실시예로, 블루투스 저에너지(Bluetooth Low Energy, BLE) 등 다른 통신 수단을 통하여 자동 통역 구역이 활성화될 수도 있다. 경우에 따라서는 QR 코드 및 스마트폰 메시지 등을 이용하여 특정 서버 주소를 활성화하여 수동으로 사용자들을 동일한 자동 통역 구역 내에 위치시킬 수도 있다.

다음으로, 서버(100)는 자동 통역 구역 내 연결된 단말 장치(200, 300) 중 제1 단말 장치(200)로부터 제1 사용자의 음성 신호를 수신하면(S120), 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭한다(S130).

도 6은 본 발명의 일 실시예에서 사용자들을 매칭하는 과정을 설명하기 위한 순서도이다. 도 7은 본 발명의 일 실시예에서의 사용자들을 매칭하는 과정을 설명하기 위한 예시도이다.

일 실시예로, 서버(100)는 제1 단말 장치(200)를 통해 입력된 제1 사용자의 음성 신호가 제1 사용자 본인의 음성 신호인지 여부를 판단한다(S131). 서버(100)는 제1 사용자의 음성 신호를 대상으로 개인화 음성 검출(Personal Voice Activity Detection) 기술을 이용하여 입력된 음성이 제1 사용자 본인의 음성인지 여부를 확인한다.

이러한 개인화 음성 검출 과정은 제1 사용자의 음성 신호에서 실제 음성이 존재하는 음성 구간을 검출하는 과정으로, 실제 음성의 시작점(start point)과 종료점(end point)을 검출하는 과정이다.

서버(100)는 판단 결과 제1 사용자 본인의 음성이 아닌 잡음으로 판단시 자동 통역 과정을 종료한다. 또한, 제1 사용자 본인의 음성이 아닌 타인(제2 사용자)의 음성으로 판단시, 제1 단말 장치(200)를 기준으로 하는 제2 사용자에 대한 화자 식별 과정을 수행한다.

한편, 서버(100)는 판단 결과 제1 사용자 본인의 음성인 경우, 제1 사용자의 음성 신호와 화자 정보에 기초하여, 제1 단말 장치(200)를 기준으로 하는 화자 검증(Speaker Verification)을 수행한다(S132).

화자 검증 과정에서는 데이터베이스(400)에 저장된 화자 임베딩 기반의 화자 정보를 기반으로 해당 음성의 화자가 제1 사용자임을 검증한다. 이때, 서버(100)는 화자 검증 결과 화자가 제1 사용자가 아닌 타인(제2 사용자)으로 검증된 경우(S133-N), 해당 음성을 타인으로 분류하여 후술하는 화자 식별 과정을 수행한다.

한편, 시나리오 정책에 따라 화자 검증에 실패 시 서버(100)는 즉시 동작을 종료할 수도 있다.

이와 달리 서버(100)는 화자가 제1 사용자임이 검증된 경우(S133-N), 제1 단말 장치(200)가 연결 가능한 조건인지 확인 후 연결이 불가능한 상태이면 종료하고, 연결이 가능한 상태라면 연결을 시도한다. 또한, 기 연결된 상태라면 연결을 유지한다(S134).

다음으로, 서버(100)는 음성 신호에 대한 자동 통역을 수행하여 매칭 결과에 상응하는 적어도 하나의 제2 사용자의 제2 단말 장치(300)로 자동 통역 결과, 즉 음성 신호가 번역된 합성음을 전송하고, 제1 사용자 단말에는 음성 인식 결과를 출력한다(S140).

한편, 제1 사용자의 음성 신호가 제2 단말 장치(300)로 입력되는 경우, 서버(100)는 제2 단말 장치(300)를 통해 해당 음성 신호를 수신하게 된다. 이 경우, 서버(100)는 화자 식별을 수행하기 이전에, 제2 단말 장치(300)를 통해 입력된 제1 사용자의 음성 신호가 제2 사용자의 타인에 해당하는 음성 신호인지 여부를 판단한다(S131).

그리고 서버(100)는 제2 단말 장치(300)에 입력된 음성 신호가 제2 사용자 본인의 음성 신호가 아닌 타인(제1 사용자)의 음성 신호인 것으로 판단된 경우, 제1 사용자의 음성 신호와 화자 정보에 기초하여, 제2 단말 장치(300)를 기준으로 하는 화자 식별을 수행한다(S135). 그리고 화자 식별 수행 결과 수신한 음성 신호와 화자 임베딩 간에 기 설정된 임계치 이상을 만족하는 경우, 제1 사용자의 음성 신호의 화자를 제1 사용자로 식별한다(S136).

이후 서버(100)는 제2 단말 장치(300)가 연결 가능한 조건인지 확인 후 연결이 불가능한 상태이면 종료하고, 연결이 가능한 상태라면 연결을 시도한다. 또한, 기 연결된 상태라면 연결을 유지한다(S137).

이와 같이 서버(100)는 화자 검증 및 화자 식별이 완료된 제1 및 제2 단말 장치(200, 300)에 상응하는 제1 및 제2 사용자를 매칭시키게 된다.

다음으로, 서버(100)는 음성 신호에 대한 자동 통역을 수행하여 매칭 결과에 상응하는 적어도 하나의 제2 사용자의 제2 단말 장치(300)로 자동 통역 결과, 즉 음성 신호가 번역된 합성음을 전송한다(S140).

도 7을 참조하면, 서버(100)에 등록 과정을 마친 사용자 A는 자동 통역 구역 내에 위치한 다른 사용자 B, D, E와 자동으로 연결이 된다.

이때, 사용자 A-B가 하나의 대화쌍이 되고, 멀리 위치한 사용자 D-E가 또 다른 대화쌍이라고 가정하면, 사용자 A-B와 사용자 D-E는 각각 서버(100)에 연결이 되어 있고, 대화쌍에 상응하는 단말 장치 간에 연결이 되어 있는 상태이다.

하지만, 발화 수신 가능 거리 밖에 위치하여 사용자 A-B의 음성이 사용자 D-E의 단말 장치에 전달되지 않고, 마찬가지로 사용자 D-E의 음성 또한 사용자 A-B의 단말 장치에 전달되지 않아, 자동 통역 과정에서 서로 분리 동작된다. 도 7의 예시에서는 사용자 A를 제1 사용자로, 사용자 B를 제2 사용자로 설명하도록 한다.

만약, 사용자 D-E의 대화쌍이 사용자 A-B의 근처에 있어 서로 간의 음성이 각자의 단말 장치에 입력되는 경우라면, 실제 모국어 사용자 간의 상황에서도 음성이 들리는 거리에 있는 만큼, 이들의 음성 또한 자동 통역의 대상으로 인식하여 서로 다른 대화쌍에게 전달할 수도 있다.

이 경우, 해당 단말 장치의 사용자는 이들의 음성이 전달되거나 연결됨을 감지하였을 때 관련성이 낮아 자동 통역 결과를 제공받고 싶지 않을 경우, 연결을 끊는 동작을 수행하여 자동 통역 대상에서 배제할 수도 있다.

이렇게 사용자 A와 사용자 B가 연결된 상태에서, 한국어 사용자 A(제1 사용자)가 “안녕하세요”라는 음성을 발성하면 이는 단말 장치를 통해 실시간으로 서버(100)로 전송된다.

이후, 서버(100)는 사용자 A의 음성 신호를 대상으로 개인화 음성 검출을 실시하여 제1 단말 장치(200)를 기준으로 사용자 A의 본인 음성인지 여부를 검출하고, 검출된 음성에 대해 화자 검증을 수행하여 사용자 A가 화자임을 확인한 후 연결을 대기한다.

또한, 미국인 사용자 B(제2 사용자)의 시나리오에서, 서버(100)는 사용자 A의 음성에 대해 개인화 음성 검출을 시도하여 사용자 B 본인의 음성이 아닌 타인인 사용자 A의 음성인 것을 확인하고, 해당 음성이 누구의 음성인지를 확인하기 위하여 데이터베이스(400)에 등록된 화자 정보를 토대로 사용자 A가 화자임을 식별한다.

이와 같이 화자 검증 및 화자 식별이 완료된 사용자 A와 사용자 B의 단말 장치를 서로 연결시키게 되며, 만약 이들 간에 이미 연결이 완료된 상태라면 연결을 유지시킨다. 이후, 서버(100)는 사용자 A의 음성이 자동 통역된 후 번역된 합성음이 사용자 B의 단말 장치로 전달되어, 사용자 B는 “Hello”라는 자동 통역 결과를 음성으로 제공받게 된다.

한편, 본 발명의 일 실시예에서, 화자 정보가 미등록된 제3 사용자의 음성 신호가 제1 및 제2 단말 장치(200, 300)로 입력되는 경우, 서버(100)는 개인화 음성 검출 과정을 통해 제1 및 제2 단말 장치(200, 300)를 기준으로 제1 및 제2 사용자의 타인에 해당하는 음성 신호인지 여부를 판별한다.

이후, 서버(100)는 타인으로 판별된 제3 사용자의 음성 신호를 화자 정보와 비교하여, 제1 및 제2 단말 장치(200, 300)를 기준으로 하는 화자 식별을 수행한다. 그리고 서버(100)는 화자 식별 결과 제3 사용자가 미등록된 사용자이므로 제3 사용자에 대한 제1 및 제2 사용자와의 매칭을 불허한다.

본 발명의 일 실시예에서의 예외 케이스를 도 7의 예시를 통해 설명하도록 한다.

자동 통역 서버(100)에 연결되지 않은 중국인 비사용자 C의 음성이 사용자 A-B의 발화 수신 가능 거리 내에 있어, 사용자 A 및 B의 각 단말 장치로 사용자 C의 음성이 입력되는 경우, 서버(100)는 개인화 음성 검출 과정에서 사용자 A 및 B의 단말 장치를 기준으로 모두 타인으로 검출하게 되고, 이후 화자 식별 과정에서 화자 정보를 통해 자동 통역되지 않도록 결정한다.

이때, 화자 식별 과정에서는 사용자 C의 음성과 다른 사용자의 화자 임베딩을 비교하게 되는데, 서버(100)는 비교 결과 기 설정된 임계치 미만인 경우 자동 통역을 바로 중단할 수 있다.

또 다른 예외 케이스로, 화자 식별 과정에서 서버(100)는 화자 정보에 따른 음성 신호의 유사도가 기 설정된 임계치 이상인 제3 사용자가 존재하는 경우, 제1 및 제2 단말 장치(200, 300)를 기준으로 제3 사용자가 발화 수신 가능 거리 내에 위치하는지 여부를 판단한다. 그리고 판단 결과 발화 수신 가능 거리 밖에 위치하는 경우, 제3 사용자에 대한 제1 및 제2 사용자와의 매칭을 불허한다.

이는, 제1 및 제2 단말 장치(200, 300)에 제3의 음성이 입력되는 경우, 서버(100)는 개인화 음성 검출 과정을 통해 타인으로 검출하게 되어, 화자 식별 과정을 수행하게 된다.

이러한 화자 식별 과정을 수행한 결과, 유사도가 임계치 이상 또는 무조건 화자 정보에 등록된 사용자 1명을 선택하도록 하는 정책이 지정된 경우, 대화 상대가 아닌 무관한 제3 사용자가 화자로 지정되는 경우가 발생할 수 있다.

이러한 문제를 해소하기 위해, 서버(100)는 제1 및 제2 단말 장치(200, 300)를 기준으로 제3 사용자의 단말 장치가 발화 수신 가능 거리 밖에 위치하는 것을 판단하여 제1 및 제2 사용자와의 매칭을 불허하게 된다.

반대로, 발화 수신 가능 거리 내에 위치한 경우라면, 제1 내지 제3 사용자를 모두 매칭시켜 상호 간의 음성에 대한 자동 통역 결과를 제공하게 된다.

한편, 상술한 설명에서, 단계 S110 내지 S140는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3의 내용은 도 4 내지 도 7의 방법에도 적용될 수 있다.

이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 파이썬, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1: 자동 통역 시스템
100: 자동 통역 서버
110: 통신모듈
120: 메모리
130: 프로세서
200: 제1 단말 장치
300: 제2 단말 장치
400: 데이터베이스

Claims

마이크 기능, 스피커 기능, 통신 기능 및 웨어러블 기능을 구비하는 복수의 단말 장치들과 통신하는 제로 유아이 기반의 자동 통역 서버에 의해 수행되는 방법에 있어서,
소정의 자동 통역 구역 내 위치한 단말 장치들을 연결하는 단계;
상기 자동 통역 구역 내 단말 장치 중 제1 단말 장치로부터 제1 사용자의 음성 신호를 수신하는 단계;
상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계; 및
상기 음성 신호에 대한 자동 통역을 수행하여 상기 매칭 결과에 상응하는 적어도 하나의 제2 사용자의 제2 단말 장치로 자동 통역 결과를 전송하는 단계를 포함하는,
제로 유아이 기반의 자동 통역 방법.
제1항에 있어서,
상기 소정의 자동 통역 구역 내 위치한 단말 장치들을 연결하는 단계는,
상기 소정의 자동 통역 구역을 활성화시키는 단계;
상기 활성화된 자동 통역 구역에 대한 단말 장치의 인식 결과를 수신하는 단계; 및
상기 자동 통역 구역을 인식한 단말 장치와 연결을 수행하는 단계를 포함하는,
제로 유아이 기반의 자동 통역 방법.
제1항에 있어서,
상기 복수의 단말 장치로부터 사용자의 음성 신호 및 사용 언어를 포함하는 화자 정보를 등록받는 단계를 더 포함하는,
제로 유아이 기반의 자동 통역 방법.
제3항에 있어서,
상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계는,
상기 제1 사용자의 음성 신호와 상기 화자 정보에 기초하여, 상기 제1 단말 장치를 기준으로 하는 화자 검증을 수행하는 단계;
상기 제1 사용자의 음성 신호와 상기 화자 정보에 기초하여, 상기 제2 단말 장치를 기준으로 하는 화자 식별을 수행하는 단계; 및
상기 화자 검증 및 화자 식별이 완료된 제1 및 제2 단말 장치에 상응하는 사용자를 매칭시키는 단계를 포함하는,
제로 유아이 기반의 자동 통역 방법.
제4항에 있어서,
상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계는,
상기 화자 검증을 수행하는 단계 이전에, 상기 제1 단말 장치를 통해 입력된 제1 사용자의 음성 신호가 제1 사용자 본인의 음성 신호인지 여부를 판단하는 단계를 더 포함하는,
제로 유아이 기반의 자동 통역 방법.
제4항에 있어서,
상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계는,
상기 화자 식별을 수행하는 단계 이전에, 상기 제2 단말 장치를 통해 입력된 제1 사용자의 음성 신호가 제2 사용자의 타인에 해당하는 음성 신호인지 여부를 판단하는 단계를 더 포함하는,
제로 유아이 기반의 자동 통역 방법.
제4항에 있어서,
상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계는, 상기 화자 정보가 미등록된 제3 사용자의 음성 신호가 제1 및 제2 단말 장치로 입력되는 경우,
상기 제1 및 제2 단말 장치를 기준으로 제1 및 제2 사용자의 타인에 해당하는 음성 신호인지 여부를 판별하는 단계;
상기 제3 사용자의 음성 신호와 상기 화자 정보에 기초하여, 상기 제1 및 제2 단말 장치를 기준으로 하는 화자 식별을 수행하는 단계; 및
상기 화자 식별 결과에 기초하여 상기 미등록된 제3 사용자와의 매칭을 불허하는 단계를 포함하는,
제로 유아이 기반의 자동 통역 방법.
제3항에 있어서,
상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하는 단계는, 상기 화자 정보에 따른 음성 신호의 유사도가 기 설정된 임계치 이상인 제3 사용자가 존재하는 경우,
상기 제3 사용자가 상기 발화 수신 가능 거리 내에 위치하는지 여부를 판단하는 단계; 및
상기 판단 결과 발화 수신 가능 거리 밖에 위치하는 경우, 상기 제3 사용자에 대한 상기 제1 및 제2 사용자와의 매칭을 불허하는 단계를 포함하는,
제로 유아이 기반의 자동 통역 방법.
제로 유아이 기반의 자동 통역 서버에 있어서,
소정의 자동 통역 구역 내 위치한 복수의 단말 장치들과 연결되어 통신하는 통신모듈,
상기 복수의 단말 장치들로부터 사용자의 음성 신호 및 사용 언어를 포함하는 화자 정보를 등록 및 저장하고, 자동 통역 기능을 제공하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시킴에 따라, 상기 자동 통역 구역 내 단말 장치의 음성 신호를 수신하면, 상기 음성 신호 및 화자 정보에 기초하여 상기 단말 장치의 발화 수신 가능 거리 내에 위치한 복수의 사용자들을 매칭하고, 상기 음성 신호에 대한 자동 통역을 수행하여 상기 매칭 결과에 상응하는 단말 장치로 자동 통역 결과를 상기 통신모듈을 통해 전송하는 프로세서를 포함하는,
제로 유아이 기반의 자동 통역 서버.
제9항에 있어서,
상기 프로세서는 상기 소정의 자동 통역 구역을 활성화시킨 후, 상기 통신모듈을 통해 활성화된 자동 통역 구역에 대한 단말 장치의 인식 결과를 수신하면, 상기 자동 통역 구역을 인식한 단말 장치와 연결을 수행하는 것인,
제로 유아이 기반의 자동 통역 서버.
제9항에 있어서,
상기 프로세서는 제1 사용자의 음성 신호와 상기 화자 정보에 기초하여, 제1 사용자에 상응하는 제1 단말 장치를 기준으로 하는 화자 검증을 수행하고, 상기 제1 사용자의 음성 신호와 상기 화자 정보에 기초하여, 상기 제2 단말 장치를 기준으로 하는 화자 식별을 수행한 후, 상기 화자 검증 및 화자 식별이 완료된 제1 및 제2 단말 장치에 상응하는 각 사용자를 매칭시키는 것인,
제로 유아이 기반의 자동 통역 서버.
제11항에 있어서,
상기 프로세서는 상기 화자 검증을 수행하기 전에, 상기 제1 단말 장치를 통해 입력된 제1 사용자의 음성 신호가 제1 사용자 본인의 음성 신호인지 여부를 판단하는 것인,
제로 유아이 기반의 자동 통역 서버.
제11항에 있어서,
상기 프로세서는 상기 화자 식별을 수행하기 전에, 상기 제2 단말 장치를 통해 입력된 제1 사용자의 음성 신호가 제2 사용자의 타인에 해당하는 음성 신호인지 여부를 판단하는 것인,
제로 유아이 기반의 자동 통역 서버.
제11항에 있어서,
상기 프로세서는 상기 화자 정보가 미등록된 제3 사용자의 음성 신호가 제1 및 제2 단말 장치로 입력되는 경우, 상기 제1 및 제2 단말 장치를 기준으로 제1 및 제2 사용자의 타인에 해당하는 음성 신호인지 여부를 판별하고, 상기 제3 사용자의 음성 신호와 상기 화자 정보에 기초하여, 상기 제1 및 제2 단말 장치를 기준으로 하는 화자 식별을 수행하여, 상기 화자 식별 결과에 기초하여 상기 미등록된 제3 사용자와의 매칭을 불허하는 것인,
제로 유아이 기반의 자동 통역 서버.
제9항에 있어서,
상기 프로세서는 상기 화자 정보에 따른 음성 신호의 유사도가 기 설정된 임계치 이상인 제3 사용자가 존재하는 경우, 상기 제3 사용자가 상기 발화 수신 가능 거리 내에 위치하는지 여부를 판단하고, 상기 판단 결과 발화 수신 가능 거리 밖에 위치하는 경우, 상기 제3 사용자에 대한 상기 제1 및 제2 사용자와의 매칭을 불허하는 것인,
제로 유아이 기반의 자동 통역 서버.