KR20190044945A

KR20190044945A - 화자인증장치 및 방법

Info

Publication number: KR20190044945A
Application number: KR1020170137589A
Authority: KR
Inventors: 박재한; 문일현
Original assignee: 주식회사 케이티
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2019-05-02

Abstract

본 발명은 화자인증장치 및 방법에 관한 것으로, 본 발명에 따른 장치는, 녹음파일 재생에 의한 화자인증요청을 필터링하는 화자인증장치에 있어서, 인증요청된 음성파일을 기저장된 등록파일과 일치 여부를 비교하여 화자인증을 수행하는 화자 인증부; 및 상기 인증요청된 음성파일을 적어도 하나 이상의 기인증된 파일과 매칭시켜 일치 여부를 비교하여 상기 음성파일이 녹음파일에 해당하는지를 판단하는 녹음파일 구별부;를 포함하는 것을 특징으로 한다.

Description

화자인증장치 및 방법{Apparatus and Method for Speaker Identification}

본 발명은 화자인증장치 및 방법에 관한 것으로, 보다 구체적으로 제3자가 등록된 사용자의 목소리를 무단으로 녹음하여 녹음파일로 화자인증을 요청하는 경우 이를 필터링 할 수 있는 보안성이 높은 화자인증장치 및 방법에 관한 것이다.

바이오인식이란, 타인이 모방할 수 없는 신체정보를 식별하고 비교해 타인과 구분하고 인증하는 기술을 의미한다. 다양한 바이오인식 기술 중에서도 최근 음성인식기술에 관한 연구가 활발히 진행되고 있다. 음성인식기술은 크게 '음성인식'과 '화자인증'으로 나뉜다. 음성인식은, 어떤 사람이 이야기하든 상관없이 불특정 다수가 말한 '내용'을 알아듣는 것이다. 반면, 화자인증은 '누가' 이 이야기를 했는지를 구별하는 것이다.

화자인증 기술의 일 예시로, '목소리 인증 서비스'가 있다. 만약, 목소리만으로 '누구'인지 주체를 정확하고 신속하게 확인할 수 있다면, 각종 분야에서 개인인증을 위해 필요했던 기존의 방법들, 예를 들어, 로그인 후 비밀번호 입력, 공인인증서 인증 등과 같은 번거로운 단계를 줄여 이용자의 편의를 제공할 수 있을 것이다.

화자인증 기술은 최초 사용자의 목소리를 등록한 뒤 이후, 인증 요청시마다 사용자가 발화한 목소리와 등록된 목소리와 비교하여 일치 여부로 인증을 수행한다. 사용자가 목소리를 등록하면, 목소리에서 특징점을 추출하며, 특징점은 수초(ex, 10sec) 단위로 추출할 수 있다. 특징점은, 억양, 말 빠르기 등 다양한 유형으로 추출될 수 있고 이러한 특징점을 조합으로 어떤 사람인지 구별할 수 있다. 한편, 화자인증 기술의 핵심은 보안성인데, 등록 사용자가 목소리를 등록하거나 인증할 때 인근에 위치하는 제3자가 등록 사용자의 목소리를 무단 녹음하고, 해당 녹음파일로 화자인증을 시도하는 경우 이를 필터링할 수 없다면 사용자에게 막대한 피해가 발생하게 될 것이며, 화자인증에 대한 신뢰도는 낮아질 수밖에 없다.

도 1은 종래 제3자가 사용자의 목소리를 무단 녹음하여 해당 녹음파일로 화자인증을 시도하는 경우를 설명하는 예시도이다. 도 1을 참고하면, 등록된 사용자(H)가 음성으로 인증 요청시 인증에 사용된 음성파일(A)과 제3자가 사용자(H)의 음성을 무단으로 녹음한 녹음파일(B)은 주체가 동일하고, 동일 시점에 녹음된 파일임을 전제로 한다. 또한, 등록파일(A")은 최초 등록시에 사용자(H)의 발화로 데이터베이스(DB, 2)에 저장된 목소리로, 인증 요청시마다 유사판단의 기준이 된다.

만약, 사용자(H)가 음성인증을 요청하여 음성파일(A)이 데이터베이스(DB, 2)에 저장된 등록파일(A")과 일치함을 전제로 인증을 통과하였다면(11), 제3자가 무단으로 녹음한 녹음파일(B)로 인증을 요청하더라도 인증을 통과할 것이다(12). 왜냐하면, 녹음파일(B)은 음성파일(A)과 일치하고(B=A), 음성파일(A)은 등록파일(A")과 일치하므로(A=A"), 결국, 녹음파일(B)은 등록파일(A")과 일치하는 것으로 귀결될 것이기 때문이다.

이와 같이, 화자인증 기술에 있어 제3자의 무단녹음에 의한 녹음파일(B)을 필터링할 수 있는 기술이 화자인증 기술의 보안성과 직결되는 중요한 문제로 대두되고 있다.

대한민국 공개특허공보 제10-2014-0067687호, "대화형 음성인식이 가능한 차량 시스템"

앞서 본 종래 기술의 문제점을 해결하기 위해 안출된 것으로,

본 발명의 목적은, 동일 사용자의 실제 목소리와 녹음파일에 의한 목소리를 구별하는 컨볼루션 신경망(Convolution Neural Network, CNN)을 이용하여 제3자가 등록 사용자의 목소리를 녹음하여 위법하게 화자인증을 시도하는 것을 구별할 수 있는 화자인증장치 및 방법을 제공하는 것이다.

본 발명은 앞서 본 목적을 달성하기 위하여 다음과 같은 실시예에 의해 구현된다.

일 측면에 따른 장치는, 녹음파일 재생에 의한 화자인증요청을 필터링하는 화자인증장치에 있어서, 인증요청된 음성파일을 기저장된 등록파일과 일치 여부를 비교하여 화자인증을 수행하는 화자 인증부; 및 상기 인증요청된 음성파일을 적어도 하나 이상의 기인증된 파일과 매칭시켜 일치 여부를 비교하여 상기 음성파일이 녹음파일에 해당하는지를 판단하는 녹음파일 구별부;를 포함하는 것을 특징으로 한다.

상기 녹음파일 구별부는, 상기 화자 인증부의 인증을 통과한 음성파일에 대해서 녹음파일 해당 여부를 판단하고, 상기 음성파일이 복수의 기인증된 파일 모두와 일치하지 않는 경우 최종 화자인증을 승인하는 것을 특징으로 한다.

상기 장치는, 화자인증 서비스를 이용하려는 사용자가 등록과정에서 발화한 음성파일을 등록파일 항목에 저장하고, 화자인증 요청과정에서 요청자로부터 수집된 음성파일로서 상기 녹음파일 구별부에 의해 화자인증이 최종 승인되면 최종 승인된 음성파일을 기인증된 파일 항목에 저장하는 데이터베이스;를 추가로 포함하는 것을 특징으로 한다.

상기 녹음파일 구별부는, 상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 상호 발화구간을 매칭시키는 발화구간 매칭모듈;상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일에서 특징맵을 추출하는 특징맵 추출모듈; 및 상기 추출된 특징맵들을 매칭시켜 유사도를 측정하는 특징맵 매칭모듈;을 포함하는 것을 특징으로 한다.

상기 발화구간 매칭모듈은, 상기 음성파일의 이미지 파일 및 상기 기인증된 파일의 이미지 파일 중 하나를 이동시키면서 RGB 차이를 비교하여 상기 이미지 파일 중 다른 하나와 발화구간을 매칭시키는 것을 특징으로 한다.

상기 특징맵 추출모듈은, 상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 각각에 컨볼루션 신경망(Convolution Neural Network)을 적용하여 특징맵을 추출하는 것을 특징으로 한다.

상기 특징맵 매칭모듈은, 상기 추출된 특징맵들을 코사인 유사도를 이용하여 유사도를 측정하는 것을 특징으로 한다.

다른 측면에 따른 방법은, 녹음파일 재생에 의한 화자인증요청을 필터링하는 화자인증방법에 있어서, 인증요청된 음성파일을 기저장된 등록파일과 일치 여부를 비교하여 화자인증을 수행하는 화자 인증단계; 및 상기 인증요청된 음성파일을 적어도 하나 이상의 기인증된 파일과 매칭시켜 일치 여부를 비교하여 상기 음성파일이 녹음파일에 해당하는지를 판단하는 녹음파일 구별단계;를 포함하는 것을 특징으로 한다.

상기 녹음파일 구별단계는, 상기 화자 인증단계를 통과한 음성파일에 대해서 녹음파일 해당 여부를 판단하고, 기인증된 파일이 복수 개 있는 경우 상기 음성파일을 복수의 기인증된 파일 모두와 매칭시켜 일치 여부를 비교하는 것을 특징으로 한다.

상기 화자 인증단계 이전에, 화자인증 서비스를 이용하려는 사용자의 발화로 생성한 음성파일을 등록파일 항목으로 데이터베이스에 저장하여 사용자를 등록하는 단계;를 더 포함하는 것을 특징으로 한다.

상기 방법은, 상기 음성파일이 복수의 기인증된 파일 모두와 일치하지 않는 경우 최종 화자인증을 승인하는 단계;를 포함하고, 상기 최종화자 승인단계는, 최종 승인된 음성파일을 기인증된 파일 항목으로 상기 데이터베이스에 저장하는 것을 특징으로 한다.

상기 녹음파일 구별단계는, 상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 상호 발화구간을 매칭시키는 발화구간 매칭단계; 상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일에서 특징맵을 추출하는 특징맵 추출단계; 및 상기 추출된 특징맵들을 매칭시켜 유사도를 측정하는 특징맵 매칭단계;를 포함하는 것을 특징으로 한다.

상기 발화구간 매칭단계는, 상기 음성파일의 이미지 파일 및 상기 기인증된 파일의 이미지 파일 중 하나를 이동시키면서 RGB 차이를 비교하여 다른 하나와 발화구간을 매칭시키는 것을 특징으로 한다.

상기 특징맵 추출단계는, 상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 각각에 컨볼루션 신경망(Convolution Neural Network)을 적용하여 특징맵을 추출하는 것을 특징으로 한다.

상기 특징맵 매칭단계는, 상기 추출된 특징맵들을 코사인 유사도를 이용하여 유사도를 측정하는 것을 특징으로 한다.

본 발명은 앞서 본 구성에 의하여 다음과 같은 효과를 가진다.

본 발명은, 제3자가 등록 사용자의 목소리를 무단으로 녹음한 음성으로 화자인증을 시도하더라도 등록 사용자의 실제 목소리와 녹음파일 실행에 의한 목소리를 구별함으로써 보안성 높은 화자인증 서비스를 제공할 수 있는 효과를 갖는다.

도 1은 종래 제3자가 사용자의 목소리를 무단 녹음하여 해당 녹음파일로 화자인증을 시도하는 경우를 설명하는 예시도이다.
도 2는 일 실시예에 따른 화자인증장치를 설명하는 블럭도이다.
도 3은 일 실시예에 따라 녹음파일에 대한 인증을 수행하는 과정을 설명하는 예시도이다.
도 4는 도 2의 녹음파일 구별부에 대한 상세구성을 보여주는 블럭도이다.
도 5 및 도 6은, 일 실시예에 따라 발화구간 매칭모듈이 녹음파일과 인증통과 파일 상호간 발화구간을 매칭하는 과정을 보여주는 예시도이다.
도 7 내지 도 9는, 일 실시예에 따라 특징맵 추출모듈이 이미지 파일에서 특징맵을 추출하는데 이용하는 컨볼루션 신경망(Convolution Neural Network, CNN)을 설명하는 예시도이다.
도 10은, 일 실시예에 따라 특징맵 매칭모듈이 도 7 내지 도 9를 통해 추출한 특징맵들을 서로 매칭시켜 유사도를 측정하는 방법을 설명하는 예시도이다.
도 11은 다른 실시예에 따라 화자인증방법을 설명하는 흐름도이다.
도 12는 도 11의 녹음파일 구별단계를 상세하게 설명하는 흐름도이다.

이하, 본 발명의 실시 예를 첨부된 도면들을 참조하여 더욱 상세하게 설명한다. 본 발명의 실시 예는 여러 가지 형태로 변형할 수 있으며, 본 발명의 범위가 아래의 실시 예들로 한정되는 것으로 해석되어서는 안 된다. 본 실시 예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해 제공되는 것이다. 또한, 본 발명의 도면과 명세서에서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

한편, 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자에 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가함을 배제하지 않는다.

그러면 도면을 참고하여 본 발명의 화자인증장치 및 방법에 대하여 상세하게 설명한다.

도 2는 일 실시예에 따른 화자인증장치를 설명하는 블럭도이며, 도 3은 일 실시예에 따라 녹음파일에 대한 인증을 수행하는 과정을 설명하는 예시도이다.

화자인증장치(100)는, 메모리, 메모리 제어기, 하나 이상의 프로세서(CPU), 주변 인터페이스, 입출력(I/O) 서브시스템, 디스플레이 장치, 입력 장치 및 통신 회로를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한, 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치와 같은 불휘발성 메모리, 또는 다른 불휘발성 반도체 메모리 장치를 포함할 수 있다. 프로세서 및 주변 인터페이스와 같은 다른 구성요소에 의한 메모리로의 액세스는 메모리 제어기에 의하여 제어될 수 있다. 메모리는 각종 정보와 프로그램 명령어를 저장할 수 있고, 프로그램은 프로세서에 의해 실행된다.

주변 인터페이스는 화자인증장치(100)의 입출력 주변 장치를 프로세서 및 메모리와 연결한다. 하나 이상의 프로세서는 다양한 소프트웨어 프로그램 및/또는 메모리에 저장되어 있는 명령어 세트를 실행하여 화자인증장치(100)를 위한 여러 기능을 수행하고 데이터를 처리한다. I/O 서브시스템은 디스플레이 장치, 입력 장치와 같은 입출력 주변장치와 주변 인터페이스 사이에 인터페이스를 제공한다. 디스플레이 장치는 LCD(liquid crystal display) 기술 또는 LPD(light emitting polymer display) 기술을 사용할 수 있다.

프로세서는 화자인증장치(100)에 연관된 동작을 수행하고 명령어들을 수행하도록 구성된 프로세서로서, 예를 들어, 메모리로부터 검색된 명령어들을 이용하여, 화자인증장치(100)의 컴포넌트 간의 입력 및 출력 데이터의 수신과 조작을 제어할 수 있다. 통신 회로는 외부 포트를 통한 통신 또는 RF 신호에 의한 통신을 수행한다. 통신 회로는 전기 신호를 RF 신호로 또는 그 반대로 변환하며 이 RF 신호를 통하여 통신 네트워크, 다른 이동형 게이트웨이 장치 및 통신 장치와 통신할 수 있다.

여기에 설명되는 다양한 실시 예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 여기에 설명되는 실시 예는 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 소프트웨어 코드는 적절한 프로그램 언어로 쓰여진 소프트웨어 애플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리에 저장되고, 프로세서에 의해 실행될 수 있다.

도 2를 참고하면, 화자인증장치(100)는, 화자 인증부(110), 녹음파일 구별부(130), 그리고 데이터베이스(DB, 150)를 포함할 수 있다.

일 실시예에 따른, 화자인증장치(100)는 화자인증 서비스를 이용하려는 사용자로부터 목소리를 미리 등록받아 데이터베이스(DB, 150)에 저장할 수 있다. 도 3을 참고하면, 사용자(H)는 사용자 등록단계에서 자신의 목소리를 화자인증장치(100)에 등록하여 화자인증 서비스를 신청할 수 있다. 이때, 화자인증 서비스 신청이 승인된 사용자(H)의 음성파일은 등록파일(A")로 데이터베이스(DB, 150)에 저장되며, 등록파일(A")은 이후 화자인증 요청시마다 요청시에 전송되는 음성파일과 일치 여부를 판단하의 기준파일로 이용 된다.

화자 인증부(110)는 인증요청된 음성파일을 데이터베이스(DB, 150)에 저장된 등록파일과 목소리특성을 비교하여 화자인증을 수행한다. 목소리특성은, 화성, 공명주파수, 억양, 발성속도, 발음습관 등 사람의 목소리가 갖는 개개인의 고유한 특성으로 정의한다. 따라서, 발화시점이 다르더라도 동일 사용자의 목소리는 유사한 목소리특성을 나타내므로, 화자 인증부(110)는 인증요청된 음성파일과 데이터베이스(DB, 150)에 저장된 등록파일의 목소리특성이 동일 또는 유사한 경우 상호 유사하다고 판단할 수 있다.

도 2 및 3을 참고하면, 화자 인증부(110)는 제1 인증단계(step Ⅰ)를 수행한다. 일 실시예에 따라 화자 인증부(110)는, 인증요청된 음성파일(B)을 수신받으면 데이터베이스(DB, 150)에 저장된 등록파일(151, A")을 호출하고, 인증요청된 음성파일(B)과 등록파일(151, A")의 목소리특성을 비교하여 일치 여부를 확인한다. 만약, 양자 목소리특성이 일치하는 경우, 화자 인증부(110)는 일치결과를 녹음파일 구별부(130)로 전달하여 제2 인증단계(step Ⅱ)가 수행되도록 할 수 있다. 도 3에는 설명의 편의를 위해 등록파일(151, A")을 하나만 도시하였으나, 이에 한정되는 것은 아니며 최종 승인된 사용자(H)의 수에 대응되게 등록파일(151, A")을 복수 개 저장하고, 이들을 식별하는 식별자를 매핑시켜 저장할 수 있다.

녹음파일 구별부(130)는 인증요청된 음성파일을 적어도 하나 이상 기인증된 파일과 이미지 매칭시켜 음성파일이 녹음파일에 해당하는지를 판단할 수 있다. 일 실시예에 따른 이미지 매칭은, 비교할 음성파일들을 이미지 파일로 변환하고, 변환된 이미지 파일들을 컨볼루션 신경망(Convolution Neural Network, CNN)을 이용하여 특징맵을 추출하고, 추출된 특징맵들을 비교하여 이미지 파일 상호 간 유사도를 측정하는 것으로 정의한다.

동일한 사용자의 목소리는 언제 측정하더라도 개개의 고유한 특성(ex, 화성, 공명주파수, 억양, 발성속도, 발음습관 등)은 동일하게 추출될 수 있으므로 만약 무단으로 제3자가 등록 사용자의 목소리를 녹음하여 녹음파일로 화자인증을 요청하는 경우, 화자 인증부(110)에서 수행되는 제1 인증단계(step Ⅰ)는 통과할 수 있을 것이다. 그러나, 동일 사용자의 목소리라도 다른 시점에 발화된 목소리는 대응하는 이미지 파일이 상호 정확하게 매칭되긴 어렵다. 목소리의 크기, 파형은 목소리가 발화되는 시점, 상황에 따라 다르기 때문이다. 따라서, 목소리에 대응하는 이미지 파일이 상호 극히 유사하게 매칭되는 경우, 동일 시점에 발화된 목소리로 추정되며, 결국, 무단으로 녹음된 음성파일로 볼 수 있다.

일 실시예에 따라, 녹음파일 구별부(130)는 화자 인증부(110)의 인증을 통과한 음성파일에 대해서 녹음파일 해당 여부를 판단할 수 있다. 또한, 데이터베이스(DB, 150)에 저장된 기인증된 파일이 복수 개인 경우, 녹음파일 구별부(130)는 음성파일을 복수의 기인증된 파일과 개별적으로 비교하며, 음성파일이 데이터베이스(DB, 150)에 저장된 모든 기인증된 파일과 일치하지 않는 경우에 화자인증을 최종 승인할 수 있다.

도 2 및 도 3을 참고하면, 녹음파일 구별부(130)는 제2 인증단계(step Ⅱ)를 수행한다. 일 실시예에 따라 화자 인증부(110)로부터 일치결과가 전달되면, 녹음파일 구별부(130)는, 인증요청된 음성파일(B)을 데이터베이스(DB, 150)에 저장된 기인증된 파일(153, A1")을 호출하고, 인증요청된 음성파일(B)과 기인증된 파일(153, A1")을 비교하여 일치 여부를 확인한다. 만약, 데이터베이스(DB, 150)에 복수의 기인증된 파일들(153, A1", …, An)이 저장되어 있는 경우, 녹음파일 구별부(130)는 인증요청된 음성파일(B)을 복수의 기인증된 파일들(153, A1", …, An) 모두와 순차적 또는 선택적으로 매칭시켜 일치 여부를 비교할 수 있다.

일 실시예에 따라, 녹음파일 구별부(130)는 인증요청된 음성파일(B)이 복수의 기인증된 파일들(153, A1", …, An") 모두와 일치하지 않는 것으로 판단되면 최종적으로 화자인증을 승인할 수 있다. 즉, 제3자가 무단으로 녹음한 음성파일(B)로 화자인증을 요청하는 경우, 제1 인증단계(step Ⅰ)를 통과하더라도 제2 인증단계(step Ⅱ)는 통과하지 못한다.

도 3에 도시된 바와 같이, 만약, 인증요청된 음성파일(B)이 복수의 기인증된 파일들(153, A1", …, An") 중 일부(ex, A1")와 일치하는 경우, 녹음파일 구별부(130)는 인증요청된 음성파일(B)에 대해 승인하지 않고, 해당 음성파일(B)이 녹음파일에 해당하는 것으로 판단할 수 있다. 왜냐하면, 데이터베이스(DB, 150)에 저장된 복수의 기인증된 파일들(153, A1", …, An")은, 당해 인증요청 시점 이전에 등록 사용자(H)에 의해 화자승인이 요청되어 인증을 통과할 때마다 저장된 음성파일들(A1", …, An")에 해당하고, 이미 인증 통과한 음성파일들(A1", …, An")의 이미지 파일과 상호 극히 유사하게 매칭되는 경우, 무단으로 녹음된 음성파일로 추정되기 때문이다.

데이터베이스(DB, 150)는, 등록파일 항목 및 기인증된 파일 항목으로 구별하여 음성파일들을 저장할 수 있고, 일 실시예에 따라 상기 음성파일들을 이미지 파일 형태로 저장할 수 있다. 등록파일은, 화자인증 서비스를 이용하려는 사용자가 사용자 등록과정에서 발화로 생성한 음성파일로서 등록이 승인되면 데이터베이스(DB, 150)에 저장된다. 기인증된 파일은, 화자인증 요청과정에서 요청자로부터 수집된 음성파일로서 녹음파일 구별부(130)에 의해 화자인증이 최종 승인되면 데이터베이스(DB, 150)에 저장될 수 있다.

도 4는 도 2의 녹음파일 구별부에 대한 상세구성을 보여주는 블럭도이고, 도 5 및 도 6은, 일 실시예에 따라 발화구간 매칭모듈이 녹음파일과 인증통과 파일 상호간 발화구간을 매칭하는 과정을 보여주는 예시도이며, 도 7 내지 도 9는, 일 실시예에 따라 특징맵 추출모듈이 이미지 파일에서 특징맵을 추출하는데 이용하는 컨볼루션 신경망(Convolution Neural Network, CNN)을 설명하는 예시도이다.

도 4를 참고하면, 녹음파일 구별부(130)는 발화구간 매칭모듈(131), 특징맵 추출모듈(133), 그리고 특징맵 매칭모듈(135)를 포함할 수 있다.

예를 들어, 도 3을 참고하면, 등록 사용자(H)가 임의의 시점에 발화하여 화자인증을 요청할 때, 인증요청된 음성파일(A1)이 최종 승인되는 경우 데이터베이스(DB, 150)에 기인증된 파일(A1")로 저장된다. 이때 제3자가 등록 사용자(H)의 목소리를 무단으로 녹음하여 녹음파일을 취득할 수 있다. 이후, 제3자가 녹음파일을 재생시켜 인증을 요청하는 경우, 화자인증장치(100)는 녹음파일의 재생되는 목소리를 인증요청된 음성파일(B)로 화자인증을 수행하게 된다.

발화구간 매칭모듈(131)은, 인증요청된 음성파일(B)의 이미지 파일과 기인증된 파일(153, A1")의 이미지 파일의 상호 간 발화구간을 매칭시켜 이미지 매칭을 준비한다.

도 3 및 도 5를 참고하면, 도 5(a)는 기인증된 파일(A1")에 대한 이미지 파일이고, 도 5(b)는 인증요청된 음성파일(B)에 대한 이미지 파일에 대한 일 예시이다. 여기서, 화자인증장치(100)가 등록 사용자(H)의 목소리를 취득하는 시점(P1)과 제3자가 등록 사용자(H)의 목소리를 녹음하는 시점(P11)이 다를 경우, 양자는 동일 사용자(H)의 같은 시간 발화된 목소리를 취득한 것이나 취득시간에 따라서 전혀 다른 이미지 파일로 보일 수 있다. 따라서, 발화구간 매칭모듈(131)은, 비교할 이미지 파일들의 발화구간을 상호 매칭시켜 이미지 매칭을 준비한다.

도 5 및 도 6을 참고하면, 발화구간 매칭모듈(131)이 도 5(a)에 도시된 기인증된 파일(A1")에 대한 이미지 파일을 이동시켜 도 5(b)에 도시된 인증요청된 음성파일(B)에 대한 이미지 파일과 발화구간을 매칭시킨 일 예시를 보여준다. 일 실시예에 따라, 발화구간 매칭모듈(131)은 인증요청된 음성파일(B)의 이미지 파일 및 기인증된 파일(A1")에 대한 이미지 파일 중 하나를 이동시키면서 RGB 차이를 비교하여 다른 하나와 발화구간을 매칭시킬 수 있다.

도 7은 컨볼루션 신경망(CNN) 기반의 딥러닝 시스템의 일 예시를 보여주는 도면이고, 도 8은 도 7의 컨볼루션 레이어(convolution layer)를 설명하는 예시도이고, 도 9는 도 7의 풀링 레이어(pooling layer, subsampling)를 설명하는 예시도이다.

특징맵 추출모듈(133)은, 인증요청된 음성파일(B)의 이미지 파일 및 기인증된 파일(A1")의 이미지 파일을 컨볼루션 신경망(Convolution Neural Network, CNN)에 적용하여 특징맵을 추출할 수 있다.

도 7을 참고하면, 일반적인 컨볼루션 신경망(CNN)은 컨볼루션 레이어(convolution layer, 71), 풀링 레이어(pooling layer, 73), 완전연결 레이어(fully-connected layer, 75)를 포함할 수 있다. 본 발명의 특징맵 추출모듈(133)은, 일 실시예에 따라, 비교할 이미지 파일들을 컨볼루션 신경망(CNN)의 입력 이미지(input)로 하여 컨볼루션 레이어(71), 풀링 레이어(73)를 통해 특징맵을 각각 추출하고, 추출한 특징맵을 완전연결 레이어(75) 이용하지 않고 특징맵 매칭모듈(135)로 전달할 수 있다. 이는, 발화구간 매칭모듈(131)이 비교할 이미지 파일들에 대해 발화구간 매칭을 완료하였기 때문에, 특징맵 매칭모듈(135)에서 특징맵들의 매칭만으로 완전연결 레이어(75)를 이용한 것과 동일한 결과를 얻을 수 있다. 따라서, 이 경우 계산량을 줄이면서도 동시에 동일한 결과도출이 가능하다.

도 8을 참고하면, 특징맵 추출모듈(133)은, 인증요청된 음성파일(B)의 이미지 파일 또는 기인증된 파일(A1")의 이미지 파일에 커널(kernel, 필터)을 사용하여 특징맵(feature map)를 추출할 수 있다. 도 8에 도시된 커널(kernel)은 3 X 3 매트릭스(matrix)로 구현되고 있으나 이에 한정되는 것은 아니며 다양한 크기의 커널(kernel)이 사용될 수 있다.

도 9를 참고하면, 특징맵 추출모듈(133)은, 추출된 특징맵(feature map)의 매트릭스(matrix)를 줄이기 위해 서브 샘플링(subsampling) 또는 풀링(pooling)을 수행할 수 있다. 2 X 2 매트릭스를 사용하여 서브 샘플링을 수행하는 경우, 전체 특징맵의 매트릭스는 1/4로 줄어들게 되며, 이때 특징맵 추출모듈(133)은, 2 X 2 매트릭스(matrix)에서 최대값(max pooling) 또는 평균값(average pooling) 추출하는 방법으로 특징맵의 매트릭스를 줄일 수 있다. 일 실시예에 따라, 특징맵 추출모듈(133)은, 풀링 레이어(73)를 통과하여 추출된 특징맵을 특징맵 매칭모듈(135)로 전달할 수 있다.

특징맵 매칭모듈(135)은, 인증요청된 음성파일(B)의 이미지 파일 및 기인증된 파일(A1")의 이미지 파일에서 추출된 특징맵들을 서로 매칭시켜 유사도를 측정한다. 일 실시예에 따라, 특징맵 매칭모듈(135)은, 추출된 특징맵들을 코사인 유사도(cosine similarity)를 이용하여 인증요청된 음성파일(B)의 이미지 파일 및 기인증된 파일(A1")의 이미지 파일 상호 간 유사도를 측정할 수 있다.

도 10을 참고하면, 특징맵 매칭모듈(135)은, 추출된 특징맵들에 코사인 유사도(cosine similarity) 공식, 하기 식(1)을 적용하여 유사도를 연산할 수 있다.

[식 1]

여기서, 코사인 유사도 공식은 인증요청된 음성파일(B)의 이미지 파일에서 추출된 특징맵(P)과 기인증된 파일(A1")의 이미지 파일에서 추출된 특징맵(P)의 유사도(similarity)를 측정하는 공식으로, 일 실시예에 따라, 특징맵 매칭모듈(135)은, 두 벡터 사이의 각에 대한 코사인(cosine) 값으로 유사도를 측정할 수 있다.

도 10(a)는 추출된 특징맵(P)에 완전연결 레이어(75, fully connect network)를 적용하는 예시를 보여주고, 도 10(b)는, 일 실시예에 따라 특징맵 매칭모듈(135)이 추출된 특징맵(P)에 코사인 유사도 공식, 상기 식(1)을 적용하는 예시를 보여준다. 양자를 비교하면, 도 10(a)와 같은 완전연결 레이어(75, fully connect network)는 복수의 특징맵(P) 상호 간 하나의 선이 곱셈과 덧셈의 복잡한 연산과정을 요구하나, 도 10(b)와 같은 코사인 유사도(similarity)의 경우 특징맵(P) 상호 간 1:1 연결이기 때문에 계산량을 줄여 연산속도를 향상시킬 수 있다.

도 11은 다른 실시예에 따라 화자인증방법을 설명하는 흐름도이고, 도 12는 도 11의 녹음파일 구별단계를 상세하게 설명하는 흐름도이다.

도 11을 참고하면, 화자인증방법은, 사용자 등록단계(S100), 화자 인증단계(S200), 녹음파일 구별단계(S300), 최종 승인단계(S400), 불인정 단계(S500)를 포함할 수 있다.

단계 S100에서, 화자인증장치(100)는, 화자인증 서비스를 이용하려는 사용자가 신청시 발화한 목소리를 녹음하고, 녹음된 음성파일을 등록파일 항목으로 데이터베이스(DB, 150)에 저장하여 사용자 등록을 수행할 수 있다. 일 실시예에 따라, 등록된 사용자의 목소리에 한해 화자인증 서비스를 제공할 수 있으며, 여기서, 화자인증 서비스는 목소리의 정보로 개인 신분을 확인해주는 서비스이다. 이후, 화자인증 요청이 있는 경우, 화자인증장치(100)는, 인증요청된 음성파일이 데이터베이스(DB, 150)에 저장된 등록파일과 매칭되는 경우에만 인증하여 화자인증 서비스를 제공한다.

단계 S200에서, 화자인증장치(100)는, 인증요청된 음성파일을 데이터베이스(DB, 150)에 저장된 등록파일과 목소리특성을 비교하여 화자인증을 수행할 수 있다. 목소리특성은, 화성, 공명주파수, 억양, 발성속도, 발음습관 등 사람의 목소리가 갖는 개개인의 고유한 특성으로 정의한다. 따라서, 발화시점이 다르더라도 동일 사용자의 목소리는 유사한 목소리특성을 나타내므로, 화자인증장치(100)는, 인증요청된 음성파일과 데이터베이스(DB, 150)에 저장된 등록파일의 목소리특성이 동일 또는 유사한 경우 화자가 동일하다고 판단할 수 있다.

비교결과 인증요청된 음성파일과 기저장된 등록파일이 일치하지 않는 경우(S200, No), 화자인증장치(100)는 인증요청된 음성파일에 대해 불인정 결정을 할 수 있다(S500). 만약, 일치하는 경우(S200, Yes), 화자인증장치(100)는 인증요청된 음성파일이 실제 목소리인지 녹음된 음성파일이 재생된 것인지를 판단하기 위해 추가로 녹음파일 구별단계(S300)를 수행한다.

동일한 사용자의 목소리는 언제 측정하더라도 개개의 고유한 특성(ex, 화성, 공명주파수, 억양, 발성속도, 발음습관 등)은 동일하게 추출될 수 있으므로 만약 무단으로 제3자가 등록 사용자의 목소리를 녹음한 녹음파일로 화자인증을 요청하는 경우, 화자 인증단계(S200)는 통과할 수 있을 것이다. 그러나, 목소리의 크기, 파형은 상황에 따라 다르기 때문에 동일 사용자의 목소리라도 다른 시점에 발화된 목소리는 대응하는 이미지 파일이 상호 정확하게 매칭되긴 어렵다. 따라서, 목소리에 대응하는 이미지 파일이 상호 극히 유사하게 매칭되는 경우, 동일 시점에 발화된 목소리로 추정되며, 결국, 무단으로 녹음된 음성파일이라는 반증으로 볼 수 있다.

단계 S300에서, 화자인증장치(100)는, 인증요청된 음성파일을 데이터베이스(DB, 150)에 저장된 적어도 하나 이상의 기인증된 파일과 매칭시켜 일치 여부를 비교하여 인증요청된 음성파일이 위법한 녹음파일에 해당하는지를 판단할 수 있다.

일 실시예에 따라, 화자인증장치(100)는, 화자 인증단계를 통과(S200, Yes)한 음성파일에 대해서만 녹음파일 해당 여부를 판단하고, 데이터베이스(DB, 150)에 기인증된 파일이 복수 개 있는 경우 인증요청된 음성파일을 복수의 기인증된 파일 모두와 매칭시켜 일치 여부를 비교할 수 있다.

데이터베이스(DB, 150)에 저장된 기인증된 파일들은 이미 화자인증을 통과하였던 음성파일에 해당하고, 기인증된 파일과 현재 인증요청된 음성파일의 이미지 매칭 수행결과 상호 극히 유사하게 매칭되는 경우, 동일 시점에 발화된 목소리로 종전 인증과정에서 무단으로 녹음된 음성파일로 판단될 수 있다. 따라서, 데이터베이스(DB, 150)에 저장된 복수의 기인증된 파일들 중 적어도 하나와 이미지 매칭되는 경우 무단 녹음파일로 볼 수 있다.

도 12를 참고하면, 녹음파일 구별단계(S300)는, 발화구간 매칭단계(S310), 특징맵 추출단계(S330), 그리고 특징맵 매칭단계(S350)를 포함할 수 있다.

단계 S310에서, 화자인증장치(100)는, 음성파일의 이미지 파일과 기인증된 파일의 이미지 파일의 상호 간 발화구간을 매칭시켜 이미지 매칭을 준비한다. 도 3을 참고하면, 등록 사용자(H)가 임의의 시점에 발화하여 화자인증을 요청할 때, 인증요청된 음성파일(A1)이 최종 승인되는 경우 데이터베이스(DB, 150)에 기인증된 파일(A1")로 저장되고, 이때 제3자가 등록 사용자(H)의 목소리를 무단으로 녹음하여 녹음파일을 취득할 수 있다. 이후, 제3자가 녹음파일로 인증을 요청하는 경우, 화자인증장치(100)는 녹음파일의 재생으로 생성된 음성파일을 인증요청된 음성파일(B)로 취급하고 화자인증을 수행한다.

도 3 및 도 5를 참고하면, 화자인증장치(100)가 등록 사용자(H)의 목소리를 취득하는 시점(P1)과 제3자가 등록 사용자(H)의 목소리를 녹음하는 시점(P11)이 다를 경우, 양자는 동일 사용자(H)의 같은 시간 발화된 목소리를 취득한 것이나 취득시간에 따라서 전혀 다른 이미지 파일로 보일 수 있다. 따라서, 발화구간 매칭모듈(131)은, 비교할 이미지 파일들의 발화구간을 상호 매칭시켜 이미지 매칭을 준비한다.

도 5 및 도 6을 참고하면, 화자인증장치(100)는 인증요청된 음성파일(B)의 이미지 파일 및 기인증된 파일(A1")에 대한 이미지 파일 중 하나를 이동시키면서 RGB 차이를 비교하여 다른 하나와 발화구간을 매칭시킬 수 있다.

단계 S330에서, 화자인증장치(100)는, 음성파일의 이미지 파일과 기인증된 파일의 이미지 파일에서 특징맵을 추출할 수 있다. 일 실시예에 따라, 화자인증장치(100)는, 인증요청된 음성파일(B)의 이미지 파일 및 기인증된 파일(A1")의 이미지 파일에 컨볼루션 신경망(Convolution Neural Network, CNN)을 적용하여 특징맵을 추출할 수 있다.

도 7을 참고하면, 컨볼루션 신경망(CNN)은 컨볼루션 레이어(convolution layer, 71), 풀링 레이어(pooling layer, 73), 완전연결 레이어(fully-connected layer, 75)를 포함할 수 있다. 일 실시예에 따라, 화자인증장치(100)는, 비교할 이미지 파일들을 컨볼루션 신경망(CNN)의 입력 이미지(input)로 하여 컨볼루션 레이어(71), 풀링 레이어(73)를 통해 특징맵을 각각 추출하고, 추출한 특징맵들의 매칭만으로 완전연결 레이어(75)를 이용한 것과 동일한 결과를 얻을 수 있다. 따라서, 이 경우 계산량을 줄여 연산속도를 향상시킴과 동시에 동일한 결과도출이 가능하다.

도 8을 참고하면, 화자인증장치(100)는, 인증요청된 음성파일(B)의 이미지 파일 또는 기인증된 파일(A1")의 이미지 파일에 커널(kernel, 필터)을 사용하여 특징맵(feature map)를 추출할 수 있다. 도 8에 도시된 커널(kernel)은 3 X 3 매트릭스(matrix)로 구현되고 있으나 이에 한정되는 것은 아니며 다양한 크기의 커널(kernel)이 사용될 수 있다.

도 9를 참고하면, 화자인증장치(100)는, 추출된 특징맵(feature map)의 매트릭스(matrix)를 줄이기 위해 서브 샘플링(subsampling) 또는 풀링(pooling)을 수행할 수 있다. 2 X 2 매트릭스를 사용하여 서브 샘플링을 수행하는 경우, 전체 특징맵의 매트릭스는 1/4로 줄어들게 되며, 이때 화자인증장치(100)는, 2 X 2 매트릭스(matrix)에서 최대값(max pooling) 또는 평균값(average pooling) 추출하는 방법으로 특징맵의 매트릭스를 줄일 수 있다.

단계 S350에서, 화자인증장치(100)는, 인증요청된 음성파일의 이미지 파일 및 기인증된 파일의 이미지 파일에서 추출된 특징맵들을 서로 매칭시켜 유사도를 측정한다. 일 실시예에 따라, 화자인증장치(100)는, 추출된 특징맵들을 코사인 유사도(cosine similarity)를 이용하여 인증요청된 음성파일의 이미지 파일 및 기인증된 파일의 이미지 파일 상호 간 유사도를 측정할 수 있다.

도 10을 참고하면, 화자인증장치(100)는, 추출된 특징맵(P)에 코사인 유사도 공식, 즉 상기 식(1)을 적용하여 유사도를 연산할 수 있다. 여기서, 코사인 유사도 공식은 인증요청된 음성파일(B)의 이미지 파일에서 추출된 특징맵와 기인증된 파일(A1")의 이미지 파일에서 추출된 특징맵의 유사도(similarity)를 측정하는 공식으로, 일 실시예에 따라, 특징맵 매칭모듈(135)은, 두 벡터 사이의 각에 대한 코사인(cosine) 값으로 유사도를 측정할 수 있다.

만약, 데이터베이스(DB, 150)에 저장된 기인증된 파일 중 적어도 하나와 일치하는 경우(S300, Yes), 화자인증장치(100)는 인증요청된 음성파일에 대해 불인정 결정을 할 수 있다(S500). 인증요청된 음성파일이 데이터베이스(DB, 150)에 저장된 기인증된 파일 모두와 일치하지 않는 경우(S300, No), 화자인증장치(100)는, 최종 승인단계(S400)를 수행한다.

단계 S400에서, 화자인증장치(100)는, 인증요청된 음성파일에 대해 최종 화자인증을 승인할 수 있다. 이와 동시에, 화자인증장치(100)는, 최종 승인된 음성파일을 기인증된 파일 항목으로 데이터베이스(DB, 150)에 저장한다.

본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 안 된다. 또한, 본 명세서에서 개별적인 실시예에서 설명된 특징들은 단일 실시예에서 결합되어 구현될 수 있다. 반대로, 본 명세서에서 단일 실시예에서 설명된 다양한 특징들은 개별적으로 다양한 실시예에서 구현되거나, 적절히 결합되어 구현될 수 있다.

도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로, 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시예에서 다양한 시스템 구성요소의 구분은 모든 실시예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

100: 화자인증장치 110: 화자 인증부
130: 녹음파일 구별부 131: 발화구간 매칭모듈 133: 특징맵 추출모듈 135: 특징맵 매칭모듈
150: 데이터베이스(DB)

Claims

녹음파일 재생에 의한 화자인증요청을 필터링하는 화자인증장치에 있어서,
인증요청된 음성파일을 기저장된 등록파일과 일치 여부를 비교하여 화자인증을 수행하는 화자 인증부; 및
상기 인증요청된 음성파일을 적어도 하나 이상의 기인증된 파일과 매칭시켜 일치 여부를 비교하여 상기 음성파일이 녹음파일에 해당하는지를 판단하는 녹음파일 구별부;
를 포함하는 것을 특징으로 하는 장치.
제1항에 있어서,
상기 녹음파일 구별부는,
상기 화자 인증부의 인증을 통과한 음성파일에 대해서 녹음파일 해당 여부를 판단하고, 상기 음성파일이 복수의 기인증된 파일 모두와 일치하지 않는 경우 최종 화자인증을 승인하는 것을 특징으로 하는 장치.
제2항에 있어서,
화자인증 서비스를 이용하려는 사용자가 등록과정에서 발화한 음성파일을 등록파일 항목에 저장하고, 화자인증 요청과정에서 요청자로부터 수집된 음성파일로서 상기 녹음파일 구별부에 의해 화자인증이 최종 승인되면 최종 승인된 음성파일을 기인증된 파일 항목에 저장하는 데이터베이스;
를 추가로 포함하는 것을 특징으로 하는 장치.
제3항에 있어서,
상기 녹음파일 구별부는,
상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 상호 발화구간을 매칭시키는 발화구간 매칭모듈;
상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일에서 특징맵을 추출하는 특징맵 추출모듈; 및
상기 추출된 특징맵들을 매칭시켜 유사도를 측정하는 특징맵 매칭모듈;을 포함하는 것을 특징으로 하는 장치.
제4항에 있어서,
상기 발화구간 매칭모듈은,
상기 음성파일의 이미지 파일 및 상기 기인증된 파일의 이미지 파일 중 하나를 이동시키면서 RGB 차이를 비교하여 상기 이미지 파일 중 다른 하나와 발화구간을 매칭시키는 것을 특징으로 하는 장치.
제4항에 있어서,
상기 특징맵 추출모듈은,
상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 각각에 컨볼루션 신경망(Convolution Neural Network)을 적용하여 특징맵을 추출하는 것을 특징으로 하는 장치.
제4항에 있어서,
상기 특징맵 매칭모듈은,
상기 추출된 특징맵들을 코사인 유사도를 이용하여 유사도를 측정하는 것을 특징으로 하는 장치.
녹음파일 재생에 의한 화자인증요청을 필터링하는 화자인증방법에 있어서,
인증요청된 음성파일을 기저장된 등록파일과 일치 여부를 비교하여 화자인증을 수행하는 화자 인증단계; 및
상기 인증요청된 음성파일을 적어도 하나 이상의 기인증된 파일과 매칭시켜 일치 여부를 비교하여 상기 음성파일이 녹음파일에 해당하는지를 판단하는 녹음파일 구별단계;
를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,
상기 녹음파일 구별단계는,
상기 화자 인증단계를 통과한 음성파일에 대해서 녹음파일 해당 여부를 판단하고, 기인증된 파일이 복수 개 있는 경우 상기 음성파일을 복수의 기인증된 파일 모두와 매칭시켜 일치 여부를 비교하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 화자 인증단계 이전에,
화자인증 서비스를 이용하려는 사용자의 발화로 생성한 음성파일을 등록파일 항목으로 데이터베이스에 저장하여 사용자를 등록하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제10항에 있어서,
상기 음성파일이 복수의 기인증된 파일 모두와 일치하지 않는 경우 최종 화자인증을 승인하는 단계;를 포함하고
상기 최종화자 승인단계는,
최종 승인된 음성파일을 기인증된 파일 항목으로 상기 데이터베이스에 저장하는 것을 특징으로 하는 방법.
제11항에 있어서,
상기 녹음파일 구별단계는,
상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 상호 발화구간을 매칭시키는 발화구간 매칭단계;
상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일에서 특징맵을 추출하는 특징맵 추출단계; 및
상기 추출된 특징맵들을 매칭시켜 유사도를 측정하는 특징맵 매칭단계;를 포함하는 것을 특징으로 하는 방법.
제12항에 있어서,
상기 발화구간 매칭단계는,
상기 음성파일의 이미지 파일 및 상기 기인증된 파일의 이미지 파일 중 하나를 이동시키면서 RGB 차이를 비교하여 다른 하나와 발화구간을 매칭시키는 것을 특징으로 하는 방법.
제12항에 있어서,
상기 특징맵 추출단계는,
상기 음성파일의 이미지 파일과 상기 기인증된 파일의 이미지 파일 각각에 컨볼루션 신경망(Convolution Neural Network)을 적용하여 특징맵을 추출하는 것을 특징으로 하는 방법.
제12항에 있어서,
상기 특징맵 매칭단계는,
상기 추출된 특징맵들을 코사인 유사도를 이용하여 유사도를 측정하는 것을 특징으로 하는 방법.