KR101963993B1

KR101963993B1 - 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법

Info

Publication number: KR101963993B1
Application number: KR1020177021342A
Authority: KR
Inventors: 팡 젱; 시아오준 우; 란티안 리; 강 왕; 시아오강 왕; 러 리우
Original assignee: 베이징 디-이어 테크놀로지스 씨오., 엘티디.
Priority date: 2015-02-05
Filing date: 2015-07-08
Publication date: 2019-03-29
Also published as: JP2018509649A; JP6502512B2; EP3255631A4; WO2016123900A1; US20170365259A1; EP3255631A1; US10540980B2; EP3255631B1; CN104616655A; KR20170105034A; CN104616655B

Abstract

본 발명은 시간 태그 별로 각 사용자의 음성 데이터를 저장하는 시변 데이터 저장 유닛; 최신 음성 데이터를 시변 데이터 저장 유닛에 저장하는 시변 데이터 업데이트 모듈(23); 시간 태그의 순서에 따라 시변 데이터 저장 유닛 중에서 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축 및 업데이트하는 시간창 파이프 구축 모듈(24); 및 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 음성 데이터를 사용하여 사용자 성문 모델을 재구축하는 성문 모델 재구축 모듈(25); 을 포함하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법에 관한것이다.

Description

동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법

본 발명은 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법에 관한 것으로, 컴퓨터 및 정보 서비스 기술분야에 속한다.

화자 인식 기술은 성문 인식 기술이라고도 칭한다. 화자 인식 기술은 주로 음성 중에 포함된 화자 개인의 특징을 나타낼 수 있는 정보에 기반하며, 컴퓨터 및 다양한 정보 인식 기술을 이용하여, 자동으로 화자 신분 인증을 실시한다.

근년에, 인터넷의 급속한 발전 및 이동 단말기기의 광범위한 보급에 따라, 빠르고 편리한 이동 네트워크 서비스는 사람들의 생활 방식에 깊은 영향과 변화를 가져다 주고 있다. 안전하고 신뢰성이 있게 이동 네트워크 서비스를 제공하기 위하여, 우선 해결해야 할 과제는 사용자 신분 인증을 어떻게 실시하는가 이다.

화자 인식 시스템을 사용자 신분 인증에 적용시키는데 관한 연구는 이미 수년간 진행되어 왔다. 성문 모델은 일련의 음성 중에 포함된 화자 신분을 유일하게 나타낼 수 있는 특징파라미터를 통해 모델링된 것이다. 도15에 전형적인 화자 인식 시스템의 프레임워크를 도시하였다.

음성은 비접촉식 정보매개체의 일종으로서, 사람들은 다양한 이동 단말기기(예를 들어 휴대폰 마이크, IP전화 등)를 통해 언제 어디서나 음성을 채취한다. 음성 중의 성문 정보에 근거하여, 네트워크 전송 및 백그라운드 서버 응답을 통해 인간-컴퓨터 상호 작용 및 신분 인식을 구현한다. 따라서, 근년에 화자 인식 기술은 급속한 발전을 이루었으며, 실제 환경에서 널리 응용되고 있다.

종래의 생체 인식 기술은 통상적으로 모드 인식 분야 중의 템플릿 매칭 방법을 통해 인식 및 인증을 실시한다. 즉 사용자가 미리 남긴 모델과 실제 인증 대상 모델을 비교하여, 양자의 유사도가 미리 설정한 역치에 도달할 경우 인증에 성공하고, 도달하지 못할 경우 인증에 실패한다.

상기한 바와 같은 단일 모델 매칭 방식에는, 아래와 같은 두가지 기술적 문제점이 존재한다.

(1) 화자 인식 기술에 대하여, 사용자가 제공한 트레이닝 음성과 테스트 음성의 텍스트가 유일하고 고정불변하면 인식 효율은 높지만, 이 경우, 사용자의 음성이 절취, 도용될 시, 시스템의 안전성이 낮아지며, 반대로, 사용자가 제공한 테스트 음성의 텍스트가 고정불변하지 않으면, 시스템의 안전성은 향상되나, 이 경우, 트레이닝 음성과 텍스트 다변 음성 사이에 텍스트 음소 공간의 차이성이 존재하므로, 시스템의 인식 성능이 대폭 저하되어, 시스템의 응용 및 확장에 불리하다.

(2) 시간의 경과에 따라, 인간의 사운드채널 모델과 발음 특성, 녹음기기의 정확성과 충실도가 변화하게 된다. 생리학 각도로부터 볼 때, 인간의 생리적 특성과 발음 특성은 시간의 추이에 따라 부단히 변화한다. 예를 들어, 사운드채널 길이, 기본 주파수 등이 시간의 추이에 따라 부단히 변화한다. 이외에도, 사용 시간이 길어짐에 따라, 녹음을 위한 통신기기, 이동단말에도 기기 노화, 신호 불안정 등 현상이 발생하며, 이 또한 녹음의 정확성과 충실도에 일정한 영향을 준다. 상술한 정황들을 종합하면, 이러한 시간의 변화로 인해 초래되는 불확정성은 우리들이 안정적이고 로버스트(robust)한 성문 모델을 얻기 어렵게 한다. 명확한 점으로, 시스템의 인식 정확률 역시 시간의 추이에 따라 부단히 낮아진다.

본 발명은 상술한 기술적 문제점들에 대응하여 안출된 것으로, 상술한 기술적 문제점들을 효과적으로 해결하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법을 제공하는 것을 목적으로 한다.

본 발명은, 요청자에 의해 사용자단말을 통해 서버로 송신된 신분 인증 요청을 수신하는 요청 수신 모듈; 동적 패스워드를 생성하고, 이 동적 패스워드를 상기 사용자단말에 송신하는 동적 패스워드 생성 모듈; 상기 사용자단말로부터 송신된 상기 요청자에 의해 상기 동적 패스워드를 음독 시의 패스워드 음성 신호에 근거하여, 전역 문자 음향 모델과 사용자 성문 모델을 통해 상기 요청자의 신분 종합 신뢰도를 산출하고, 산출해낸 상기 신분 종합 신뢰도에 근거하여 상기 요청자의 신분을 판단하고, 신분 인증 결과를 상기 사용자단말에 피드백하는 신분 인증 모듈; 을 포함하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템에 있어서, 신분 인증 결과 해당 요청자가 상기 서버의 사용자 인 경우, 상기 사용자 성문 모델을 재구축하는 성문 모델 자동 재구축 서브시스템을 구비하며, 상기 성문 모델 자동 재구축 서브시스템은, 시간 태그 별로 각 사용자의 음성 데이터를 저장하는 시변 데이터 저장 유닛; 상기 패스워드 음성 신호를 최신 음성 데이터로서 상기 시변 데이터 저장 유닛에 저장하는 시변 데이터 업데이트 모듈; 시간 태그의 순서에 따라 상기 시변 데이터 저장 유닛 에서 상기 사용자의 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 음성 데이터를 사용하여 이 시간창 파이프에 포함된 음성 데이터를 업데이트하는 시간창 파이프 구축 모듈; 및 업데이트 후의 상기 시간창 파이프에 포함된 상기 복수 그룹의 음성 데이터를 사용하여 해당 사용자의 사용자 성문 모델을 재구축하는 성문 모델 재구축 모듈; 을 포함하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템을 제공한다.

또한, 본 발명은, 요청자에 의해 사용자단말을 통해 서버로 송신된 신분 인증 요청을 수신하는 요청 수신 단계; 동적 패스워드를 생성하고, 이 동적 패스워드를 상기 사용자단말에 송신하는 동적 패스워드 생성 단계; 상기 사용자단말로부터 송신된 이 요청자가 상기 동적 패스워드를 음독 시의 패스워드 음성 신호에 근거하여, 전역 문자 음향 모델과 사용자 성문 모델을 통해, 이 요청자의 신분 종합 신뢰도를 산출하고, 산출해낸 상기 신분 종합 신뢰도에 근거하여, 이 요청자의 신분을 판단하고, 신분 인증 결과를 상기 사용자단말에 피드백하는 신분 인증 단계; 를 포함하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법에 있어서, 신분 인증 결과 해당 요청자가 상기 서버의 사용자 인 경우, 상기 패스워드 음성 신호를 최신 음성 데이터로서 상기 시변 데이터 저장 유닛에 저장하되, 상기 시변 데이터 저장 유닛에 시간 태그 별로 각 사용자의 음성 데이터를 저장하는 시변 데이터 저장 단계; 시간 태그의 순서에 따라 상기 시변 데이터 저장 유닛 중에서 상기 사용자의 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 음성 데이터를 사용하여 상기 시간창 파이프에 포함된 음성 데이터를 업데이트하는 시간창 파이프 구축 단계; 업데이트 후의 상기 시간창 파이프에 포함된 상기 복수 그룹의 음성 데이터를 사용하여 해당 사용자의 사용자 성문 모델을 재구축하는 모델 재구축 단계; 를 더 실행하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법을 제공한다.

본 발명에 의하면, 안전하고 신뢰성이 있는 이중 신분 인증 시스템 및 방법을 제공할 수 있고, 신분 인증의 정확성을 효과적으로 향상시킬 수 있으며, 자체 학습 기능을 구비한다.

도1은 제1실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템의 도면이다.
도2는 동적 패스워드의 생성 처리에 대해 설명하기 위한 도면이다.
도3은 동적 패스워드 음성에 기반한 신분 인증 처리를 실시하는 과정을 나타내는 흐름도이다.
도4는 시간창 관리 모델의 도면이다.
도5는 시간창 관리 모델의 일 응용예를 나타내는 도면이다.
도6은 제1실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법의 흐름도이다.
도7은 제2실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템의 도면이다.
도8은 제2실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법의 흐름도이다.
도9는 제3실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템의 도면이다.
도10은 수학적 모델의 공간 분포의 도면이다.
도11은 제3실시예에 따른 시변 데이터 저장 유닛의 저장 아키텍처의 도면이다.
도12는 제3실시예 중 시간창 파이프를 업데이트하는 처리 과정을 나타내는 흐름도이다.
도13은 제3실시예 중 시간창 파이프를 업데이트 처리하는 도면이다.
도14는 음성 데이터의 파라미터화 처리의 일 예의 도면이다.
도15는 전형적인 화자 인식 시스템의 도면이다.

이하에서는, 첨부 도면을 참조하여, 본 발명의 구체적인 실시방식에 대해 설명하기로 한다.

[제1실시예]

도1은 제1실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템(1, 이하 "신분 인증 시스템"으로 약칭)의 도면이다. 신분 인증 시스템(1)은 요청 수신 모듈(11), 사용자 성문 모델 생성 모듈(12), 동적 패스워드 생성 모듈(13), 신분 인증 모듈(14) 및 성문 모델 저장 유닛(15)을 포함하고, 성문 모델 자동 재구축 서브시스템(20)을 구비한다.

요청 수신 모듈(11)은 요청자에 의해 사용자단말(2)을 통해 서버에 송신한 신분 인증 요청을 수신하기 위한 것이다. 요청 수신 모듈(11)을 통해 요청자와 신분 인증 시스템(1) 사이의 상호 작용을 구현하여, 신분 인증 시스템(1)이 요청자가 송신한 신분 인증 요청에 응답할 수 있도록 하며, 후속되는 처리를 위한 기초를 마련한다. 요청자와 신분 인증 시스템(1) 사이의 상호 작용은 로컬 또는 원격 서비스에서 사용될 수 있다. 사용자단말(2)은 유선 또는 무선의 방식으로 신분 인증 시스템(1)과 연결될 수 있다. 실제 응용 시, 예를 들어, 사용자는 미리 사용자단말(2)에 사용자 명, 로그인 패스워드 등 정보를 입력하여, 로그인 또는 등록을 완성한다. 사용자가 로그인 성공 후, 신분 인증 시스템(1)과 상호 작용을 하여, 성문 등록 또는 성문 신분 인증을 실시할 수 있다.

사용자가 처음으로 로그인 시, 신분 인증 시스템(1)은 사용자가 사용자 성문 모델을 구축하기 위한 모델링 음성을 미리 남기도록 요구한다. 바람직하게는, 사용자에게 모델링 음성을 미리 남기도록 요구할 시, 신분 인증 시스템(1)은 규정 문자 그룹을 사용자단말(2)에 송신하고, 사용자가 상기 규정 문자 그룹에 포함된 모든 문자들을 음독하며, 이때, 사용자단말(2)은 사용자의 음성을 취득하고, 취득한 음성 즉 사용자가 미리 남긴 모델링 음성을 신분 인증 시스템(1)으로 송신한다. 사용자 성문 모델 생성 모듈(12)은 수신된 사용자가 미리 남긴 모델링 음성에 근거하여 해당 사용자의 사용자 성문 모델을 생성하고, 해당 사용자의 사용자 성문 모델을 성문 모델 저장 유닛(15)에 저장한다. 사용자 성문 모델 생성 모듈(12)은 사용자가 미리 남긴 모델링 음성에 근거하여, 자체 적응 방식으로 전역 문자 음향 모델을 통해 상기 사용자의 성문 모델을 트레이닝한다.

상기 전역 문자 음향 모델은 몇몇 사람이 상기 규정 문자 그룹 중의 각 문자에 대한 문자 발음에 기반하여, 예를 들어 가우시안 혼합 모델(GMM, Gaussian Mixture Model), 서포트 벡터 머신(SVM, Support Vector Machine), 인공 신경 회로망(ANN, Artificial Neural Network) 등 방법을 적용하여 자체 적응 트레이닝을 통해 획득한 것이다. 상기 자체 적응은, 예를 들어 최대 우도 직선회귀(MLLR) 알고리즘 또는 최대 사후 확률(MAP) 알고리즘을 통해 구현된다.

바람직하게는, 상기 규정 문자 그룹 중에 포함된 문자 음소가 문자에 기반한 음소 공간 중에 균형되게 분포하도록 하는 바, 이로써 사용자 성문 모델의 정확성을 효과적으로 향상시킬 수 있다.

성문 모델 저장 유닛(15)은 각 사용자의 사용자 성문 모델을 저장하기 위한 것이다. 성문 모델 저장 유닛(15)에, 사용자(사용자 ID)와 사용자 성문 모델이 서로 관련되도록, 각 사용자의 사용자 성문 모델을 저장한다. 성문 모델 유닛(15)은 예를 들어 데이터 베이스이지만, 데이터 베이스에 한정되지 않는 바, 사용자와 사용자 성문 모델이 서로 관련되도록 각 사용자의 사용자 성문 모델을 저장할 수 있기만 하면 되며, 기타 데이터 저장 형태일수도 있다.

요청자에 의해 사용자단말(2)을 통해 송신한 신분 인증 요청을 요청 수신 모듈(11)이 수신한 후, 동적 패스워드 생성 모듈(13)이 동적 패스워드를 생성하고, 이 동적 패스워드를 해당 사용자단말(2)에 송신한다. 동적 패스워드의 생성은 공지의 패스워드 생성기술을 적용하여 구현할 수 있다.

예를 들어, 신분 인증 시스템(1)에서 미리 전역 문자 코드북을 설정할 수 있으며, 이 전역 문자 코드북은, 예를 들어 영어 알파벳, 아라비아 숫자 등을 포함한다. 도2에 도시된 바와 같이, 전역 문자 코드북 중에, 문자와 문자 발음이 상호 관련되도록 문자1 내지 문자N의 동적 패스워드 음향 모델을 저장한다. 동적 패스워드를 생성 시, 동적 패스워드 생성 모듈(13)은 이 전역 문자 코드북 중에서 무작위로 패스워드 문자1 내지 문자M(M은 N보다 작거나 같음)을 선택하고, 이 패스워드 문자1 내지 문자M을 이용하여 동적 패스워드를 구성한다. 이 경우, 무작위로 선택된 패스워드 문자1 내지 문자M은 부동한 문자에 한정되지 않는다. 패스워드 문자를 무작위로 선택하므로, 무작위로 선택된 문자1 내지 문자M 중, 동일한 패스워드 문자가 한번 또는 여러번 출현할 수 있다. 예를 들어 "1313"과 같은, 동일한 패스워드 문자가 여러번 출현하는 동적 패스워드를 생성할 수 있고, 예를 들어 "1234"와 같은, 동일한 패스워드 문자가 한번만 출현하는 동적 패스워드를 생성할 수도 있다. 본 발명은 이에 대해 별다른 한정을 하지 않는 바, 동적 패스워드 생성을 위한 패스워드 문자가 무작위로 선택된 것이기만 하면 된다.

동적 패스워드를 생성한 후, 동적 패스워드 생성 모듈(13)은 이 동적 패스워드를 사용자단말(2)에 송신한다. 동적 패스워드 생성 모듈(13)은 텍스트, 이미지, 동영상, 오디오 또는 암호화된 2진법 데이터 등의 형태로 이 동적 패스워드를 사용자단말(2)에 송신한다. 사용자단말(2)은 동적 패스워드를 수신한 후, 사용자단말(2)의 디스플레이 또는 스피커 등 출력기기를 통해 이 동적 패스워드를 표시하거나 재생하고, 요청자는 표시되거나 재생된 이 동적 패스워드를 음독한다. 이때 사용자단말(2)은 요청자가 이 동적 패스워드를 음독 시의 패스워드 음성 신호를 취득하고, 해당 패스워드 음성 신호를 신분 인증 시스템(1)으로 송신한다. 전역 문자 코드북 중에 문자를 저장할 뿐만 아니라, 각 문자와 대응되는 문자 발음도 저장하므로, 본 발명에서는, 텍스트, 이미지, 동영상 등 가시화 방식으로 동적 패스워드를 표현할 수 있는 것 외에, 전역 문자 코드북 중에 저장된 문자 발음에 근거하여, 동적 패스워드 생성 모듈(13)에 의해 동적 패스워드와 대응되는 오디오를 생성하고, 오디오 방식으로 동적 패스워드를 사용자단말(2)에 송신할 수도 있으며, 이때, 사용자단말(2)은 이 오디오를 재생함으로써 수신된 동적 패스워드를 요청자에게 출력할 수 있다.

신분 인증 모듈(14)은 사용자단말(2)에서 송신된 패스워드 음성 신호에 근거하여, 전역 문자 음향 모델 및 사용자 성문 모델을 통해, 신분 종합 신뢰도CL를 산출하고, 산출해낸 신분 종합 신뢰도CL에 근거하여, 해당 요청자의 신분에 대해 판단하고, 신분 인증 결과를 사용자단말(2)에 피드백한다.

본 발명에서 신분 종합 신뢰도CL는, 패스워드 내용 신뢰도 평균치

와 요청자 신분 음성 신뢰도 평균치

를 결합함으로써, 동적 패스워드 내용도 확인할 수 있고 화자 성문도 확인할 수 있는 이중 신분 인증 시스템 및 방법을 제공한다.

신분 인증 모듈(14)은 성문 모델 저장 유닛(15) 중에서 이 사용자의 사용자 성문 모델을 추출해내고, 수신된 패스워드 음성 신호를 n 프레임의 음성 데이터 x_i로 분할한다. 여기서, i=1, 2, …, n이며, n은 1보다 큰 양의 정수이다.

이어서, 각 프레임의 음성 데이터 x_i에 대해, 해당 사용자의 사용자 성문 모델에서 각각 테스트를 실시하며(해당 테스트는 비터비 알고리즘(Viterbi algorithm)을 적용하여 구현할 수 있음), 이로써 패스워드 내용 신뢰도(CL₁(i), i=1, 2, …, n)를 얻는다. 그 다음, 수학식 1)에 따라 모든 프레임의 음성 데이터의 패스워드 내용 신뢰도CL₁(i)에 대해 평균치를 구하여, 패스워드 내용 신뢰도 평균치

를 얻는다. 물론, 공지의 종래 기술을 적용하여 패스워드 내용 신뢰도를 산출할 수도 있으며, 본 발명은 이에 대해 별다른 한정을 하지 않는다.

1)

그리고, 각 프레임의 음성 데이터 x_i에 대해, 수학식 2)에 따라 이 사용자의 사용자 성문 모델과 전역 문자 음향 모델에서 각각 우도 산출을 실시한 후 감함으로써, 요청자 신분 음성 신뢰도(CL₂(i), i=1, 2, …, n)를 얻는다. 그 다음, 수학식 3)에 따라 모든 프레임의 음성 데이터의 요청자 신분 음성 신뢰도CL₂(i)에 대해 평균치를 구함으로써, 요청자 신분 음성 신뢰도 평균치

를 얻는다.

2)

3)

수학식 2)에서, μ_p, δ_p는 각각 이 사용자에 대한 사용자 성문 모델의 평균치 및 분산 파라미터이고, μ_oa, δ_oa는 각각 전역 문자 음향 모델의 평균치 및 분산 파라미터이며,

는 우도함수이다.

이어서, 신분 인증 모듈(14)은 하기의 수학식 4)에 따라 신분 종합 신뢰도CL를 산출한다.

4)

수학식 4)에서, α는 패스워드 내용 신뢰도 평균치

와 요청자 신분 음성 신뢰도 평균치

의 조절 파라미터이며, α는 실수이다. 본 발명에서, 수학식 4)를 통해 신분 종합 신뢰도CL를 [0, 1]의 범위 내에로 표준화하여, 판단이 편리하다.

그 다음, 신분 인증 모듈(14)은 산출해낸 신분 종합 신뢰도CL가 미리 설정된 신뢰도 역치보다 크거나 같은지를 판단한다. 신분 종합 신뢰도CL가 미리 설정된 신뢰도 역치이상 일 경우, "이 요청자가 서버의 사용자가 맞다"는 신분 인증 결과를 얻고, 이 신분 인증 결과를 사용자단말(2)에 피드백하여, 이 요청자가 서버에 액세스하여 작업하는 것을 허용한다. 그 외의 경우, "이 요청자가 서버의 사용자가 아니다"라는 신분 인증 결과를 얻고, 이 신분 인증 결과를 사용자단말(2)에 피드백하여, 해당 요청자가 서버에 액세스하여 작업하는 것을 거절한다.

본 발명에서, 패스워드 내용 신뢰도 평균치

는 요청자가 음독한 패스워드가 신분 인증 시스템(1)에서 발생한 동적 패스워드와 부합되는지를 확인하기 위한 것이고, 요청자 신분 음성 신뢰도 평균치

는 요청자가 발생한 음성이 신분 인증 시스템(1)에 저장된 이 사용자의 사용자 성문 모델과 매칭되는지를 확인하기 위한 것이다. 따라서, 본 발명에서, 동적 패스워드도 확인할 수 있고 화자 성문도 확인할 수 있는, 이중 신분 인증의 기술적 해결방안을 제공한다.

도3을 참조하여, 신분 인증 시스템(1)이 상술한 신분 인증 처리를 실행하는 처리 과정에 대해 예를 들어 설명하기로 한다. 도3에 도시된 예에서, 0부터 9까지 10개의 숫자가 전역 문자 코드북이라 가정한다.

단계S101: 요청자 A'가 정확한 사용자 ID 및 로그인 패스워드를 입력하여 로그인을 완성하고, 요청 수신 모듈(11)이 요청자 A'가 사용자단말(2)을 통해 신분 인증 시스템(1)에 송신한 신분 인증 요청을 수신하여, 요청자 A'와 신분 인증 시스템(1) 사이의 상호 작용을 구현한다. 이때, 요청자 A'가 사용자 A의 신분으로 신분 인증을 요구한다고 가정한다.

단계S102: 동적 패스워드 생성 모듈(13)이 미리 설정된 전역 문자 코드북 중에서 무작위로 몇 개의 문자를 선택하여 동적 패스워드를 구성하고, 이 동적 패스워드를 요청자 A'의 사용자단말(2)에 송신한다. 예를 들어, 이때 동적 패스워드 생성 모듈(13)은 무작위로 "1", "3", "5", "8" 네 숫자를 선택하여 동적 패스워드 " 1358"을 구성하고, 요청자 A'의 사용자단말(2)에 이 동적 패스워드를 송신한다.

단계S103: 사용자단말(2)이 이 동적 패스워드 "1358"을 표시하고, 요청자 A'가 이 동적 패스워드를 음독하며, 이때, 사용자단말(2)은 요청자A'가 이 동적 패스워드를 음독 시의 음성을 취득하고, 사용자단말(2)은 취득된 음성을 패스워드 음성 신호의 형태로 신분 인증 시스템(1)에 송신한다.

단계S104: 신분 인증 모듈(14)은 성문 모델 저장 유닛(15) 중에서 사용자 A의 사용자 성문 모델을 추출해내고, 수신된 요청자 A'의 패스워드 음성 신호를 몇몇 프레임의 음성 데이터로 분할한다. 예를 들어, 10 프레임의 음성 데이터(x₁, x₂, …, x₁₀)로 분할한다고 가정한다.

단계S105: 신분 인증 모듈(14)은 사용자 A의 사용자 성문 모델에서 각 프레임의 음성 데이터(x₁, x₂, …, x₁₀)에 대해 각각 테스트를 실시하여, 패스워드 내용 신뢰도CL₁(1), CL₁(2), …, CL₁(10)를 얻고, 나아가, 상기의 수학식 1)에 따라 이 패스워드 내용 신뢰도CL₁(1), CL₁(2), …, CL₁(10)들에 대해 평균치를 구하여, 패스워드 내용 신뢰도 평균치

를 얻는다.

단계S106: 각 프레임의 음성 데이터(x₁, x₂, …, x₁₀)에 대해, 신분 인증 모듈(14)은 상기의 수학식 2)에 따라 사용자 A의 사용자 성문 모델과 전역 문자 음향 모델에서 각각 우도 산출을 실시한 후 감함으로써, 요청자 신분 음성 신뢰도CL₂(1), CL₂(2), …, CL₂(10)를 얻고, 나아가, 상기의 수학식 3)에 따라 이 요청자 신분 음성 신뢰도CL₂(1), CL₂(2), …, CL₂(10)들에 대해 평균치를 구함으로써, 요청자 신분 음성 신뢰도 평균치

를 얻는다.

단계S107: 신분 인증 모듈(14)은 상기의 수학식 4)에 따라 요청자 A'의 신분 종합 신뢰도CL를 산출한다.

단계S108: 신분 인증 모듈(14)은 산출해낸 신분 종합 신뢰도CL가 미리 설정된 신뢰도 역치보다 크거나 같은 지를 판단하여, 신분 종합 신뢰도CL가 미리 설정된 신뢰도 역치이상 일 경우 단계S109로 이동하고, 아닐 경우 단계S110로 이동한다.

단계S109: 신분 종합 신뢰도CL가 미리 설정된 신뢰도 역치보다 크거나 같으므로, 신분 인증 결과는 요청자 A'가 서버의 사용자 A인것으로 확인되여, 신분 인증 시스템(1)이 이 신분 인증 결과를 사용자단말(2)에 피드백하여, 요청자 A'가 사용자 A의 신분으로 서버에 액세스하여 작업하는 것을 허용한다.

단계S110: 신분 종합 신뢰도CL가 미리 설정된 신뢰도 역치보다 작으므로, 신분 인증 결과는 요청자 A'가 서버의 사용자A가 아닌것으로 확인되여, 신분 인증 시스템(1)이 이 신분 인증 결과를 사용자단말(2)에 피드백하여, 요청자 A'가 사용자 A의 신분으로 서버에 액세스하여 작업하는 것을 거절한다.

상술한 예시로부터 알 수 있다시피, 본 발명에서, 신분 종합 신뢰도CL를 산출 시 패스워드 내용 신뢰도 평균치

와 요청자 신분 음성 신뢰도 평균치

를 결합함으로써, 요청자 A'가 동적 패스워드 "1358"를 정확히 음독하였는지를 확인할 수 있을 뿐만 아니라, 요청자 A'의 음성이 사용자 A의 사용자 성문 모델과 매칭되는지도 확인할 수 있으므로, 신분 인증의 안전성 및 신뢰성을 향상시킬 수 있으며, 사용자 음성이 도용 될 경우 타인이 이 사용자로 가장하여 시스템에 침입하는 위험을 효과적으로 감소시킬 수 있다.

이외에, 시간의 변화가 신분 인증 결과의 정확성에 주는 영향을 해소하기 위하여, 본 발명의 신분 인증 시스템(1)에는 사용자 성문 모델을 재구축하는 성문 모델 자동 재구축 서브시스템(20)이 더 구비된다. 이하, 이 성문 모델 자동 재구축 서브시스템(20)에 대해 상세히 설명하기로 한다.

도1에 도시된 바와 같이, 요청자가 서버의 사용자가 맞다는 신분 인증 결과를 얻었을 경우(즉 인증에 성공했을 경우), 성문 모델 자동 재구축 서브시스템(20)은 사용자단말(2)에서 신분 인증 시스템(1)으로 송신된 패스워드 음성 신호를 획득하며, 요청자와 서버의 사용자가 일치하다는 신분 인증 결과를 얻을 경우(즉 인증을 성공했을 경우)에만, 이 성문 모델 자동 재구축 서브시스템(20)이 작동한다.

제1실시예에서, 성문 모델 자동 재구축 서브시스템(20)은 시변 데이터 저장 유닛(21), 시변 데이터 업데이트 모듈(23), 시간창 파이프 구축 모듈(24) 및 성문 모델 재구축 모듈(25)을 포함한다.

시변 음성 데이터의 합리적인 저장 및 표시는 본 발명을 구현하는 관건이므로, 시변 데이터 저장 유닛의 설계 및 저장 방법은 지극히 중요하다. 본 발명에서, 시간 태그 별로 시변 데이터 저장 유닛(21)을 구성하는 바, 시변 데이터 저장 유닛(21)에 시간 태그 별로 각 사용자의 각 시점에서의 음성 데이터를 저장한다. 시변 데이터 저장 유닛(21)은 예를 들어 데이터 베이스일 수 있지만, 데이터 베이스에 한정되지는 않으며, 시간 태그 별로 각 사용자의 각 시점에서의 음성 데이터를 저장할 수 있기만 하면, 기타 데이터 저장 형태일 수도 있다.

성문 모델 자동 재구축 서브시스템(20)이 패스워드 음성 신호를 수신한 후, 시변 데이터 업데이트 모듈(23)은 이 수신된 패스워드 음성 신호를 최신 음성 데이터로서 시변 데이터 저장 유닛(21)에 저장하되, 시변 데이터 저장 유닛(21)에 시간 태그 별로 사용자의 음성 데이터를 저장한다.

나아가, 시간창 파이프 구축 모듈(24)은 시간 태그의 순서에 따라 시변 데이터 저장 유닛(21)에서 이 사용자의 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 음성 데이터를 사용하여 이 시간창 파이프에 포함된 음성 데이터를 업데이트한다. 도4에 상기 시간창 파이프의 모델을 도시하였는 바, 이 시간창 파이프는 하나의 시간창 파이프를 기본 단위로 하고, 시간축을 변위 단서로 하여, 시간의 추이에 따라, 시간창 파이프를 시간축 방향에 따라 순차적으로 추이하여, 실시간으로 획득된 최신 음성 데이터를 이 시간창 파이프에 푸쉬하고, 과거 시간대의 음성 데이터를 이 시간창 파이프에서 제거하되, 이 시간창 파이프에는 복수 그룹의 음성 데이터가 포함된다

도5에 시간창 파이프의 응용예를 도시하였다. 도5에 도시된 바와 같이, 예를 들어, 현재의 시간창 파이프에 2014년1월5일, 2014년1월26일, 2014년2월3일 및 2014년2월27일을 태그로 하는 4개의 음성 데이터가 포함된다. 2014년3월9일에 최신 사용자 음성 데이터를 획득하면, 시간창 파이프 구축 모듈(24)은 시간창 파이프에 포함된 음성 데이터를 업데이트하는 바, 2014년3월9일을 태그로 하는 하는 최신 음성 데이터를 시간창 파이프에 푸쉬하고, 과거 시간대 즉 2014년1월5일을 태그로 하는 음성 데이터를 시간창 파이프에서 제거한다. 도5에 도시된 시간창 파이프에 포함된 음성 데이터의 그룹수는 예시일 뿐이며, 실제 응용 시, 시간창 파이프에 포함된 음성 데이터의 그룹수는 구체적인 상황에 따라 설정될 수 있다.

이어서, 성문 모델 재구축 모듈(25)은 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 음성 데이터를 사용하여 이 사용자의 성문 모델을 재구축하고, 재구축된 이 사용자의 사용자 성문 모델을 성문 모델 저장 유닛(15)에로 업데이트한다.

이로써, 이후에 신분 인증 시, 신분 인증 시스템(1)은 성문 모델 저장 유닛(15)으로부터 최신 사용자 성문 모델을 획득할 수 있고, 최신 사용자 성문 모델을 사용하여 신분 종합 신뢰도CL를 산출할 수 있다. 시간의 흐름에 따라, 사용자 자신의 생리적 특성 및 발음 특성이 변화하게 되고, 하드웨어가 노화되며, 녹음기기의 충실도가 저하되지만, 본 발명에서는, 시간창 파이프 모델을 구축함으로써 사용자 성문 모델을 동적으로 재구축하여, 사용자의 발음 특성을 실시간으로 추적할 수 있고, 사용자 성문 모델의 정확성을 효과적으로 향상시킬 수 있어, 신분 인증의 정확성을 향상시킬 수 있다.

도6에 제1실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법의 과정을 도시하였다.

단계S201: 요청자에 의해 사용자단말을 통해 서버로 송신된 신분 인증 요청을 수신한다.

단계S202: 동적 패스워드를 생성하고, 이 동적 패스워드를 사용자단말에 송신한다.

단계S203: 사용자단말로부터 송신된 이 요청자가 상기 동적 패스워드를 음독 시의 패스워드 음성 신호에 근거하여, 전역 문자 음향 모델과 사용자 성문 모델을 통해, 이 요청자의 신분 종합 신뢰도CL를 산출한다.

단계S204: 산출해낸 신분 종합 신뢰도CL에 근거하여, 이 요청자의 신분을 판단하고, 신분 인증 결과를 사용자단말에 피드백한다.

단계S205: 이 요청자가 서버의 사용자가 맞다는 신분 인증 결과를 얻었을 경우, 단계S206에 진입하고, 아닐 경우 처리를 종료한다.

단계S206: 상기 패스워드 음성 신호를 최신 음성 데이터로서 시변 데이터 저장 유닛에 저장하되, 시변 데이터 저장 유닛에 시간 태그 별로 각 사용자의 음성 데이터를 저장한다.

단계S207: 시간 태그의 순서에 따라 시변 데이터 저장 유닛 중에서 이 사용자의 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 음성 데이터를 사용하여 이 시간창 파이프에 포함된 음성 데이터를 업데이트한다(최신 음성 데이터를 푸쉬하고, 과거 시간대의 음성 데이터를 제거).

단계S208: 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 음성 데이터를 사용하여 이 사용자의 사용자 성문 모델을 재구축한다.

본 발명의 제1실시예에 의하면, 패스워드 내용 신뢰도 평균치와 요청자 신분 음성 신뢰도 평균치를 결합하여 신분 종합 신뢰도를 얻고, 이 신분 종합 신뢰도를 이용하여 동적 패스워드 음성에 기반한 신분 인증을 실시함으로서, 동적 패스워드 내용도 확인할 수 있고 화자 성문도 확인할 수 있는 이중 신분 인증 시스템 및 방법을 제공할 수 있으며, 신분 인증의 안전성 및 신뢰성을 향상시킬 수 있다. 이외에, 본 발명의 제1실시예에 기반하여, 시간 변화에 기반한 시변 데이터 저장 유닛을 구성하고, 시간창 파이프 모델을 구축하되, 시간창 파이프에 복수 그룹의 시간에 따라 변화하는 사용자의 음성 데이터가 포함되며, 이 시간창 파이프를 통해 사용자 성문 모델을 동적으로 재구축하여, 신분 인증의 정확성을 효과적으로 향상시킬 수 있으며, 자체 학습 기능을 구비한다.

[제2실시예]

도7은 제2실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템(10, 이하 "신분 인증 시스템(10)"으로 약칭)의 도면이다. 제1실시예와 동일한 구성요소에 대해 동일한 도면부호를 부여하며, 상세한 설명을 생략하기로 한다.

제1실시예와 비교 시 제2실시예의 구별점으로는, 성문 모델 자동 재구축 서브시스템(200)이 상기 패스워드 음성 신호 즉 음성 데이터에 대해 파라미터화 처리를 하기 위한 음성 데이터 파라미터화 모듈(22)을 더 구비함으로써, 최신 파라미터화 음성 데이터, 즉 화자의 개성적 정보를 나타낼 수 있는 특징 파라미터를 얻으며; 시변 데이터 업데이트 모듈(23)이 최신 파라미터화 음성 데이터를 사용하여 시변 데이터 저장 유닛(21)을 업데이트하고; 시변 데이터 저장 유닛(21)에서 시간 태그 별로 파라미터화 음성 데이터를 저장하며, 시간창 파이프 구축 모듈(24)은 파라미터화 음성 데이터를 사용하여 복수 그룹의 파라미터화 음성 데이터를 포함하는 시간창 파이프를 구축하고, 최신 파라미터화 음성 데이터를 사용하여 이 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하며; 성문 모델 재구축 모듈(25)은 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터를 사용하여 이 사용자의 사용자 성문 모델을 재구축하는 것이다.

즉, 제2실시예에서, 사용자의 음성 데이터(패스워드 음성 신호)를 획득한 후, 음성 데이터 파라미터화 모듈(22)을 통해 이 음성 데이터에 대해 파라미터화 처리를 하고, 후속되는 처리에서 이 파라미터화 처리를 통해 얻은 파라미터화 음성 데이터를 사용한다.

사용자의 음성 데이터를 직접 시변 저장 유닛(21)에 저장하면, 저장이 어려울뿐만 아니라, 대량의 저장 공간을 점용하게 되어, 저장 유닛의 유지관리 및 지속적인 저장에 불리하다. 따라서, 바람직하게는, 음성 데이터 파라미터화 모듈(22)을 통해 프레임을 단위로 음성 데이터에 대해 파라미터화 처리를 함으로써, 파라미터화 음성 데이터(즉 파라미터화된 음성 데이터)를 얻는다. 상기 파라미터화 음성 데이터는 화자의 개성적 정보를 나타낼 수 있는 특징 함수이다.

바람직하게는, 음성 데이터 파라미터화 모듈(22)은 파라미터화 처리를 실시하기 전에, 음성 데이터에 대해 음성 끝점 검출(VAD, Voice Activity Detection)을 실시함으로써, 음성 데이터 중의 묵음 부분을 삭제하고, 소음의 영향을 감소시켜, 음성 데이터의 사이즈를 감소시킬 수 있다. 상술한 음성 끝점 검출을 실시한 후, 음성 데이터 파라미터화 모듈(22)은 보류된 음성 데이터에 대해 파라미터화 처리를 함으로써, 파라미터화 음성 데이터를 얻는다. 이로써, 음성 데이터를 저장하기 위한 저장 공간을 진일보 효율적으로 절감할 수 있다.

바람직하게는, 음성 데이터 파라미터화 모듈(22)은 음성 데이터에 대해 파라미터화 처리를 하기 전에, 멜 주파수 캡스트럼 계수 MFCC를 특징 파라미터로 적용하고, 0차 MFCC 특징만을 보존함으로써, 음성 신호에 대한 차원 축소를 실현하여, 음성 데이터를 저장하기 위한 저장 공간을 절감할 수 있다. 후속되는 처리에서, 하기의 수학식 5)를 사용하여 0차 MFCC 특성으로부터 대응되는 1차 Delta와 2차 Delta 특징으로의 변환을 실현할 수 있다.

5)

수학식 5)에서, pFrame[i]는 파라미터화 음성 데이터 프레임을 나타내며, f₁[i], f₂[i]는 각각 제i프레임의 음성 데이터의 앞쪽에서부터 첫번째 프레임과 앞쪽에서부터 두번째 프레임의 특징값을 나타내고, b₁[i], b₂[i]는 각각 제i프레임의 음성 데이터의 뒤로부터 첫번째 프레임과 뒤로부터 두번째 프레임의 특징값을 나타낸다.

도14에 도시된 바와 같이, wav 포맷, 1Mb 사이즈의 한 원시 음성 데이터를 예로 들 경우, 우선 1Mb의 원시 음성 데이터에 대해 음성 끝점 검출을 실시하여, 원시 음성 데이터 중의 묵음 부분을 삭제하고 소음의 영향을 감소시킴으로써, 600Kb의 유효 음성 데이터를 획득한다. 이어서, 멜 주파수 캡스트럼 계수 MFCC을 특징 함수로 적용하여, 프레임을 단위로 600Kb의 음성 데이터에 대해 파라미터화 처리를 함으로써, 140Kb의 파라미터화 음성 데이터를 얻는다. 원시 음성 데이터에 비해, 약 90%의 저장 공간을 절약할 수 있다.

시변 데이터 업데이트 모듈(23)은 최신 파라미터화 음성 데이터를 시변 데이터 저장 유닛(21)에 저장하되, 시변 데이터 저장 유닛(21)에 시간 태그 별로 사용자의 파라미터화 음성 데이터를 저장한다.

시간창 파이프 구축 모듈(24)은 시간 태그의 순서에 따라 시변 데이터 저장 유닛(21) 중에서 이 사용자의 파라미터화 음성 데이터를 추출하여, 복수 그룹의 파라미터화 음성 테이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 파라미터화 음성 데이터를 사용하여 이 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트한다. 사용자의 음성 데이터를 직접 사용하지 않고 파라미터화 음성 데이터를 사용한다는 점을 제외하고는, 시간창 파이프 구축 모듈(24)이 시간창 파이프를 구축 및 업데이트하는 처리는 제1실시예와 동일하다.

이외에, 성문 모델 재구축 모듈(25)은 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터를 사용하여 이 사용자의 사용자 성문 모델을 재구축한다.

도8에 제2실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법의 과정을 도시하였다. 그중, 단계S201' 내지 단계S205'는 제1실시예의 도6 중의 단계S201 내지 단계S205와 동일한 단계들이므로, 단계S201' 내지 단계S205'에 대한 설명을 생략하기로 한다.

단계S206': 사용자단말을 통해 취득한 패스워드 음성 신호 즉 음성 데이터에 대해 파라미터화 처리를 실시하여, 최신 파라미터화 음성 데이터를 획득한다.

단계S207': 상기 최신 파라미터화 음성 데이터를 시변 데이터 저장 유닛에 저장하되, 시변 데이터 저장 유닛에 시간 태그 별로 각 사용자의 파라미터화 음성 데이터를 저장한다.

단계S208': 시간 태그의 순서에 따라 시변 데이터 저장 유닛 중에서 이 사용자의 파라미터화 음성 데이터를 추출하여, 복수 그룹의 파라미터화 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 파라미터화 음성 데이터를 사용하여 이 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트한다 (최신 파라미터화 음성 데이터를 푸쉬하고, 과거 시간대의 파라미터화 음성 데이터를 제거).

단계S209': 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터를 사용하여 이 사용자의 사용자 성문 모델을 재구축한다.

본 발명의 제2실시예에서 제1실시예에 기재된 기술안에 대해 최적화를 실시하였는 바, 원시 음성 데이터에 대한 파라미터화 처리를 통해, 음성 데이터를 저장하기 위한 저장 공간을 대폭 절감할 수 있으며, 후속되는 처리에서도 파라미터화 음성 데이터를 사용함으로써, 음성 데이터를 임시 저장하기 위한 저장 공간의 크기를 감소시킬 수 있다.

[제3실시예]

도9는 제3실시예에 따른 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템(100, 이하 "신분 인증 시스템(100)"으로 약칭)의 도면이다. 제1실시예 및 제2실시예와 동일한 구성요소에 대해 동일한 도면부호를 부여하며, 상세한 설명을 생략하기로 한다.

제2실시예에 따른 신분 인증 시스템(10)과 비교 시, 제3실시예에 따른 신분 인증 시스템(100)의 구별점으로는, 신분 인증 시스템(100)의 성문 모델 자동 재구축 서브시스템(400)이 음성 인식 모듈(260)을 더 구비하고; 시변 데이터 저장 유닛(210)에 최신 파라미터화 음성 데이터에 대응되는 음소 및 이 음소에 대응되는 프레임 구간을 더 저장하며; 시간창 파이프 구축 모듈(240)이 최신 파라미터화 음성 데이터에 대응되는 음소에 근거하여, 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터에 대응되는 음소가 균형되게 분포되도록, 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하는 것이다.

예를 들어, 0부터 9까지 10개의 숫자가 전역 문자 코드북일 경우, 만약 과거 시간대에 생성된 동적 패스워드에서 사용된 숫자의 분포 상황를 고려하지 않고 사용자 성문 모델을 재구축하면, 재구축된 사용자 성문 모델 중에 음소 분포가 불균형한 현상이 발생할 수 있으며, 나아가 개별 숫자에 대한 인식 정확도가 낮아질 수 있어, 신분 인증의 안정성에 불리하다.

도10에 도시된 바와 같이, 숫자 분포를 고려하지 않고 단순히 동적 패스워드가 "1358"인 패스워드 음성 신호에 기반하여 사용자 성문 모델을 재구축하면, 금후 사용자가 "0", "2", "4", "6", "7", "9"로 이루어진 동적 패스워드를 음독할 경우, 이 재구축된 사용자 성문 모델에 기반하여 신분 종합 신뢰도CL를 산출 시, 정확도가 낮아질 수 있다. 따라서, 본 발명의 제3실시예에서는, 더 나아가 음소의 분포 상황을 판단한다.

제3실시예의 성문 모델 자동 재구축 서브시스템(400)은, 음성 데이터 중의 각 프레임에 대응되는 음소를 인식하기 위한 음성 인식 모듈(260)을 더 구비함으로써, 음소와 프레임 사이의 대응관계를 획득한다.

구체적으로, 음성 인식 모듈(260)은 패스워드 음성 신호 즉 음성 데이터 중의 각 프레임에 대응되는 음소를 인식해낸다. 음성 데이터 파라미터화 모듈(22)을 통해 음성 데이터에 대한 파라미터화 처리를 완성한 후, 시변 데이터 업데이트 모듈(23)은 파라미터화 음성 데이터(즉 최신 파라미터화 음성 데이터), 이 음성 데이터의 각 프레임에 대응되는 음소(즉 최신 파라미터화 음성 데이터에 대응되는 음소) 및 이 음소에 대응되는 프레임 구간(즉 시작 프레임 태그와 종료 프레임 태그)을 모두 시변 데이터 저장 유닛(210)에 저장한다.

도11에 시변 데이터 저장 유닛(210)의 저장 방식을 도시하였다. 도11에 도시된 바와 같이, 나무형 저장 구조로 음성 인식 모듈(260)이 인식해낸 각각의 음소, 각각의 음소에 대응되는 프레임 구간 및 각각의 상기 프레임 구간에 대응되는 파라미터화 음성 데이터를 시변 데이터 저장 유닛(210)에 저장함으로써, 음소, 프레임 구간, 파라미터화 음성 데이터 삼자가 서로 관련되도록 한다. 이러한 나무형의 저장 구조에 의해, 시변 데이터 저장 유닛(210)의 관리가 편리하고, 검색 및 오류 검출이 편리하다.

제3실시예의 시변 데이터 저장 유닛(210)에 의하여, 매번 시간창 파이프에 대해 추이(업데이트)를 실시 시, 시간의 변화를 고려할 뿐만 아니라, 음소의 분포 상황도 고려한다. 즉, 제3실시예에서, 시간창 파이프 구축 모듈(240)은 예를 들어 아래와 같은 두가지 방식을 통해 시간창 파이프를 업데이트할 수 있다.

첫번째 방식:

도12(a)에 첫번째 방식의 처리 과정을 도시하였다. 단계S301에서, 최신 파라미터화 음성 데이터에 대응되는 음소와 시간창 파이프 중 최초(시간 태그가 가장 오래된) 파라미터화 음성 데이터에 대응되는 음소를 비교하여, 최신 파라미터화 음성 데이터에 대응되는 음소와 시간창 파이프 중 최초 파라미터화 음성 데이터에 대응되는 음소의 매칭 정도를 산출하고, 단계S302에서, 상기 매칭 정도에 대해 판단하여, 상기 매칭 정도가 소정의 매칭도 이상 일 경우(예를 들어 90%의 음소가 일치), 단계S303에 진입하고, 아닐 경우 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하지 않고 처리를 종료하며, 단계S303에서, 최신 파라미터화 음성 데이터를 시간창 파이프에 푸쉬하고, 최초 파라미터화 음성 데이터를 시간창 파이프에서 제거한다.

첫번째 방식에 있어서, 최신 및 최초 파라미터화 음성 데이터에 대응되는 음소의 매칭 정도가 소정의 매칭도이상 일 경우에만 시간창 파이프를 업데이트함으로써, 시간창 파이프에 포함된 복수 그룹의 파라미터화 데이터에 대응되는 음소가 균형되게 분포되도록 한다.

두번째 방식:

도12(b)에 두번째 방식의 처리 과정을 도시하였다. 단계S401에서, 시간 태그의 원시로부터 최신의 순서에 따라, 시간창 파이프에서 시험적으로 파라미터화 음성 데이터를 차례로 한 그룹을 제거하고; 단계S402에서, 시간창 파이프에 보류된 모든 파라미터화 음성 데이터 및 최신 파라미터화 음성 데이터에 대응되는 음소에 근거하여, 문자의 음소 분포에 의한 균형도를 산출하며; 단계S403에서, 상기 균형도에 대해 판단하여, 상기 균형도가 소정의 균형도 역치이상 일 경우 단계S404에 진입하고, 아닐 경우 단계S405에 진입하며; 단계S404에서, 최신 파라미터화 음성 데이터를 시간창 파이프에 푸쉬(과거 시간대의 파라미터화 음성 데이터는 이미 단계S401에서 제거)한 후, 처리를 종료하고; 단계S405에서는, 시간창 파이프를 초기 상태에로 회복, 즉 단계S401에서 시험적으로 제거한 한 그룹의 파라미터화 음성 데이터를 시간창 파이프 중으로 회복시키며; 단계S406에서, 시간창 파이프 중의 모든 파라미터화 음성 데이터에 대한 시험적인 제거 여부를 판단하여, 아직 시험적으로 제거하지 않은 파라미터화 음성 데이터가 존재할 경우, 단계S401로 되돌아가서, 시간 태그의 원시로부터 최신의 순서에 따라, 계속하여 시간창 파이프에서 시험적으로 다음 파라미터화 음성 데이터를 제거하며, 아닐 경우, 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하지 않고 처리를 종료한다.

두번째 방식에서, 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터에 대응되는 음소의 균형 분포를 보장할 수 있을 경우에만 시간창 파이프를 업데이트한다.

상술한 첫번째 방식을 사용하든 두번째 방식을 사용하든, 모두 최신 파라미터화 음성 데이터에 대응되는 음소에 근거하여, 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터에 대응되는 음소가 균형되게 분포되도록, 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트한다. 도13에 제3실시예 중 시간창 파이프를 업데이트하는 처리를 도시하였다.

이외에, 실제 응용 상황에 따라, 택일적으로 첫번째 방식 또는 두번째 방식을 사용할 수도 있고, 우선 첫번째 방식 또는 두번째 방식을 사용하여 시간창 파이프를 업데이트한 후, 업데이트 조건을 만족시키지 못하여(매칭 정도가 낮거나 균형도가 낮음) 시간창 파이프를 업데이트할 수 없을 경우, 계속하여 두번째 방식 또는 첫번째 방식을 사용하여 시간창 파이프를 업데이트함으로써, 최신 음성 데이터를 최대한으로 이용하여 사용자 성문 모델을 재구축한다.

바람직하게는, 시간창 파이프에서 과거 시간대의 파라미터화 음성 데이터를 제거 시, 시변 데이터 베이스(210)에서 이 과거 시간대의 파라미터화 음성 데이터를 삭제함으로써, 시변 데이터 저장 유닛(210)의 사이즈가 상대적으로 안정적인 상태를 유지하도록 하여, 시변 데이터 저장 유닛(210)의 유지 및 관리에 기여한다.

이어서, 제2실시예와 마찬가지로, 성문 모델 재구축 모듈(25)은 업데이트 후의 시간창 파이프에 포함된 복수 그룹의 파라미터화 음성 데이터를 사용하여 사용자 성문 모델을 재구축하고, 재구축한 사용자 성문 모델을 성문 모델 저장 유닛(15)에 저장한다.

본 발명의 제3실시예는 제2실시예에 기재된 기술안에 대해 진일보 최적화를 실시하였는 바, 음소의 분포 상황에 근거하여 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트함으로써, 사용자 성문 모델에서 음소 분포가 불균형한 현상이 발생하는 것을 효과적으로 방지할 수 있고, 사용자 성문 모델의 정확도를 효과적으로 향상시킬 수 있어, 신분 인증의 정확성을 높일 수 있다.

[제4실시예]

상술한 제1, 제2 및 제3실시예와 비교시, 제4실시예의 구별점으로는, 성문 모델 재구축 모듈이 진일보로 시변 데이터 저장 유닛 중에 저장된 음성 데이터(제1실시예) 또는 파라미터화 음성 데이터(제2실시예 및 제3실시예)를 업데이트하는 업데이트 빈도에 따라, 부동한 방식을 통해 사용자 성문 모델을 재구축하는 것이다.

보다 정확한 사용자 성문 모델을 트레이닝하기 위해, 사용자의 발음 특성을 실시간으로 추적하여야 한다. 그러나, 각 사용자가 시스템을 사용하는 빈도가 부동하며, 이에 따라 시변 데이터 저장 유닛에 저장된 음성 데이터 또는 파라미터화 음성 데이터를 업데이트하는 빈도도 부동하게 되는데, 업데이트 빈도(즉 사용자가 시스템을 사용하는 빈도)를 고려하지 않고 동일한 방식으로 사용자 성문 모델을 재구축하면, 재구축된 사용자 성문 모델의 정확도가 상대적으로 떨어질 수 있다.

이에, 제4실시예에서는, 사용자의 사용자 성문 모델을 재구축 시, 시변 데이터 저장 유닛에 저장된 음성 데이터 또는 파라미터화 음성 데이터를 업데이트하는 업데이트 빈도를 판단하고, 판단 결과에 따라 부동한 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축한다.

시변 데이터 저장 유닛에 저장된 해당 사용자의 음성 데이터 또는 파라미터화 음성 데이터를 업데이트하는 업데이트 빈도가 소정의 빈도보다 낮을 경우, 모델 자체 적응 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축한다. 이러면, 소량의 최신 음성 데이터 또는 파라미터화 음성 데이터에 의해 사용자 성문 모델을 재구축하여, 트레이닝 음성 데이터가 적은 문제를 해결할 수 있고, 시변 데이터 저장 유닛에 저장된 음성 데이터 또는 파라미터화 음성 데이터를 최대한 이용할 수 있다. 이외에, 모델 자체 적응 방식을 사용하면 사용자 성문 모델을 재구축하는 속도를 향상시킬 수 있어, 효율이 더 높다. 여기서, 상기 모델 자체 적응 방식은, 원래의 사용자 성문 모델에서 자체 적응을 통하여 새로운 사용자 성문 모델을 얻는 것을 의미한다.

시변 데이터 저장 유닛에 저장된 이 사용자의 음성 데이터 또는 파라미터화 음성 데이터를 업데이트하는 업데이트 빈도가 소정의 빈도보다 높거나 같을 경우, 직접 재트레이닝하는 방식을 통해 이 사용자의 사용자 성문 모델을 재구축한다. 모델 자체 적응 방식을 사용하는 경우에 비해, 직접 재트레이닝하는 방식을 사용할 경우 모델 자체 적응을 반복적으로 실시함에 따른 사용자 성문 모델이 불안정한 문제를 방지할 수 있고, 직접 재트레이닝하는 방식을 사용할 경우 보다 정확한 사용자 성문 모델을 얻을 수 있으며, 사용자의 현재 발음 특성을 보다 정확하게 반영할 수 있다. 여기서, 상기 직접 재트레이닝하는 방식은, 전역 문자 음향 모델에서 자체 적응을 통하여 새로운 사용자 성문 모델을 얻는 것을 의미한다.

상기 자체 적응은, 예를 들어 최대 우도 직선회귀(MLLR) 알고리즘 또는 최대 사후 확률(MAP) 알고리즘을 통해 구현될 수 있다.

제4실시예에서, 실제 상황에 따라 상기 소정의 빈도를 설정할 수 있다. 예를 들어, 일주일을 한 주기로 하여, 성문 모델 재구축 모듈이 한 사용자의 사용자 성문 모델을 재구축 시, 우선 일주일 내에 업데이트된 시변 데이터 저장 유닛 중 이 사용자의 음성 데이터 또는 파라미터화 음성 데이터의 그룹수에 대해 판단하여, 이 그룹수가 한 시간창 파이프의 길이(예를 들어 10개)이상 일 경우, 직접 재트레이닝하는 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하고, 아닐 경우, 모델 자체 적응 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축한다.

본 발명의 제4실시예에 의하면, 사용자의 실제 사용 빈도에 근거하여 합리적인 방식을 통해 사용자 성문 모델을 재구축함으로써, 보다 정확한 사용자 성문 모델을 재구축할 수 있다.

본 발명 중의 각 모듈은 하드웨어 및/또는 소프트웨어를 통해 구현할 수 있으며, 복수의 모듈을 하나의 모듈로 병합할 수도 있고, 하나의 모듈을 복수의 모듈로 분할할 수도 있는 바, 병합 또는 분할 후 얻은 모듈이 해당 기능을 구현할 수 있기만 하면 된다. 본 발명의 제1 내지 제4실시예 중에 기재된 기술을 조합하여, 시스템을 최적화할 수 있다.

이외에, 특별히 설명해야 할 점으로, 본 발명 중의 "사용자단말"과 "서버"는 물리적으로 부동한 기기일 수도 있고, 동일한 물리적 기기의 부동한 논리 처리 유닛일 수도 있다. 전자의 경우, 예를 들어 "사용자단말"과 "서버"는 각각 사용자의 휴대폰과 이동서비스 제공회사의 서버이고, 후자의 경우, 예를 들어 "사용자단말"은 사용자의 휴대폰이고, "서버"는 사용자의 휴대폰에 설치된, 신분 인증 기능을 구현하기 위한 하드웨어 및/또는 소프트웨어이다. 예들 들어, 본 발명을 휴대폰에 응용하여 휴대폰 스크린 언락 기능을 구현할 경우, "사용자단말"과 "서버"는 동일한 물리적 기기(휴대폰)의 부동한 논리 처리 유닛이다.

이상에서 본 발명의 몇 실시예에 대해 설명하였는데, 이 실시예들은 예시로서 개시된 것으로, 본 발명의 보호범위를 한정하기 위한 것은 아니다. 해달 기술분야의 당업자들은, 기타 다양한 방식으로 실시할 수 있고, 본 발명의 요지를 벗어나지 않는 범위 내에서, 다양한 생략, 교체, 변경을 실시할 수 있으며, 간단한 생략, 동등한 교체, 명백한 변경을 통해 획득한 기술안은 본 발명의 특허청구범위에 기재된 발명 보호범위에 포함된다.

1, 10, 100: 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템
11: 요청 수신 모듈 12: 사용자 성문 모델 생성 모듈
13: 동적 패스워드 생성 모듈 14: 신분 인증 모듈
15: 성문 모델 저장 유닛 20, 200, 400: 성문 모델 자동 재구축 서브시스템
21, 210: 시변 데이터 저장 유닛 22: 음성 데이터 파라미터화 모듈
23: 시변 데이터 업데이트 모듈 24, 240:시간창 파이프 구축 모듈
25: 성문 모델 재구축 모듈 260: 음성 인식 모듈

Claims

요청자에 의해 사용자단말을 통해 서버로 송신된 신분 인증 요청을 수신하는 요청 수신 모듈;
동적 패스워드를 생성하고, 이 동적 패스워드를 상기 사용자단말에 송신하는 동적 패스워드 생성 모듈;
상기 사용자단말로부터 송신된 상기 요청자에 의해 상기 동적 패스워드를 음독 시의 패스워드 음성 신호에 근거하여, 전역 문자 음향 모델과 사용자 성문 모델을 통해 상기 요청자의 신분 종합 신뢰도를 산출하고, 산출한 상기 신분 종합 신뢰도에 근거하여 해당 요청자의 신분을 판단하고, 신분 인증 결과를 상기 사용자단말에 피드백하는 신분 인증 모듈; 을 포함하는 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템에 있어서,
신분 인증 결과 해당 요청자가 상기 서버의 사용자 인 경우, 상기 사용자 성문 모델을 재구축하는 성문 모델 자동 재구축 서브시스템을 구비하며,
상기 성문 모델 자동 재구축 서브시스템은,
시간 태그 별로 각 사용자의 음성 데이터를 저장하는 시변 데이터 저장 유닛;
상기 패스워드 음성 신호를 최신 음성 데이터로 상기 시변 데이터 저장 유닛에 저장하는 시변 데이터 업데이트 모듈;
시간 태그의 순서에 따라 상기 시변 데이터 저장 유닛에서 상기 사용자의 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 음성 데이터를 사용하여 상기 시간창 파이프에 포함된 음성 데이터를 업데이트하는 시간창 파이프 구축 모듈; 및
업데이트 후의 상기 시간창 파이프에 포함된 상기 복수 그룹의 음성 데이터를 이용하여 해당 사용자의 사용자 성문 모델을 재구축하는 성문 모델 재구축 모듈; 을 포함하는 것을 특징으로 하는 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제1항에 있어서,
상기 성문 모델 자동 재구축 서브시스템은, 상기 패스워드 음성 신호 즉 음성 데이터에 대해 파라미터화 처리를 함으로써 최신 파라미터화 음성 데이터를 획득하는 음성 데이터 파라미터화 모듈을 더 구비하며,
상기 시변 데이터 저장 유닛에는 시간 태그 별로 각 사용자의 파라미터화 음성 데이터가 저장되며,
상기 시변 데이터 업데이트 모듈은 상기 최신 파라미터화 음성 데이터를 상기 시변 데이터 저장 유닛에 저장하며,
상기 시간창 파이프 구축 모듈은 시간 태그의 순서에 따라 상기 시변 데이터 저장 유닛에서 상기 사용자의 파라미터화 음성 데이터를 추출하여, 복수 그룹의 파라미터화 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 파라미터화 음성 데이터를 이용하여 상기 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하며,
상기 성문 모델 재구축 모듈은 업데이트 후의 상기 시간창 파이프에 포함된 상기 복수 그룹의 파라미터화 음성 데이터를 이용하여 해당 사용자의 사용자 성문 모델을 재구축하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제2항에 있어서,
상기 성문 모델 자동 재구축 서브시스템은, 상기 음성 데이터 중의 각 프레임에 대응되는 음소를 인식하기 위한 음성 인식 모듈을 더 구비하고,
상기 시변 데이터 저장 유닛에는 상기 최신 파라미터화 음성 데이터에 대응되는 음소 및 이 음소에 대응되는 프레임 구간이 더 저장되며,
상기 시간창 파이프 구축 모듈은 상기 최신 파라미터화 음성 데이터에 대응되는 음소에 근거하여, 상기 시간창 파이프에 포함된 상기 복수 그룹의 파라미터화 음성 데이터에 대응되는 음소가 균형되게 분포되도록, 상기 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제3항에 있어서,
상기 시간창 파이프 구축 모듈은 상기 최신 파라미터화 음성 데이터에 대응되는 음소와 상기 시간창 파이프 중 최초 파라미터화 음성 데이터에 대응되는 음소를 비교하여, 양자의 매칭 정도가 소정의 매칭도 이상 일 경우, 상기 최신 파라미터화 음성 데이터를 상기 시간창 파이프에 푸쉬하고, 상기 최초 파라미터화 음성 데이터를 상기 시간창 파이프에서 제거하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제3항에 있어서,
상기 시간창 파이프 구축 모듈은, 시간 태그의 최초로부터 최신의 순서에 따라, 상기 시간창 파이프에서 시험적으로 일 그룹의 파라미터화 음성 데이터를 제거하고, 상기 시간창 파이프에 남아있는 모든 파라미터화 음성 데이터 및 상기 최신 파라미터화 음성 데이터에 근거하여 문자의 음소 분포에 의한 균형도를 산출하며,
상기 균형도가 소정의 균형도 역치이상 일 경우, 상기 최신 파라미터화 음성 데이터를 상기 시간창 파이프에 푸쉬하고,
상기 역치보다 작을 경우, 상기 시간창 파이프에 포함된 모든 파라미터화 음성 데이터에 대해 시험적으로 제거 또는 상기 최신 파라미터화 음성 데이터를 상기 시간창 파이프에 푸쉬할 때까지, 시험적으로 제거한 상기 일 그룹의 파라미터화 음성 데이터를 상기 시간창 파이프로 회복시키고, 계속하여 상기 시간창 파이프에서 시험적으로 다음 파라미터화 음성 데이터를 제거하며, 다시 상기 시간창 파이프에 남아있는 모든 파라미터화 음성 데이터 및 상기 최신 파라미터화 음성 데이터에 근거하여 상기 균형도를 산출하는 작업을 반복하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제4항 또는 제5항에 있어서,
상기 시간창 파이프에서 과거 시간대의 파라미터화 음성 데이터를 제거 시, 상기 시변 데이터 저장 유닛에서 상기 과거 시간대의 파라미터화 음성 데이터를 삭제하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제1항에 있어서,
상기 성문 모델 재구축 모듈은, 상기 시변 데이터 저장 유닛에 저장된 상기 사용자의 음성 데이터를 업데이트하는 업데이트 빈도에 대해 판단하되, 상기 업데이트 빈도가 소정의 빈도보다 낮을 경우, 모델 자체 적응 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하고, 그 외의 경우 직접 재트레이닝하는 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제2항 또는 제3항에 있어서,
상기 성문 모델 재구축 모듈은, 상기 시변 데이터 저장 유닛에 저장된 상기 사용자의 파라미터화 음성 데이터를 업데이트하는 업데이트 빈도에 대해 판단하되, 상기 업데이트 빈도가 소정의 빈도보다 낮을 경우, 모델 자체 적응 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하고, 그 외의 경우 직접 재트레이닝하는 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제2항에 있어서,
상기 음성 데이터 파라미터화 모듈은 상기 음성 데이터에 대해 상기 파라미터화 처리를 실시하기 전에, 상기 음성 데이터에 대해 음성 끝점 검출을 실시하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제2항에 있어서,
상기 음성 데이터 파라미터화 모듈은 상기 음성 데이터에 대해 상기 파라미터화 처리를 실시 시, 특징 파라미터로 멜 주파수 캡스트럼 계수 MFCC를 적용하고, 0차 MFCC 특징만을 보존하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
제1항에 있어서,
상기 신분 인증 모듈은 하기의 수학식에 따라 상기 신분 종합 신뢰도를 산출하되,

그중, CL은 상기 신분 종합 신뢰도이고,
은 패스워드 내용 신뢰도 평균치이고,
은 요청자 신분 음성 신뢰도 평균치이며, α는 패스워드 내용 신뢰도 평균치
와 요청자 신분 음성 신뢰도 평균치
의 조절 파라미터이고, α는 실수인 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템.
요청자에 의해 사용자단말을 통해 서버로 송신된 신분 인증 요청을 수신하는 요청 수신 단계;
동적 패스워드를 생성하고, 이 동적 패스워드를 상기 사용자단말에 송신하는 동적 패스워드 생성 단계;
상기 사용자단말로부터 송신된 상기 요청자에 의해 상기 동적 패스워드를 음독 시 의 패스워드 음성 신호에 근거하여, 전역 문자 음향 모델과 사용자 성문 모델을 통해 상기 요청자의 신분 종합 신뢰도를 산출하고, 산출한 상기 신분 종합 신뢰도에 근거하여, 해당 요청자의 신분을 판단하고, 신분 인증 결과를 상기 사용자단말에 피드백하는 신분 인증 단계; 를 포함하는 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법에 있어서,
신분 인증 결과 해당 요청자가 상기 서버의 사용자 인 경우,
상기 패스워드 음성 신호를 최신 음성 데이터로 시변 데이터 저장 유닛에 저장하되, 상기 시변 데이터 저장 유닛에 시간 태그 별로 각 사용자의 음성 데이터를 저장하는 시변 데이터 저장 단계;
시간 태그의 순서에 따라 상기 시변 데이터 저장 유닛에서 상기 사용자의 음성 데이터를 추출하여, 복수 그룹의 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 음성 데이터를 사용하여 상기 시간창 파이프에 포함된 음성 데이터를 업데이트하는 시간창 파이프 구축 단계;
업데이트 후의 상기 시간창 파이프에 포함된 상기 복수 그룹의 음성 데이터를 이용하여 해당 사용자의 사용자 성문 모델을 재구축하는 모델 재구축 단계; 를 더 실행하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제12항에 있어서,
상기 패스워드 음성 신호 즉 음성 데이터에 대해 파라미터화 처리를 함으로써, 최신 파라미터화 음성 데이터를 획득하는 파라미터화 단계를 더 구비하며,
상기 시변 데이터 저장 단계에서, 상기 최신 파라미터화 음성 데이터를 상기 시변 데이터 저장 유닛에 저장하되, 상기 시변 데이터 저장 유닛에 시간 태그 별로 각 사용자의 파라미터화 음성 데이터를 저장하고,
상기 시간창 파이프 구축 단계에서, 시간 태그의 순서에 따라 상기 시변 데이터 저장 유닛 중에서 상기 사용자의 파라미터화 음성 데이터를 추출하여, 복수 그룹의 파라미터화 음성 데이터를 포함하는 시간창 파이프를 구축하고, 상기 최신 파라미터화 음성 데이터를 이용하여 상기 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하며,
상기 모델 재구축 단계에서, 업데이트 후의 상기 시간창 파이프에 포함된 상기 복수 그룹의 파라미터화 음성 데이터를 사용하여 해당 사용자의 사용자 성문 모델을 재구축하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제13항에 있어서,
상기 음성 데이터 중의 각 프레임에 대응되는 음소를 인식하는 음성 인식 단계를 더 구비하며,
상기 시변 데이터 저장 단계에서, 상기 최신 파라미터화 음성 데이터에 대응되는 음소 및 이 음소에 대응되는 프레임 구간을 상기 시변 데이터 저장 유닛에 더 저장하고,
상기 시간창 파이프 구축 단계에서, 상기 최신 파라미터화 음성 데이터에 대응되는 음소에 근거하여, 상기 시간창 파이프에 포함된 상기 복수 그룹의 파라미터화 음성 데이터에 대응되는 음소가 균형되게 분포되도록, 상기 시간창 파이프에 포함된 파라미터화 음성 데이터를 업데이트하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제14항에 있어서,
상기 시간창 파이프 구축 단계에서, 상기 최신 파라미터화 음성 데이터에 대응되는 음소와 상기 시간창 파이프 중 최초 파라미터화 음성 데이터에 대응되는 음소를 비교하여, 양자의 매칭 정도가 소정의 매칭도 이상 일 경우, 상기 최신 파라미터화 음성 데이터를 상기 시간창 파이프에 푸쉬하고, 상기 최초 파라미터화 음성 데이터를 상기 시간창 파이프에서 제거하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제14항에 있어서,
상기 시간창 파이프 구축 단계에서, 시간 태그의 최초로부터 최신의 순서에 따라, 상기 시간창 파이프에서 시험적으로 일 그룹의 파라미터화 음성 데이터를 제거하고, 상기 시간창 파이프에 남아있는 모든 파라미터화 음성 데이터 및 상기 최신 파라미터화 음성 데이터에 근거하여 문자의 음소 분포에 의한 균형도를 산출하며,
상기 균형도가 소정의 균형도 역치이상 일 경우, 상기 최신 파라미터화 음성 데이터를 상기 시간창 파이프에 푸쉬하고,
상기 역치보다 작을 경우, 상기 시간창 파이프에 포함된 모든 파라미터화 음성 데이터에 대해 시험적으로 제거 또는 상기 최신 파라미터화 음성 데이터를 상기 시간창 파이프에 푸쉬 할 때까지, 시험적으로 제거한 상기 일 그룹의 파라미터화 음성 데이터를 상기 시간창 파이프로 회복시키고, 계속하여 상기 시간창 파이프에서 시험적으로 다음 파라미터화 음성 데이터를 제거하며, 다시 상기 시간창 파이프에 보류된 모든 파라미터화 음성 데이터 및 상기 최신 파라미터화 음성 데이터에 근거하여 상기 균형도를 산출하는 작업을 반복하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제15항 또는 제16항에 있어서,
상기 시간창 파이프에서 과거 시간대의 파라미터화 음성 데이터를 제거 시, 상기 시변 데이터 저장 유닛에서 상기 과거 시간대의 파라미터화 음성 데이터를 삭제하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제12항에 있어서,
상기 모델 재구축 단계에서, 상기 시변 데이터 저장 유닛에 저장된 상기 사용자의 음성 데이터를 업데이트하는 업데이트 빈도에 대해 판단하되, 상기 업데이트 빈도가 소정의 빈도보다 낮을 경우, 모델 자체 적응 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하고, 그 외의 경우 직접 재트레이닝하는 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제13항 또는 제14항에 있어서,
상기 모델 재구축 단계에서, 상기 시변 데이터 저장 유닛에 저장된 상기 사용자의 파라미터화 음성 데이터를 업데이트하는 업데이트 빈도에 대해 판단하되, 상기 업데이트 빈도가 소정의 빈도보다 낮을 경우, 모델 자체 적응 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하고, 그 외의 경우 직접 재트레이닝하는 방식을 통해 해당 사용자의 사용자 성문 모델을 재구축하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제13항에 있어서,
상기 파라미터화 단계에서, 상기 음성 데이터에 대해 상기 파라미터화 처리를 실시하기 전에, 상기 음성 데이터에 대해 음성 끝점 검출을 실시하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제13항에 있어서,
상기 파라미터화 단계에서, 상기 음성 데이터에 대해 상기 파라미터화 처리를 실시 시, 멜 주파수 캡스트럼 계수 MFCC를 특징 파라미터로 적용하고, 0차 MFCC 특징만을 보존하는 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.
제12항에 있어서,
상기 신분 인증 단계에서, 하기의 수학식에 따라 상기 신분 종합 신뢰도를 산출하되,

그중, CL은 상기 신분 종합 신뢰도이고,
은 패스워드 내용 신뢰도 평균치이고,
은 요청자 신분 음성 신뢰도 평균치이며, α는 패스워드 내용 신뢰도 평균치
와 요청자 신분 음성 신뢰도 평균치
의 조절 파라미터이고, α는 실수인 것을 특징으로 하는, 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 방법.