KR100673834B1 - Text-prompted speaker independent verification system and method - Google Patents

Text-prompted speaker independent verification system and method Download PDF

Info

Publication number
KR100673834B1
KR100673834B1 KR1020040101070A KR20040101070A KR100673834B1 KR 100673834 B1 KR100673834 B1 KR 100673834B1 KR 1020040101070 A KR1020040101070 A KR 1020040101070A KR 20040101070 A KR20040101070 A KR 20040101070A KR 100673834 B1 KR100673834 B1 KR 100673834B1
Authority
KR
South Korea
Prior art keywords
model
phoneme
authentication
speaker
word
Prior art date
Application number
KR1020040101070A
Other languages
Korean (ko)
Other versions
KR20060062287A (en
Inventor
고한석
이흥규
Original Assignee
고한석
이흥규
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고한석, 이흥규 filed Critical 고한석
Priority to KR1020040101070A priority Critical patent/KR100673834B1/en
Publication of KR20060062287A publication Critical patent/KR20060062287A/en
Application granted granted Critical
Publication of KR100673834B1 publication Critical patent/KR100673834B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 인증 시스템에 관한 것으로, 특히 문맥 요구형 화자 독립 인증(Text-Prompted Speaker Independent Verification)을 적용하여 입력되는 문맥에 대한 안티-모델을 자동 생성하고 발화된 음성 암호를 인증하는 화자독립 인증 시스템 및 방법에 관한 것이다. 본 발명의 화자 독립 인증 시스템에서 인증률은 향상시키면서 기존의 화자인증 시스템처럼 추가적인 훈련 요구 및 훈련을 위한 코드 데이터와 생성된 훈련 모델을 저장하기 위한 추가적 메모리를 요구하지 않기 위해 음성학에 근거하여 요구된 암호에 대한 안티모델을 자동 생성하는 기능을 가진다. 본 발명은 단어를 텍스트 데이터로 입력받고, 이를 분석하여 음소 단위로 분해하고, 이에 대응하는 안티음소를 상기 매칭 룩업테이블에 찾아 모델 및 안티-모델을 자동 생성하는 문맥분석부, 발화 된 음성암호에 대한 특징데이터를 추출하는 전처리부, 특징 데이터를 해석하기 위해 음성암호 모델 및 안티모델들간의 음소단위 라이클리후드 스코어들을 계산하여 출력하기 위해 히든 마코브 모델에 기반한 비터비 디코더를 실행하는 1단계 인증부, 인증 성공여부를 판단하기 위한 신뢰성 테스트를 수행하기 위한 2단계 인증부로 구성된다.The present invention relates to a voice authentication system, and in particular, a speaker-independent authentication that automatically generates an anti-model for an input context by applying a text-prompted speaker independent verification and authenticates a spoken voice password. System and method. In the speaker independent authentication system of the present invention, the encryption rate is required based on the phonetics in order to improve the authentication rate and not require additional training requirements and additional memory for storing the generated training model as well as additional training requirements and the existing speaker authentication system. It has a function to automatically generate anti-model for. The present invention receives a word as text data, analyzes it, decomposes it into phoneme units, and finds a corresponding anti-phone in the matching lookup table. Pre-processing unit extracting feature data for the first stage, one-step authentication to run Viterbi decoder based on Hidden Markov model to calculate and output phoneme-like Lykleehood scores between voice code model and anti-model to interpret feature data It is composed of a two-step authentication unit for performing a reliability test to determine whether the authentication success.

화자인증, 문맥 요구형 인증, 화자독립 인증, 안티-모델Speaker Authentication, Context Required Authentication, Speaker Independent Authentication, Anti-Model

Description

문맥 요구형 화자 독립 인증 시스템 및 방법{TEXT-PROMPTED SPEAKER INDEPENDENT VERIFICATION SYSTEM AND METHOD} TEXT-PROMPTED SPEAKER INDEPENDENT VERIFICATION SYSTEM AND METHOD}             

도 1은 본 발명의 실시 예에 따른 문맥 요구형 화자 독립 인증 시스템의 개략적인 구성도를 나타낸 도면1 is a schematic block diagram of a context-dependent speaker independent authentication system according to an embodiment of the present invention.

도 2는 본 발명의 실시 예에 따른 문맥 요구형 화자 독립 인증 시스템의 화자독립 인증방법을 나타낸 흐름도2 is a flowchart illustrating a speaker independent authentication method of a context-dependent speaker independent authentication system according to an exemplary embodiment of the present invention.

본 발명은 음성 인증 시스템에 관한 것으로, 특히 문맥 요구형 인증(Text-Prompted Verification)을 적용하여 입력되는 문맥에 대한 안티-모델을 자동생성하여 이를 이용하여 화자 독립 인증(Speaker Independent Verification)을 수행 가능하게 하는 문맥 요구형 화자독립 인증 시스템 및 방법에 관한 것이다.The present invention relates to a voice authentication system, and in particular, it is possible to perform speaker independent verification by automatically generating an anti-model for an input context by applying text-prompted verification. And a context-required speaker-independent authentication system and method.

일반적으로 음성 인식 기술은 음성인식(Speech Recognition) 시스템과 화자인증(Speaker Recognition) 시스템으로 분류된다. 상기 음성인식 시스템은 특별한 화자에 대해서만 인식하는 화자종속(Speaker Dependent) 음성인식 시스템과 화자에 상관없이 인식하는 화자독립(Speaker Independent) 음성인식 시스템으로 나누어진다. 또한 상기 화자인증 시스템은 말하는 사람이 누구인지 식별하는 시스템으로, 화자식별(Speaker Identification) 시스템과 화자검증(Speaker Verification) 시스템으로 구분된다. In general, speech recognition technologies are classified into speech recognition systems and speaker recognition systems. The speech recognition system is divided into a speaker dependent speech recognition system that recognizes only a specific speaker and a speaker independent speech recognition system that recognizes regardless of the speaker. In addition, the speaker authentication system is a system for identifying who is the speaker, and is divided into a speaker identification system and a speaker verification system.

상기 화자식별 시스템은 등록된 화자들 중에서 가장 유사한 화자를 찾아 그 화자가 누구인지를 알아낸 것이고, 상기 화자검증 시스템은 입력된 음성이 대상화자의 음성인지를 판별하는 시스템이다.The speaker identification system is to find out who is the most similar among the registered speakers and find out who the speaker is. The speaker verification system is a system for determining whether the input voice is the voice of the target speaker.

또한, 사용되는 음성대상의 종류에 따라 문맥 종속형(Text Dependent)과 문맥 독립형(Text Independent)으로 구분된다. 상기 문맥 종속형은 사용되는 음성대상이 미리 정하여진 문맥 안에서만 사용되는 것이고, 문맥 독립형은 사용되는 음성대상으로 사용되는 문맥이 미리 정해지지 않은 것이다.In addition, depending on the type of speech object used, it is divided into context dependent (Text Dependent) and context independent (Text Independent). The context-dependent type is used only in a context in which the voice object to be used is predetermined, and the context-independent type is a non-predetermined context used as the voice object to be used.

이러한 음성 인식 기술 중 화자인증 시스템은 무인경비 시스템의 보안장치, 전화망 서비스에서의 암호 키, 종업원 출퇴근관리, 인터넷 보안장치, 음성데이터 분류 및 군대 등의 보초병 로봇들을 비롯한 모든 종류의 보안 시스템에서 사용될 수 있다. Among these speech recognition technologies, the speaker authentication system can be used in all kinds of security systems, including security devices of unmanned security systems, encryption keys in telephone network services, employee commute management, Internet security devices, voice data classification, and sentry robots such as military. have.

상기 화자인증 시스템 중 화자식별 시스템은 화자들의 음성을 등록해야 한다. 구체적으로, 화자식별 시스템은 각 화자의 음성에서 음성특징 데이터를 추출하여 저장한다. 그리고 발화된 각 화자의 음성의 일반적인 음성특징 데이터를 얻기 위해서 화자인증시스템은 수회에서 수십회 반복하여 상기 음성을 반복 입력받아 훈 련하는 훈련과정을 수행하여야 발화된 단어에 대한 정규화된 음성특성데이터를 설정해 놓는다. 상기 정규화된 음성특성데이터를 통상 훈련 모델이라 한다.The speaker identification system of the speaker authentication system should register the voice of the speaker. Specifically, the speaker identification system extracts and stores voice feature data from each speaker's voice. And in order to obtain the general voice feature data of each speaker's voice, the speaker authentication system repeats the input of the voice several times several times and trains the trained process to receive the normalized voice characteristic data for the spoken word. Set it. The normalized voice characteristic data is commonly referred to as a training model.

이와 같이 모든 화자의 음성으로부터 화자의 음성을 수회에서 수십회 반복 입력해서 훈련 모델을 생성함에 따라 큰 용량의 메모리를 요구하게 된다. 따라서 메모리의 용량이 작은 경우에는 등록할 수 있는 화자의 수에 제한을 받게 된다.As described above, the speaker's voice is repeatedly inputted several times several dozen times from all the speaker's voices, thus requiring a large amount of memory. Therefore, when the memory capacity is small, the number of speakers that can be registered is limited.

또한, 사람들의 출입이 많은 곳에서의 출입암호로 사용되는 경우, 일 예로 군대 등과 같이 암호가 매일 바뀌고 출입하는 사람들이 많은 곳에서는 큰 용량의 메모리를 요구하게 되고 암호가 매일 바뀜에 따라 훈련 모델을 얻기 위해 매일 바뀌는 암호 구호에 대한 모든 군인들 각각의 음성들을 매일 반복해서 입력받아 훈련 모델을 생성해야 한다.In addition, when people are used as access passwords in many places, passwords are changed every day, such as the military, and where many people enter and demand large amounts of memory, and the training model is changed as the passwords change daily. To obtain a training model, we need to repeatedly input the voices of each soldier for every day's password slogans.

상기에서 설명한 바와 같이 종래 화자식별 시스템은 사람들의 출입이 많은 곳에서 상당히 큰 용량의 메모리를 요구하고, 이는 화자식별 시스템의 단가를 상승시키는 문제점이 있었다.As described above, the conventional speaker identification system requires a large amount of memory in a place where a lot of people go in and out, which increases the cost of the speaker identification system.

또한 종래 화자식별 시스템은 사람들의 출입이 많고 암호가 매일 또는 자주 바뀌는 곳에 사용될 경우에는 암호가 바뀔 때마다 훈련 모델을 얻기 위해 출입하는 모든 사람들의 음성을 수회에서 수십회 반복 입력해야 함에 따른 번거로움과 등록 과정에 많은 시간 소요되는 문제점이 있었다.In addition, when the speaker identification system is used in a place where a lot of people enter and change the password every day or frequently, the trouble of having to input the voice of all the people who enter and exit to obtain a training model every time the password is changed is repeated several times to several times. There was a problem that took a long time to register.

상기 화자검증 시스템은 현재 연구단계에 있으며 화자독립 검증을 수행하기 위한 방법들에 대한 연구가 활발히 진행되고 있고 있으며, 주로 상기 화자검증 시 스템의 보안성이 중요시 되므로 등록된 문맥과 입력되는 화자의 음성의 검증 정확도를 높이기 위한 구성과 방법들이 요구되어지고 있다.The speaker verification system is currently in the research stage and researches on methods for performing speaker independence verification are being actively conducted. Since the security of the speaker verification system is important, the registered context and the voice of the speaker to be input are mainly studied. There is a need for a configuration and methods to improve the verification accuracy of the system.

따라서, 본 발명의 목적은 기존의 등록과정 없이 문맥 요구형 화자 독립 인증을 적용하여 입력되는 문맥에 대한 안티-모델을 자동생성하고, 발화 된 암호의 인증을 수행하는 문맥 요구형 화자독립 인증 시스템 및 방법을 제공함에 있다.Accordingly, an object of the present invention is to automatically generate an anti-model for an input context by applying the context request speaker-independent authentication without the existing registration process, and to perform the authentication of the uttered cipher, In providing a method.

본 발명의 다른 목적은 기존의 등록 과정 없이 안티-모델을 자동생성 및 활용하여 화자 검증의 정확도를 높일 수 있는 문맥 요구형 화자 독립 검증 시스템 및 그 제어 방법을 제공함에 있다.Another object of the present invention is to provide a context-independent speaker independent verification system and control method thereof, which can improve speaker verification accuracy by automatically generating and utilizing an anti-model without an existing registration process.

본 발명의 다른 목적은 안티-모델을 생성하기 위해 음성학에 기반하여 통계적으로 발화 방식 및 위치 거리가 먼 정보를 이용한 음소-안티음소 매칭 룩업테이블을 가지는 문맥 요구형 화자 독립 검증 시스템 및 그 제어방법을 제공함에 있다.Another object of the present invention is to provide a context-independent speaker independent verification system having a phoneme-antiphone matching lookup table using statistically uttered speech and remote location information based on phonetics to generate an anti-model and a control method thereof. In providing.

상기한 목적을 달성하기 위한 본 발명의 장치는; 화자 독립 인증 시스템의 인증률 향상 및 기존의 화자인증 시스템처럼 추가적인 훈련을 요구하지 않고, 이를 위해 추가적인 메모리를 요구하지 않는 시스템을 위해 음성학에 근거하여 요구된 암호에 대한 안티모델을 자동 생성하는 기능을 가진다. 이를 위해 음소-안티음소 매칭 룩업테이블을 가진다. 본 발명은 단어를 텍스트 데이터로 입력받고, 이를 분석하여 음소 단위로 분해하고, 이에 대응하는 안티음소를 상기 매칭 룩업테이블에 찾아 모델 및 안티-모델을 자동 생성하는 문맥분석부, 발화 된 음성암호에 대한 특 징데이터를 추출하는 전처리부, 특징 데이터를 해석하기 위해 음성암호 모델 및 안티모델들간의 음소단위 라이클리후드 스코어들을 계산하여 출력하기 위해 히든 마코브 모델에 기반한 비터비 디코더를 실행하는 1단계 인증부, 인증 성공여부를 판단하기 위한 신뢰성 테스트를 수행하기 위한 2단계 인증부로 구성됨을 특징으로 한다.The apparatus of the present invention for achieving the above object; It improves the authentication rate of the speaker independent authentication system and has the function of automatically generating an anti-model for the required password based on phonetics for a system that does not require additional training and does not require additional memory like the existing speaker authentication system. . To do this, we have a phoneme-antiphone matching lookup table. The present invention receives a word as text data, analyzes it, decomposes it into phoneme units, and finds a corresponding anti-phone in the matching lookup table. Preprocessing unit extracting feature data for the first stage, and executing Viterbi decoder based on Hidden Markov model to calculate and output phoneme-like Lykly Hood scores between voice code model and anti-model to interpret feature data The authentication unit is characterized by consisting of a two-step authentication unit for performing a reliability test to determine whether the authentication success.

상기한 목적을 달성하기 위한 본 발명의 방법은; 음성학에 근거한 음소-안티음소 매칭 룩업테이블을 가지고 있는 문맥분석부와, 히든 마코브 모델 비터비 디코더와, 인증 성공여부를 판단하기 위한 임계치를 가지고 있는 음성인증부로 구성되는 화자 독립 인증 방법에 있어서, 단어를 텍스트 데이터로 입력받아 상기 사전부를 참조하여 상기 단어에 대한 모델 및 안티-모델을 생성하여 출력하는 과정과, 상기 모델 및 안티-모델을 입력받아 저장한 후 발화된 단어에 대한 음성특징데이터를 입력받아 상기 모델 및 안티-모델들간의 음소단위 라이클리후드 스코어들을 계산하여 출력하는 과정과, 상기 음소단위 라이클리후드 스코어들을 입력받아 상기 음소단위 라이클리후드 스코어들 각각에 대한 신뢰측정값을 계산하여 누적하고, 누적된 신뢰측정값과 상기 임계치를 비교하여 상기 누적된 신뢰측정값이 상기 임계치보다 크면 인증 성공 신호를 생성하여 출력하는 과정으로 구성됨을 특징으로 한다.
The method of the present invention for achieving the above object; In the speaker independent authentication method comprising a context analysis unit having a phoneme-antiphone matching lookup table based on phonetics, a Hidden Markov model Viterbi decoder, and a voice authentication unit having a threshold for determining whether the authentication succeeds. Receiving a word as text data and generating and outputting a model and an anti-model for the word with reference to the dictionary, and receiving and storing the model and the anti-model for voice feature data of the spoken word. A method of calculating a phoneme-like Lykleehood score between the model and the anti-models and outputting the calculated unit, and calculating the confidence measure for each of the phoneme-based Lykleehood scores. By accumulating, and comparing the accumulated confidence measurement value with the threshold and accumulating the accumulated confidence measurement value. Characterized the process consists of generating and outputting an authentication success signal is greater than the threshold.

이하, 본 발명에 따른 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설 명되며 그 이외 부분의 설명은 본 발명의 요지를 벗어나지 않도록 생략될 것이라는 것을 유의하여야 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. It should be noted that in the following description, only parts necessary for understanding the operation according to the present invention will be described, and descriptions of other parts will be omitted so as not to depart from the gist of the present invention.

본 발명에서는 문맥 요구형 화자 독립 인증 기술이 적용된다. 상기 문맥 요구형 화자 독립 인증이란 임의로 요구된 암호를 말하게 하여 화자를 인증하는 화자 인증 시스템이다. 구체적으로 상기 문맥 요구형 화자 독립 인증은 음소 모델을 사용하는 방법으로, 요구된 암호를 발화한 화자일 경우에만 받아들이는 시스템이다. 요구된 암호는 조율된 음성을 사용하고, 사용되는 어휘는 무제한이기 때문에 어떤 암호가 사용될지는 아무도 모른다. 상기 문맥 요구형 화자 독립 인증 기술은 이러한 방법으로 정확히 화자를 인증하는 시스템이다.In the present invention, a context request type speaker independent authentication technique is applied. The context-required speaker independent authentication is a speaker authentication system for authenticating a speaker by saying an arbitrarily requested password. Specifically, the context-independent speaker-independent authentication is a system using a phoneme model, and is a system that accepts only the speaker who uttered the requested password. The password required uses a tuned voice, and no one knows which password will be used because the vocabulary used is unlimited. The context-required speaker independent authentication technique is a system for authenticating a speaker accurately in this manner.

또한, 본 발명서는 입력되는 텍스트 데이터에 대한 음소들의 확률 거리를 사용하여 안티-모델들을 생성하기 위한 안티-모델 구조를 제안한다.In addition, the present invention proposes an anti-model structure for generating anti-models using probability distances of phonemes for input text data.

도 1은 본 발명의 실시 예에 따른 문맥 요구형 화자 독립 인증 시스템의 개략적인 구성도를 나타낸 도면이다. 이하 도 1을 참조하여 본 발명에 따른 문맥 요구형 화자 독립 인증 시스템의 구성 및 동작을 설명한다.1 is a diagram illustrating a schematic configuration of a context-dependent speaker independent authentication system according to an exemplary embodiment of the present invention. Hereinafter, the configuration and operation of a context request-type speaker independent authentication system according to the present invention will be described with reference to FIG. 1.

본 발명에 따른 문맥 요구형 화자 독립 인증 시스템은 문맥 분석부(10)와 전처리부(20)와 히든 마코브 모델 비터비 디코더(30)와 음성 인증부(40)로 구성된다.The context-dependent speaker independent authentication system according to the present invention includes a context analyzer 10, a preprocessor 20, a hidden Markov model Viterbi decoder 30, and a voice authenticator 40.

상기 문맥분석부(10)는 본 발명에 따라 문맥 요구형 화자 독립 인증 기술이 적용되므로 문맥, 즉 텍스트 데이터를 입력받고, 상기 텍스트 데이터에 대한 모델 및 안티-모델을 생성하여 출력한다.The context analysis unit 10 receives a context, that is, text data, and generates and outputs a model and an anti-model for the text data since the context request type speaker independent authentication technique is applied according to the present invention.

상기 문맥분석부(10)는 한국어 단어 변환 규칙을 가지고 있으며, 음성학에 근거한 음소-안티음소 매칭 룩업테이블을 가지고 있는 사전부(15)와 상기 입력되는 텍스트 데이터를 상기 사전부(15)를 참조하여 음소단위로 분해하고, 분해된 음소단위 텍스트 데이터를 출력하는 문자소/음소 변환기(Grapheme to Phoneme: G2P-11)와 상기 음소단위 텍스트 데이터를 기초로 하여 상기 문맥에 대한 모델 및 안티-모델을 생성하는 안티-모델 생성기(13)로 구성된다.The context analysis unit 10 has a Korean word conversion rule, the dictionary unit 15 having a phoneme-anti-phoneme matching lookup table based on phonetics and the input text data with reference to the dictionary unit 15. Generate a model and an anti-model for the context based on a phoneme / phone converter (G2P-11) that decomposes into phoneme and outputs the decomposed phoneme text data and the phoneme text data. It consists of an anti-model generator 13.

전처리부(20)는 마이크로폰(Microphone) 등을 통해 입력되는 음성신호로부터 음성특징에 따른 음성특징데이터를 생성하여 출력한다.The preprocessing unit 20 generates and outputs voice feature data according to voice features from a voice signal input through a microphone or the like.

상기 히든 마코브 모델 비터비 디코더(Hidden Markov Model Viterbi Decoder: 이하 "HMM 비터비 디코더"라 함-30)는 상기 문자소/음소 변환기(11)로부터 출력되는 문맥에 대한 모델 및 안티-모델을 입력받아 저장하며, 전처리부(20)로부터 음성특징데이터를 입력받고 상기 모델 및 안티-모델을 관측 심볼열로 하여 문맥 요구형 화자독립인증에 따른 HMM 알고리즘을 수행하여 인식을 수행한다. 상기 HMM 비터비 디코더(30)는 입력된 음성특징데이터와 상기 미리 저장되어 설정되어 있는 모델과 음소단위의 N베스트 문자열로 테스트 발화을 분할하는 통상적인 비터비 빔 검색(Viterbi Beam Search) 알고리즘을 수행하여 제1 인증을 수행한다. 구체적으로, 상기 HMM 비터비 디코더(30)는 상기 문맥분석부(10)로부터 모델 및 안티-모델을 입력받아 단어 네트워크를 구성하며, 발화된 단어에 대한 음성특징데이터를 입력받아 문맥 요구형 화자독립인증에 따른 상기 모델 및 안티-모델들간의 음소단위 라이클리후드 스코어들을 계산하여 출력한다.The Hidden Markov Model Viterbi Decoder (hereinafter referred to as " HMM Viterbi Decoder " -30) inputs a model and an anti-model for the context output from the phoneme / phoneme converter 11. Receives and stores the voice feature data from the preprocessor 20 and performs the HMM algorithm according to the context-required speaker independence authentication using the model and the anti-model as observation symbol strings to perform recognition. The HMM Viterbi decoder 30 performs a conventional Viterbi Beam Search algorithm for dividing a test speech into input voice feature data, the pre-stored model, and the N-best string of phonemes. Perform first authentication. In detail, the HMM Viterbi decoder 30 receives a model and an anti-model from the context analyzer 10 to form a word network, and receives a voice feature data for a spoken word. Phoneme-like Lyclihood scores between the model and the anti-models according to the authentication are calculated and output.

음성인증부(40)는 상기 HMM 비터비 디코더(30)에서 출력되는 음소단위 라이 클리후드 스코어를 입력받고 로그-라이클리후드 율 테스트(Log-likelihood Ratio Test: 이하 "LRT"라 함)를 수행하고 인식된 음성특성데이터를 승낙할지 거부할지의 여부를 결정하는 신뢰측정을 계산하고 상기 신뢰측정에 대한 최종 인증결과를 출력한다.The voice authentication unit 40 receives a phoneme unit Lyclihood Score output from the HMM Viterbi decoder 30 and performs a Log-likelihood Ratio Test (hereinafter referred to as "LRT"). A confidence measure for determining whether to accept or reject the recognized voice characteristic data is calculated and a final authentication result for the trust measure is output.

도 2는 본 발명의 실시 예에 따른 문맥 요구형 화자 독립 인증 시스템의 제어방법을 나타낸 흐름도다. 이하 도 1내지 도2를 참조하여 본 발명에 따른 안티-모델 생성 방법을 구체적으로 설명한다.2 is a flowchart illustrating a control method of a context-dependent speaker independent authentication system according to an exemplary embodiment of the present invention. Hereinafter, an anti-model generation method according to the present invention will be described in detail with reference to FIGS. 1 to 2.

먼저, 문맥 요구형 화자 검증에 대해 간단히 설명하면, 문맥 요구형 화자 검증에서 라이클리후드 정규화 방법에 사용되는 확률은 수학식 1과 같다.First, the context-requested speaker verification will be described briefly. In the context-required speaker verification, the probability used for the Lyclihood normalization method is expressed by Equation 1.

문맥 요구형 화자 인증에서 상기 라이클리후드 정규화 방법에 사용되는 다음 확률은 하기 수학식 1과 같이 주어진다.The following probabilities used in the Lyklihood normalization method in the context demanded speaker authentication are given by Equation 1 below.

Figure 112004057052175-pat00001
Figure 112004057052175-pat00001

여기서, Si는 화자이고, Sc는 요구된 화자이다. Wi는 문맥이고 Wc 는 상기 요구된 문맥이다. P(Si, Wj)는 화자 i와 텍스트 j에 대한 동시 확률이다. p(O/Sc , Wc)는 상기 요구된 문맥에 상응하는 요구된 화자의 조인트(joint) 확률이다.Where S i is the speaker and S c is the required speaker. W i is the context and W c is the requested context. P (S i , W j ) is the simultaneous probability for speaker i and text j. p (O / S c , W c ) is the joint probability of the requested speaker corresponding to the requested context.

본 발명의 화자독립 화자 인증 시스템은 화자독립 인증이기 때문에 상기 음성 코드 인증에서의 Sc와 Si는 무시될 수 있다. 따라서 상기 수학식 1은 하기 수학식 2와 같이 간단하게 될 수 있다.S c and S i in the speech code authentication because the speaker-independent speaker authentication system of the present invention is speaker-independent authentication may be ignored. Therefore, Equation 1 may be simplified as Equation 2 below.

Figure 112004057052175-pat00002
Figure 112004057052175-pat00002

상기 수학식 2에서 Wc는 발화된 단어 시퀀스이고, p(O/Wj)는 단어 네트워크에 생성 된 모든 단어 모델들에 대한 병렬 음소 HMM 네트워크를 사용하는 n 최대 라이클리후드들의 합들에 의해 근사화 된다.In Equation 2, W c is an uttered word sequence, and p (O / W j ) is approximated by the sum of n maximum lyclihoods using a parallel phoneme HMM network for all word models generated in the word network. do.

그 결과로서, 상기 화자 정보가 무시된다면, 상기 문맥 요구형 화자 인증 기술은 하기 수학식 3과 같이 단어들 중 가장 유사한 시퀀스를 찾기 위한 맵(Maximum a Posteriori: "MAP"이라 함) 결정 규칙을 사용하는 패턴 분류 문제처럼 통상적인 ASR 알고리즘과 동일해진다.As a result, if the speaker information is ignored, the context-required speaker authentication technique uses a map decision rule to find the most similar sequence of words, as shown in Equation 3 below. The pattern classification problem is the same as the conventional ASR algorithm.

Figure 112004057052175-pat00003
Figure 112004057052175-pat00003

여기서 L(O/Wj)는 워드(단어) Wj로 주어진 관측 시퀀스,O(Observation)의 라이클리후드이다. 문맥 요구형 인증에서 이것은 주어진 단어의 수, j가 1과 동일해지는 시점이다. 이 시점에서 누군가가 문맥 요구형 인증에 대해 잘못된 단어를 말 했을 때, 우리는 라이클리후드 스코어를 테스트하기 위한 모델들이 정규화 되지 않았기 때문에 상기 발화된 단어는 인증할 수 없다. 따라서, 누군가가 잘못된 음성 코드를 말할 때 요구된 음성 코드 모델 중 하나 이상의 라이클리후드 스코어를 증가하는 모델들을 필요로 한다.Where L (O / W j ) is the reticle hood of the observation sequence O (Observation) given by word (word) W j . In context-required authentication, this is the point where the number of words given, j, equals one. At this point, when someone says the wrong word for context-required authentication, we cannot authenticate the spoken word because the models for testing the Lyclihood Score are not normalized. Thus, there is a need for models that increase the Lyclihood score of one or more of the required voice code models when someone speaks a wrong voice code.

따라서 본 발명에서는 대립 가설 모델에 대해 음성학에서 사용되고 있는 오리지널 음향 모델을 재사용한다. 안티-모델로서 대립 가설 모델들은 문맥 요구형 단어에 관하여 음소 정보의 분석을 통해 자동적으로 생성되어질 수 있다.Therefore, the present invention reuses the original acoustic model used in phonetics for the alternative hypothesis model. As anti-models, alternative hypothesis models can be generated automatically through analysis of phonemic information about context-required words.

상기 안티-모델은 다음의 수학식 4와 같이 입력되는 텍스트 데이터와 경쟁하는 역할을 한다.The anti-model plays a role of competing with the input text data as shown in Equation 4 below.

Figure 112004057052175-pat00004
Figure 112004057052175-pat00004

여기서, W0은 제공된 텍스트 데이터이고,

Figure 112004057052175-pat00005
은 안티-음소들의 조합 및 라이클리후드 정규화를 위해 사용되는 경쟁 모델이다. Wk는 다음 수학식 5와 같이 음절들로 구성된 단어를 말한다.Where W 0 is the provided text data,
Figure 112004057052175-pat00005
Is a competitive model used for the combination of anti-phonemes and Rileyhood normalization. W k is a word composed of syllables as shown in Equation 5 below.

Figure 112004057052175-pat00006
Figure 112004057052175-pat00006

상기 N은 음절수 이다. 그리고 음절 단위(SN k)는 다음 수학식 6과 같이 문맥 독립 음소 단위의 연결로 표현할 수 있다.N is the number of syllables. The syllable unit S N k may be expressed as a concatenation of context independent phoneme units, as shown in Equation 6 below.

Figure 112004057052175-pat00007
Figure 112004057052175-pat00007

상기 M은 음소의 수이다. 최종적으로 이 문맥 독립 음소 단위는 안티-음소 단위들이 구성된 후에 문맥 종속 음소 단위로 변경된다. 따라서 상기 안티-음소 단위들이 문맥 종속 모델이 된다.M is the number of phonemes. Finally, this context independent phoneme unit is changed to a context dependent phoneme unit after the anti-phoneme units are formed. The anti-phone units thus become a context dependent model.

상기 수학식 4에서 보여진 바와 같이 상기 히든 마코브 모델 비터비 디코더(30)에서 비터비 알고리즘은 최대의 라이클리후드 값을 가지는 단어 Wk를 찾기 위해 적용된다. 상기 히든 마코브 모델 비터비 디코더(30)에서 제공된 텍스트 데이터(요구된 암호)는 다음 수학식 7과 같이 우선적으로 인증된다As shown in Equation 4, in the hidden Markov model Viterbi decoder 30, the Viterbi algorithm is applied to find the word W k having the maximum Lyclihood value. The text data (required cipher) provided by the hidden Markov model Viterbi decoder 30 is preferentially authenticated as in Equation 7 below.

Figure 112004057052175-pat00008
Figure 112004057052175-pat00008

만일 상기 인증 결과, PVC가 참이라면, 히든 마코브 모델 비터비 디코더(30)는 라이클리후드 스코어를 테스트하기 위한 음성인증부(40)로 인식된 결과인 인식 단위열을 입력한다. 반대로 거짓이라면 인증을 거부하게 된다.If the PVC is true as a result of the authentication, the hidden Markov model Viterbi decoder 30 inputs a recognition unit string which is a result recognized by the voice authentication unit 40 for testing the Lyclihood score. Conversely, if false, authentication will be rejected.

이하에서는 확률적 거리에 대립하는 안티-모델들의 구성 방법을 설명한다. Hereinafter, a method of constructing anti-models opposed to stochastic distances will be described.

우선, 201단계에서 컴퓨터 등의 외부 문맥 입력 장치등으로부터 문맥이 입력되면 문자소/음소 변환기(11)는 203단계에서 상기 제공된 텍스트 데이터를 입력받 고 사전부(15)를 참조하여 자동적으로 음소 스트링으로 변경하여 출력한다.First, when a context is input from an external context input device such as a computer in step 201, the phoneme / phoneme converter 11 receives the provided text data in step 203 and automatically refers to the phoneme string with reference to the dictionary unit 15. Change to and print it out.

따라서, 안티-모델들을 구성하기 위해 다음 규칙들은 적용된다.Thus, the following rules apply to construct anti-models.

첫 번째로,주어진 문맥, 즉 텍스트 데이터를 구성하는 음절들 중 일부만 다른 음절을 포함하는 유사 단어를 발음했을 경우의 안티-모델 구성규칙은 다음과 같다.First, the anti-model construction rules when a given word is pronounced similar words containing only some of the syllables constituting the text data are as follows.

상기 텍스트 데이터는 음절의 연쇄로 구성될 수 있다. 주어진 텍스트 데이터, Wo는 다음 수학식 8과 같이 표현할 수 있다.The text data may be composed of a series of syllables. Given text data, W o can be expressed as in Equation 8.

Figure 112004057052175-pat00009
Figure 112004057052175-pat00009

상기 N은 주어진 텍스트 데이터의 음절의 총수이다. 만일 음성을 말하는 사람이 상기 문맥과 비슷한 단어를 말한다면, 예를 들어, 주어진 텍스트 데이터가 "정보검색"이라고 가정하고 어떤 사람이 비슷한 단어로 "정보검증"이란 단어를 말한다면, 시스템은 결과값으로 인증 성공이 될 수도 있다. 이런 경우는 임의의 사람이 다음 수학식 9와 같은 단어들을 말할 때 발생할 수 있다.N is the total number of syllables of the given text data. If the person speaking the voice says a word similar to the above context, for example, assuming that the given text data is "information retrieval" and a person says the word "information verification" in a similar word, the system returns This can be a successful authentication. This case may occur when any person speaks words such as the following equation (9).

Figure 112004057052175-pat00010
Figure 112004057052175-pat00010

여기에서 N은 주어진 문맥에 대한 음절 모델들의 수이고,

Figure 112004057052175-pat00011
는 상기 안티-음절이다.
Figure 112004057052175-pat00012
은 안티-단어이고, N개의 안티-단어가 있다는 뜻이다. 만일 사람이 상기
Figure 112004057052175-pat00013
에 속하는 단어를 말한다면, 예를 들면, 주어진 문맥이 상기 예에서와 같이
Figure 112004057052175-pat00014
는 "점보검색", "정보검증" 등과 같이 안티-음절 ,
Figure 112004057052175-pat00015
가 적용된 유사한 단어를 말한다면, 이것은 때때로 인증 성공으로 끝날 수 있다. 상기 유사한 단어는 음성학적으로 유사한 단어를 의미한다.Where N is the number of syllable models for a given context,
Figure 112004057052175-pat00011
Is the anti-syllable.
Figure 112004057052175-pat00012
Is an anti-word, meaning there are N anti-words. If anyone remind
Figure 112004057052175-pat00013
For example, if a word belongs to a given context,
Figure 112004057052175-pat00014
Anti-syllables, such as "jumbo search", "information verification",
Figure 112004057052175-pat00015
If you say a similar word with, this can sometimes end with a successful authentication. The similar words mean phonetically similar words.

따라서 본 발명에서는 음소들과 상기 각 음소에 음성학적으로 유사한 안티-음소들을 매칭시킨 하기의 표 1과 같은 음소-안티음소 매칭 룩업테이블을 제안한다. 따라서 사람이 유사한 암호를 말할 때 텍스트 데이터 모델에 경쟁하는 것을 통해 잘못된 수락을 막기 위해 상기 안티-모델 생성기(13)는 상기 203단계에서 상기 문자소/음소 변환기(11)로부터 음소단위로 분리된 텍스트 데이터를 입력받고 205단계에서 상기의 수학식 9를 사용하여 안티-모델을 생성하고 히든 마코브 모델 비터비 디코더(30)로 출력한다. 상기 히든 마코브 모멜 비터비 디코더(30)는 상기 생성된 모델과 안티-모델을 입력받아 저장한다.Accordingly, the present invention proposes a phoneme-antiphone matching lookup table as shown in Table 1 below, in which phonemes and anti-phonemes that are phonologically similar to each phoneme are matched. Thus, in order to prevent false acceptance by competing against the text data model when a person speaks a similar cipher, the anti-model generator 13 performs the phoneme-separated text from the phoneme / phoneme converter 11 in step 203. After receiving the data, in step 205, the anti-model is generated using Equation 9 and output to the hidden Markov model Viterbi decoder 30. The hidden Markov Momel Viterbi decoder 30 receives and stores the generated model and the anti-model.

구체적으로, 상기 안티-음절 모델은 수학식 10과 같은 각 음절 단위에 대한 안티-음소의 연쇄를 사용하는 것으로 구성될 수 있다.Specifically, the anti-syllable model may be configured to use a chain of anti-phonemes for each syllable unit as shown in Equation (10).

Figure 112004057052175-pat00016
Figure 112004057052175-pat00016

상기 안티-음소를 선택하기 위한 판단은 음소와 안티-음소 사이의 순서로 매치(Match)되는 표1과 같이 음성학에서 정의되고 있는 음소 분류 방법을 사용하여만 한다. 예를 들면, 주어진 단어가 "정보검색"이라면 음절 "보"이고 "음절 "보"의 음소는 "ㅂ"와 "ㅗ"이다. 상기 음소들의 안티-음소는 "ㄲ"과 "l"이므로 안티-음절 는 "끼"가 된다. The judgment for selecting the anti-phone is to use the phoneme classification method defined in phonetics as shown in Table 1, which matches in the order between the phoneme and the anti-phone. For example, if the given word is "information search", the syllable "Bo" and the syllable "Bo" are "ㅂ" and "ㅗ". -Syllable becomes "meat"

Figure 112006049193556-pat00057
Figure 112006049193556-pat00057

본 발명에 따른 화자독립인증 시스템은 상기 표 1(이하 "음소-안티음소 매칭 룩업테이블"이라 함)을 사전부(15)에 저장하고 있어야 한다. The speaker independent authentication system according to the present invention should store Table 1 (hereinafter, referred to as a "phoneme-antiphone matching lookup table") in the dictionary unit 15.

자음Consonant 모음collection A gg Lol khkh H chch aa yoyo yvyv N nn thth jj vv yuyu yaya C dd phph jjjj oo yaeyae wewe D rr hh ngng TT uu yeye euieui M mm gggg ssss eueu wawa WvWv bb dddd ii wewe wewe S ss bbbb ee wiwi ee

상기 표 2는 이해를 위해 매치된 한글과 영어 사이의 음소 셋을 표시한 것이 다. 본 발명에서는 한글 음성 코드 인증을 위한 44개의 음소 셋을 사용한다.Table 2 shows a phoneme set between Korean and English matched for understanding. In the present invention, a set of 44 phonemes for Korean voice code authentication is used.

상기 안티-음소는 음소와 1:1 매칭으로 선택된다.The anti-phone is selected in 1: 1 matching with the phoneme.

각 음절의 안티-모델들을 만들기 위해서 자음과 모음으로 구성되는 각 음절을 찾기 위해서 파싱 프로세스(Parsing Process)를 필요로 하는 상기 문맥이 문자소/음소 변환기(11)를 사용하는 음소 리스트로 변경된 후 제공된 텍스트 데이터에 대응하는 음절은 표 1에 따라 사용하는 안티-음소를 안티-음절로 변경한다.The context, which requires a parsing process to find each syllable consisting of consonants and vowels to create anti-models of each syllable, is provided after changing to a phoneme list using the phoneme / phoneme converter 11 The syllables corresponding to the text data change the anti-phonemes used according to Table 1 to anti-syllables.

한글에서 음절은 "C+V", "C+V+C", "V+C" 그리고 "V"로 구성될 수 있다. 여기서 C는 자음이고 V는 모음이다. 한글 음절은 표 3과 같이 9개의 그룹으로 분류될 수 있다.In Hangul, syllables can be composed of "C + V", "C + V + C", "V + C" and "V". Where C is a consonant and V is a vowel. Hangul syllables can be classified into nine groups as shown in Table 3.

이 규칙을 사용하여 주어진 문맥은 음절 리스트로 분류된다.Using this rule, a given context is classified into a syllable list.

음절Syllable 단어 생성 규칙Word generation rules 그룹group 그룹 번호Group number 비고Remarks CVCV CV/CVCV / CV CV/CV (PART1)CV / CV (PART1) 1One CV/CVCCV / CVC CV/VCCV / VC CV/V (PART2)CV / V (PART2) 22 CV/VCV / V CVCCVC CVC/CVCVC / CV CVC/C (PART3)CVC / C (PART3) 33 CVC/CVCCVC / CVC CVC/VCCVC / VC CVC/V (PART4)CVC / V (PART4) 1One 한국 발음 규칙에 따라 PART1을 따른다.Follow PART1 according to Korean pronunciation rules. CVC/VCVC / V VCVC VC/CVVC / CV VC/C (PART5)VC / C (PART5) 44 VC/CVCVC / CVC VC/VCVC / VC VC/V (PART6)VC / V (PART6) 55 한국 발음 규칙에 따라 PART7을 따른다.Follow PART7 according to Korean pronunciation rules. VC/VVC / V VV V/CVV / CV V/CV (PART7)V / CV (PART7) 55 V/CVCV / CVC V/VCV / VC V/V (PART8)V / V (PART8) 66 V/VV / V

두 번째, 어떤 사람이 제공된 텍스트 데이터의 모든 부분들을 포함하는 유사한 단어를 발음했을 경우에는 다음규칙을 따른다. 어떤 사람이 상기 암호 문맥에 대해 어떤 유사한 단어를 말하면, 종종 인증 성공 결과를 가져온다. 그것은 다음과 같은 잘못된 단어을 발음할 때일 것이다.Second, if a person pronounces a similar word that includes all parts of the provided text data, the following rules apply: When someone speaks some similar word for the cryptographic context, it often results in authentication success. It may be when you pronounce the wrong word:

Figure 112004057052175-pat00017
Figure 112004057052175-pat00017

상기 M은 주어진 텍스트 데이터 모델과 경쟁하는 안티-음절 모델들의 수이다. 그리고 안티-음절,

Figure 112004057052175-pat00018
은 그것의 음절, SN과 일치한다. 이러한 경우를 막기 위해서 안티-모델로서 상기 수학식 11을 사용한다. 상기 안티-음절 모델은 또한 표 1 또는 표 2를 사용하여 구성될 수 있다.M is the number of anti-syllable models competing with a given text data model. And anti-syllables,
Figure 112004057052175-pat00018
Matches its syllable, S N. In order to prevent this case, Equation 11 is used as an anti-model. The anti-syllable model can also be constructed using Table 1 or Table 2.

세 번째로, 어떤 사람이 상기 암호 문맥에 대해 어떤 부분이 유사한 단어를 말했을 경우 다음 규칙들이 적용된다. 어떤 사람이 상기 암호문맥에 대해 어떤 유사한 단어를 말하면 종종 인증 성공으로 결과할 수 있다. 이것은 어떤 사람이 다음 수학식 12와 같은 문맥을 말했을 때 발생한다.Third, the following rules apply when someone speaks a word that is similar in part to the cryptographic context. Someone saying some similar words for the ciphertext can often result in authentication success. This happens when someone speaks a context such as

Figure 112004057052175-pat00019
Figure 112004057052175-pat00019

여기서 N-1은 안티-음절 모델들의 수이다. 이런 경우를 방지하기 위해서 본 발명은 안티-모델들로서 수학식 12를 사용하고 추가적으로, 하기 수학식 13과 같이 수학식 12에 대비되는 안티-모델들을 사용할 수 있다.Where N-1 is the number of anti-syllable models. In order to prevent such a case, the present invention uses Equation 12 as anti-models, and additionally, anti-models can be used as opposed to Equation 12 as shown in Equation 13 below.

Figure 112004057052175-pat00020
Figure 112004057052175-pat00020

최종적으로, 다음 수학식 14가 적용된다.Finally, the following equation (14) is applied.

Figure 112004057052175-pat00021
Figure 112004057052175-pat00021

이러한 안티-모델들은 주어진 텍스트 데이터의 분석을 통해서 구성되어 HMM 비터비 디코더(30)에 저장된 후 입력된 텍스트 데이터 모델에 경쟁하기 위해서 사용된다.These anti-models are constructed through analysis of the given text data and stored in the HMM Viterbi decoder 30 and then used to compete with the input text data model.

상기와 같이 문맥에 대한 모델 및 상기 모든 경우에 해당하는 경쟁 모델로서의 안티-모델이 205단계에서 HMM 비터비 디코더(30)에 저장되어 설정된 후에 상기 요구된 문맥에 대해 발화된 음성특징데이터를 입력받는 히든 마코브 모델 비터비 디코더(30)는 207단계에서 누군가가 입력하는 발음에 대한 음성특징데이터를 입력받고 음소단위로 상기 저장된 모델 및 안티-모델들간의 라이클리후드 스코어를 계산한다. 이때 상기 누군가가 잘못된 단어 및 절을 발음했다면 HMM 비터비 디코더(30)는 주어진 단어에 대한 모델의 라이클리후드 스코어를 감소하고 주어진 단어의 안티-모델들의 라이클리후드 스코어는 증가시킬 것이다.As described above, the model for the context and the anti-model as a competition model corresponding to all the cases are stored and set in the HMM Viterbi decoder 30 in step 205 to receive the speech feature data spoken for the requested context. The hidden Markov model Viterbi decoder 30 receives the voice feature data of the pronunciation input by someone in step 207 and calculates the Lyklihood score between the stored model and the anti-models on a phoneme basis. If the person pronounced the wrong word and clause then the HMM Viterbi decoder 30 would decrease the lyclie hood score of the model for the given word and increase the lycly hood score of the anti-models of the given word.

상기 HMM 비터비 디코더(30)에서 계산된 상기 모델과 안티-모델에 대한 라이클리 후드 스코어들은 음소단위의 연속 시퀀스로 음성인증부(40)로 입력한다.The Lyklee hood scores for the model and anti-model calculated by the HMM Viterbi decoder 30 are input to the voice authentication unit 40 in a continuous sequence of phonemes.

상기 모델과 안티-모델에 대한 라이클리 후드 스코어들을 입력받은 음성인증부(40)는 상기 음소단위의 라이클리후드 스코어들 각각에 근거한 LRT를 수행하고, 상기 LRT를 정규화하며 정규화된 LRT에 의해 신뢰측정값을 계산한다. 상기 계산된 음소단위의 신뢰측정값(Confidence measure: CM)들을 누적하여 상기 주어진 단어에 대한 최종 신뢰측정값을 계산하여 출력한다.The voice authentication unit 40 that receives the Lyklee hood scores for the model and the anti-model performs an LRT based on each of the phoneme-like Lyklee hood scores, normalizes the LRT, and trusts the normalized LRT. Calculate the measured value. The calculated confidence measure (CM) of the phoneme unit is accumulated and the final confidence measure for the given word is calculated and output.

구체적으로 설명하면, 관찰된 세그먼트에서 디코딩된 음소단위의 라이클리후드 스코어(이하 "서브 단어"라 함)가 주어진다면 우리는 가설 H0 또는 HI 중 어느 하나에 서브 단어를 할당하는 결정 규칙을 필요로 한다. 2진 테스팅 문제에 대해 결정을 위한 가장 유용한 테스트들 중 하나는 Leyman-Pearson Lemma 이다. 다른 클래스 상수들에 대해 에러를 유지하는 동안 하나의 클래스에 대해 에러를 최소화 하는 주어진 관측들의 수는 다음 수학식 15와 같은 LRT이다.Specifically, given the Lykleehood score (hereinafter referred to as "subword") of the decoded phoneme unit in the observed segment, we draw a decision rule to assign a subword to either the hypothesis H 0 or H I. in need. One of the most useful tests for making decisions about binary testing problems is Leyman-Pearson Lemma. The number of observations given for minimizing the error for one class while maintaining the error for other class constants is the LRT as shown in Equation 15 below.

Figure 112004057052175-pat00022
Figure 112004057052175-pat00022

상기 H0는 가설이 참임을 의미하고, H1은 가설이 거짓임을 의미한다. λ는 서브 단어 모델이고

Figure 112004057052175-pat00023
는 안티-서브 모델이고 그리고 X는 서브 단어의 수가 하기 수학식 16과 같이 N인 발음된 입력 관측이다.H 0 means that the hypothesis is true, H 1 means that the hypothesis is false. λ is a subword model
Figure 112004057052175-pat00023
Is an anti-sub model and X is a pronounced input observation in which the number of subwords is N as in Equation 16 below.

Figure 112004057052175-pat00024
Figure 112004057052175-pat00024

상기 서브 단어 정렬과 로그 라이클리후드(Log-likelihood: 이하 "LR"이라 함) 값은 비터비 세그멘테이션을 통해 로그 도메인 상에서 얻어진다. LRT의 정규화를 위해 평균 프레임 로그 LRT, R(n)은 다음 수학식 17에 의해 정의된다.The subword alignment and Log-likelihood (hereinafter referred to as "LR") values are obtained on the log domain through Viterbi segmentation. For normalization of the LRT, the average frame log LRT, R (n) is defined by Equation 17 below.

Figure 112004057052175-pat00025
Figure 112004057052175-pat00025

상기 수학식 17에서 상기 LR에 근거한 서브단어 동적 범위는 더 높다. 이것 은 전체 성능에 영향을 줄 수 있다. 서브 단어 신뢰 측정의 동적 범위를 제한하기 위한 한 가지 방법은 그 형태가 S자 모양의 함수를 사용하여야만 한다.In Equation 17, the subword dynamic range based on the LR is higher. This can affect overall performance. One way to limit the dynamic range of sub-word confidence measures is to use a function whose shape is S-shaped.

Figure 112004057052175-pat00026
Figure 112004057052175-pat00026

상기 수학식 18에서는 관측된 모든 세그먼트들의 라이크리후드 값을 이용하여 정규화하는 것이 아니라, 계산속도를 줄이고 속도를 높이기 위해 상위 N개의 라이크리후드 값을 가지는 세그먼트 열만을 이용하여 정규화를 수행한다. 수학식 18에서 계산된 값의 동적 범위는 상당히 커서 신뢰적이지 못하기 때문에 본 발명에서는 수학식 19와 같이 시그모이드 함수를 사용하여 동적 범위를 제안하는 방식을 사용한다.In Equation 18, normalization is performed using only segment strings having the upper N Lyly Hood values in order to reduce the calculation speed and increase the speed, rather than normalizing the Ly Lyth hood values of all observed segments. Since the dynamic range of the value calculated in Equation 18 is so large that it is not reliable, the present invention uses a sigmoid function as shown in Equation 19 to propose a dynamic range.

Figure 112004057052175-pat00027
Figure 112004057052175-pat00027

상기 τ 그리고 α는 위치 및 가중치 파라미터들이다. 상기 로그 신뢰 스코어는 로그 라이클리후드 스코어가 제로(Zero)보다 작은 값을 가질 때 α의 기울기를 갖는다.Τ and α are position and weight parameters. The log confidence score has a slope of α when the log Lyclihood score has a value less than zero.

효과적인 문맥, 즉 텍스트 데이터 인증을 위해서 우리는 서브 단어 테스트 결과들을 조합하는 함수를 정의할 필요가 있다. 입력 발음에 대한 상기 신뢰측정(CM)은 다음 수학식 20으로 나타낼 수 있다.For an effective context, ie, text data authentication, we need to define a function that combines the subword test results. The confidence measure (CM) for the input pronunciation may be represented by the following equation (20).

Figure 112004057052175-pat00028
Figure 112004057052175-pat00028

상기 f()는 인증 스코어를 조합하기 위한 함수이다. 이것은 상기 설정된 모델 및 안티-모델과 발화된 단어의 각 음소들간의 라이클리후드 율의 함수로서 정의된다. 상기 첫 번째 신뢰 측정 CM1은 하기 수학식 21에 의해 정의되는 프레임 지속 기간 정규화에 근거한다.F () is a function for combining authentication scores. This is defined as a function of the Lyclee hood rate between each phoneme of the model set and the anti-model and spoken words. The first confidence measure CM 1 is based on frame duration normalization defined by Equation 21 below.

Figure 112004057052175-pat00029
Figure 112004057052175-pat00029

상기 N은 상기 발음에서 서브 단어들의 총 수이다. 그리고 L은 상기 발화된 프레임들, L=

Figure 112004057052175-pat00030
의 총수이다. 상기 두 번째 CM2는 정규화에 기초한 음절 세그먼트에 근거한다. 그것은 모든 음절들의 로그 라이클리후드의 간단한 평균이다.N is the total number of sub words in the pronunciation. And L is the uttered frames, L =
Figure 112004057052175-pat00030
Is the total number of. The second CM2 is based on syllable segments based on normalization. It is a simple average of the log Lyclihood of all syllables.

Figure 112004057052175-pat00031
Figure 112004057052175-pat00031

Figure 112004057052175-pat00032
Figure 112004057052175-pat00032

Figure 112004057052175-pat00033
Figure 112004057052175-pat00033

Figure 112004057052175-pat00034
Figure 112004057052175-pat00034

상기 수학식 22와 23은 가중치가 빠진 서브 단어 레벨 신뢰 스코어들 중 산술평균과 기하평균이다. 그리고 수학식 24 및 25는 시그모이드 가중치가 포함된 서브-단어 스코어의 산술평균 및 기하평균이다.Equations 22 and 23 are arithmetic mean and geometric mean of weighted subword level confidence scores. And Equations 24 and 25 are the arithmetic mean and geometric mean of the sub-word scores with sigmoid weights.

상술한 바와 같이 신뢰측정값이 계산되면 음성인증부(40)는 211단계에서 매 신뢰측정에 대해 셋업되어 있는 특별한 임계치와 비교하여 작은지를 판단한다. 만일 계산된 신뢰측정값이 상기 셋업된 임계치보다 작다면 그 후보들은 인증 타스크로부터 버려진다. 따라서, 음성인증부(40)는 213단계로 진행하여 문맥 인증실패를 알리는 인증실패 신호를 생성하여 출력하므로 써 인증과정을 끝낸다. 그러나 상기 신뢰측정값이 셋업된 임계치보다 크다면 음성인증부(40)는 215단계에서 인증성공을 알리는 인증성공 신호를 생성하여 출력한다. When the confidence measurement value is calculated as described above, the voice authentication unit 40 determines whether it is small compared with a special threshold set up for each confidence measurement in step 211. If the calculated confidence measure is less than the set threshold, then the candidates are discarded from the authentication task. Accordingly, the voice authentication unit 40 proceeds to step 213 to generate and output an authentication failure signal indicating a context authentication failure, thereby completing the authentication process. However, if the confidence measurement value is larger than the set threshold, the voice authentication unit 40 generates and outputs an authentication success signal indicating the authentication success in step 215.

상술한 바와 같은 본 발명은, 문맥 요구형 화자독립 인증을 수행할 수 있으며, 주어진 문맥에 대해 잘못 발성되어질 수 있는 안티-모델들을 생성하여 화자 인증을 수행함으로써 인증에 대한 신뢰도를 높일 수 있는 이점을 가진다.The present invention as described above has the advantage of being able to perform the context-required speaker-independent authentication, and to increase the reliability of authentication by generating an anti-model that can be misfired for a given context and performing speaker authentication. Have

Claims (18)

삭제delete 삭제delete 화자 독립 인증 시스템에 있어서,In the speaker independent authentication system, 음소단위 데이터들을 저장하고 있으며 상기 음소단위 데이터들의 조합에 의해 단어를 구성할 수 있는 기능을 가지고 있으며, 음성학에 근거한 음소-안티음소 매칭 룩업테이블을 가지고 있는 사전부와,A dictionary unit for storing phoneme data and having a function of composing words by a combination of the phoneme data, and having a phoneme-antiphone matching lookup table based on phonetics; 상기 단어를 입력받고, 상기 사전부를 참조하여 음소단위로 분리된 텍스트 데이터를 출력하는 문자소/음소 변환기와,A phoneme / phoneme converter for receiving the word and outputting text data divided into phonemes by referring to the dictionary unit; 상기 음소단위로 분리된 텍스트 데이터를 입력받고 상기 사전부의 음소-안티음소 매칭 룩업테이블을 참조하여 모델 및 안티-모델을 생성하는 안티-모델 생성기로 이루어지는 문맥분석부와;A context analyzer comprising an anti-model generator configured to receive the text data separated by the phoneme unit and generate a model and an anti-model by referring to a phoneme-antiphone matching lookup table of the dictionary unit; 상기 모델 및 안티-모델을 입력받아 단어 네트워크를 구성하며, 발화된 단어에 대한 음성특징데이터를 입력받아 상기 모델 및 안티-모델들간의 음소단위 라이클리후드 스코어들을 계산하여 출력하는 히든 마코브 모델 비터비 디코더와;A Hidden Markov Model Beater that receives the model and the anti-model to form a word network, receives voice feature data of the spoken words, calculates phoneme-like Lykly Hood scores between the model and the anti-model, and outputs the scores. A non decoder; 인증 성공여부를 판단하기 위한 임계치를 가지고 있으며, 상기 음소단위 라이클리후드 스코어들을 입력받고, 상기 음소단위 라이클리후드 스코어들 각각에 대한 라이클리후드 율 테스트를 수행하고 상기 라이클리 후드 율 테스트를 정규화하며, 상기 정규화된 라이클리 후드 율 테스트에 의해 신뢰측정값을 계산하여 누적하고, 누적된 신뢰측정값과 상기 임계치를 비교하여 상기 누적된 신뢰측정값이 상기 임계치보다 크면 인증 성공 신호를 생성하여 추력하는 음성인증부로 구성됨을 특징으로 하는 문맥 요구형 화자독립 인증 시스템.A threshold for determining whether the authentication is successful, receiving the phoneme-like Lyclihoods scores, performing a Lyclihoods Rate Test for each of the phoneme-like Lyclihoods scores, and normalizing the Lyclee Hood Rate Test And calculate and accumulate the confidence measurement value by the normalized Lyklee hood rate test, compare the accumulated confidence measurement value with the threshold, and generate an thrust by generating an authentication success signal when the accumulated confidence measurement value is larger than the threshold value. Context required speaker independent authentication system, characterized in that consisting of a voice authentication unit. 제3항에 있어서,The method of claim 3, 상기 안티-모델이 하기 수학식 26에 의해 생성됨을 특징으로 하는 문맥 요구형 화자독립 인증 시스템. And wherein the anti-model is generated by the following equation (26).
Figure 112004057052175-pat00035
Figure 112004057052175-pat00035
여기에서 N은 주어진 문맥에 대한 안티-음절 모델들의 수Where N is the number of anti-syllable models for a given context
Figure 112004057052175-pat00036
는 상기 안티-음절
Figure 112004057052175-pat00036
The anti-syllable
Figure 112004057052175-pat00037
은 안티-단어
Figure 112004057052175-pat00037
Silver anti-word
제4항에 있어서,The method of claim 4, wherein 상기 안티-음절이 하기 수학식 27에 의해서 생성됨을 특징으로 하는 문맥 요구형 화자독립인증 시스템.And the anti-syllable is generated by the following equation (27).
Figure 112004057052175-pat00038
Figure 112004057052175-pat00038
여기서,
Figure 112004057052175-pat00039
는 안티-음소
here,
Figure 112004057052175-pat00039
The anti-phone
M은 안티-음소의 수M is the number of anti-phone
제3항에 있어서, 상기 안티-모델이 하기 수학식 28에 의해 생성됨을 특징으로 하는 문맥 요구형 화자독립인증 시스템.4. The system of claim 3, wherein the anti-model is generated by the following equation (28).
Figure 112004057052175-pat00040
Figure 112004057052175-pat00040
여기서,
Figure 112004057052175-pat00041
은 주어진 단어 모델 이외의 안티-음절
here,
Figure 112004057052175-pat00041
Is an anti-syllable other than the given word model
M은 주어진 단어 모델을 포함하는 안티-음절 모델들의 수M is the number of anti-syllable models containing the given word model
제3항에 있어서, 상기 안티-모델이 하기 수학식 29에 의해 생성됨을 특징으로 하는 문맥 요구형 화자독립인증 시스템.4. The system of claim 3, wherein the anti-model is generated by the following equation (29).
Figure 112004057052175-pat00042
Figure 112004057052175-pat00042
여기서 N-1은 주어진 단어보다 적은 음절을 포함하는 안티-음절 모델들의 수 이다.Where N-1 is the number of anti-syllable models that contain fewer syllables than the given word.
제3항에 있어서, 상기 안티-모델이 하기 수학식 30에 의해 생성됨을 특징으로 하는 문맥 요구형 화자독립인증 시스템.4. The system of claim 3, wherein the anti-model is generated by Equation (30) below.
Figure 112006049193556-pat00043
Figure 112006049193556-pat00043
제3항에 있어서, 상기 안티-모델이 하기 수학식 31에 의해 생성됨을 특징으로 하는 문맥 요구형 화자독립인증 시스템.4. The system of claim 3, wherein the anti-model is generated by the following equation (31).
Figure 112004057052175-pat00044
Figure 112004057052175-pat00044
삭제delete 음소단위 데이터들을 저장하고 있으며 상기 음소단위 데이터들의 조합에 의해 단어를 구성할 수 있는 기능을 가지고 있으며, 음성학에 근거한 음소-안티음소 매칭 룩업테이블을 가지고 있는 사전부를 구비하는 문맥분석부와, 히든 마코브 모델 비터비 디코더와, 인증 성공여부를 판단하기 위한 임계치를 가지고 있는 음성인증부로 구성되는 화자 독립 인증 방법에 있어서,Context analysis unit which stores phoneme data and has a function to compose words by the combination of phoneme data and has a dictionary having a phoneme-antiphone matching lookup table based on phonetics In the speaker independent authentication method comprising a Cove model Viterbi decoder and a voice authentication unit having a threshold for determining whether the authentication is successful, 상기 단어를 입력받고, 상기 사전부를 참조하여 음소단위로 분리된 텍스트 데이터를 출력하고, 상기 음소단위로 분리된 텍스트 데이터를 입력받고 상기 사전부의 음소-안티음소 매칭 룩업테이블을 참조하여 모델 및 안티-모델을 생성하는 과정과,Receiving the word, outputting text data divided into phonemes by referring to the dictionary unit, receiving text data separated by the phoneme, and referring to a phoneme-antiphonic matching lookup table of the dictionary to model and anti- Creating a model, 상기 모델 및 안티-모델을 입력받아 저장한 후 발화된 단어에 대한 음성특징데이터를 입력받아 상기 모델 및 안티-모델들간의 음소단위 라이클리후드 스코어들을 계산하여 출력하는 과정과,Receiving and storing the model and the anti-model, and receiving voice feature data of the spoken word, calculating and outputting phoneme-like Lyclihood scores between the model and the anti-model; 상기 음소단위 라이클리후드 스코어들을 입력받아 상기 음소단위 라이클리후드 스코어들 각각에 대한 라이클리후드 율 테스트를 수행하고 상기 라이클리 후드 율 테스트를 정규화하며, 상기 정규화된 라이클리 후드 율 테스트에 의해 신뢰측정값을 계산하여 누적하고, 누적된 신뢰측정값과 상기 임계치를 비교하여 상기 누적된 신뢰측정값이 상기 임계치보다 크면 인증 성공 신호를 생성하여 출력하는 과정으로 구성됨을 특징으로 하는 화자독립 인증 방법.Receive the phoneme-like Lykleehood scores, perform a Lyklee hood rate test for each of the phoneme-like Lykleehood scores, normalize the Ryklee hood rate test, and trust by the normalized Ryklee hood rate test And calculating and accumulating the measured value, and comparing the accumulated confidence measure value with the threshold value and generating and outputting an authentication success signal when the accumulated confidence measure value is larger than the threshold value. 제11항에 있어서,The method of claim 11, 상기 안티-모델이 하기 수학식 32에 의해 생성됨을 특징으로 하는 화자독립 인증 방법. Speaker-independent authentication method characterized in that the anti-model is generated by the following equation (32).
Figure 112006049193556-pat00045
Figure 112006049193556-pat00045
여기에서 N은 주어진 문맥에 대한 안티-음절 모델들의 수Where N is the number of anti-syllable models for a given context
Figure 112006049193556-pat00046
는 상기 안티-음절
Figure 112006049193556-pat00046
The anti-syllable
Figure 112006049193556-pat00047
은 안티-단어
Figure 112006049193556-pat00047
Silver anti-word
제11항에 있어서,The method of claim 11, 상기 안티-음절이 하기 수학식 33에 의해서 생성됨을 특징으로 하는 화자독립인증 방법.Speaker independent authentication method characterized in that the anti-syllable is generated by the following equation (33).
Figure 112006049193556-pat00048
Figure 112006049193556-pat00048
여기서,
Figure 112006049193556-pat00049
는 안티-음소
here,
Figure 112006049193556-pat00049
The anti-phone
M은 안티-음소의 수M is the number of anti-phone
제11항에 있어서, 상기 안티-모델이 하기 수학식 34에 의해 생성됨을 특징으로 하는 화자독립인증 방법.12. The method of claim 11, wherein the anti-model is generated by Equation 34 below.
Figure 112006049193556-pat00050
Figure 112006049193556-pat00050
여기서,
Figure 112006049193556-pat00051
은 주어진 단어 모델 이외의 안티-음절
here,
Figure 112006049193556-pat00051
Is an anti-syllable other than the given word model
M은 주어진 단어 모델을 포함하는 안티-음절 모델들의 수M is the number of anti-syllable models containing the given word model
제11항에 있어서, 상기 안티-모델이 하기 수학식 35에 의해 생성됨을 특징으로 하는 화자독립인증 방법.The method of claim 11, wherein the anti-model is generated by Equation 35 below.
Figure 112006049193556-pat00052
Figure 112006049193556-pat00052
여기서 N-1은 주어진 단어보다 적은 음절을 포함하는 안티-음절 모델들의 수이다.Where N-1 is the number of anti-syllable models that contain fewer syllables than the given word.
제11항에 있어서, 상기 안티-모델이 하기 수학식 36에 의해 생성됨을 특징으로 하는 화자독립인증 방법.The method of claim 11, wherein the anti-model is generated by Equation 36 below.
Figure 112006049193556-pat00053
Figure 112006049193556-pat00053
제11항에 있어서, 상기 안티-모델이 하기 수학식 37에 의해 생성됨을 특징으로 하는 화자독립인증 방법.12. The method of claim 11, wherein the anti-model is generated by Equation 37 below.
Figure 112006049193556-pat00054
Figure 112006049193556-pat00054
제3항에 있어서, 상기 음소-안티 음소 룩업테이블이 하기 표 4와 같이 구성됨을 특징으로 하는 문맥 요구형 화자독립 인증 시스템.4. The system of claim 3, wherein the phoneme-anti-phoneme lookup table is configured as shown in Table 4 below.
Figure 112006049193556-pat00058
Figure 112006049193556-pat00058
KR1020040101070A 2004-12-03 2004-12-03 Text-prompted speaker independent verification system and method KR100673834B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040101070A KR100673834B1 (en) 2004-12-03 2004-12-03 Text-prompted speaker independent verification system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040101070A KR100673834B1 (en) 2004-12-03 2004-12-03 Text-prompted speaker independent verification system and method

Publications (2)

Publication Number Publication Date
KR20060062287A KR20060062287A (en) 2006-06-12
KR100673834B1 true KR100673834B1 (en) 2007-01-24

Family

ID=37158474

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040101070A KR100673834B1 (en) 2004-12-03 2004-12-03 Text-prompted speaker independent verification system and method

Country Status (1)

Country Link
KR (1) KR100673834B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129860A (en) * 2011-04-07 2011-07-20 魏昕 Text-related speaker recognition method based on infinite-state hidden Markov model
US11437046B2 (en) 2018-10-12 2022-09-06 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method of electronic apparatus and computer readable medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
KR102598057B1 (en) * 2018-09-10 2023-11-06 삼성전자주식회사 Apparatus and Methof for controlling the apparatus therof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129860A (en) * 2011-04-07 2011-07-20 魏昕 Text-related speaker recognition method based on infinite-state hidden Markov model
CN102129860B (en) * 2011-04-07 2012-07-04 南京邮电大学 Text-related speaker recognition method based on infinite-state hidden Markov model
US11437046B2 (en) 2018-10-12 2022-09-06 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method of electronic apparatus and computer readable medium

Also Published As

Publication number Publication date
KR20060062287A (en) 2006-06-12

Similar Documents

Publication Publication Date Title
US8099288B2 (en) Text-dependent speaker verification
EP0870300B1 (en) Speaker verification system
JP6188831B2 (en) Voice search apparatus and voice search method
CN101465123B (en) Verification method and device for speaker authentication and speaker authentication system
US20070219801A1 (en) System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US20080312926A1 (en) Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition
EP1734509A1 (en) Method and system for speech recognition
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Pandey et al. Multilingual speaker recognition using ANFIS
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
KR100673834B1 (en) Text-prompted speaker independent verification system and method
JP3444108B2 (en) Voice recognition device
KR100930587B1 (en) Confusion Matrix-based Speech Verification Method and Apparatus
KR20210052563A (en) Method and apparatus for providing context-based voice recognition service
Jayanna et al. Limited data speaker identification
Nallagatla et al. Sequential decision fusion for controlled detection errors
Rao et al. Text-dependent speaker recognition system for Indian languages
KR20210052564A (en) Optimal language model generation method using big data and device therefor
JP3291073B2 (en) Voice recognition method
BenZeghiba Joint speech and speaker recognition
Li et al. Evaluation of the i-vector system for text-dependent speaker verification
JP3357752B2 (en) Pattern matching device
JPH04233599A (en) Method and device speech recognition
Lee et al. Competing models-based text-prompted speaker independent verification algorithm
Tran Fuzzy normalisation methods for pattern verification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee