MX2008010478A - Autenticacion de portavoz. - Google Patents

Autenticacion de portavoz.

Info

Publication number
MX2008010478A
MX2008010478A MX2008010478A MX2008010478A MX2008010478A MX 2008010478 A MX2008010478 A MX 2008010478A MX 2008010478 A MX2008010478 A MX 2008010478A MX 2008010478 A MX2008010478 A MX 2008010478A MX 2008010478 A MX2008010478 A MX 2008010478A
Authority
MX
Mexico
Prior art keywords
training
user
pronunciation
similarity
test
Prior art date
Application number
MX2008010478A
Other languages
English (en)
Inventor
Zhengyou Zhang
Ming Liu
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2008010478A publication Critical patent/MX2008010478A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Collating Specific Patterns (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

La autenticación de portavoz se realiza determinando una clasificación de similitud para una pronunciación de prueba y una pronunciación de entrenamiento almacenada. El cálculo de la clasificación de similitud implica determinar la suma de un grupo de funciones, en donde cada función incluye el producto de una probabilidad posterior de un componente de mezcla y una diferencia entre un medio adaptado y un medio de fondo. El medio adaptado se forma basándose en el medio de fondo y la pronunciación de prueba. El contenido de conferencia provisto por el portavoz para autenticación puede ser independiente de texto (es decir, cualquier contenido que quiera decir) o dependiente de texto (es decir, una frase particular utilizada para entrenamiento).

Description

AUTENTICACION DE PORTAVOZ ANTECEDENTES La autenticación de portavoz es el procedimiento para verificar la identidad reclamada de un portavoz basándose en una señal de conferencia. La autenticación típicamente se realiza utilizando modelos de conferencia que se han entrenado para cada persona que utiliza el sistema. En general, existen dos tipos de autenticación de portavoz, independiente de texto y dependiente de texto. En la autenticación de portavoz independiente texto, el portavoz proporciona cualquier contenido de conferencia que desea proporcionar. En la autenticación de portavoz dependiente de texto, el portavoz menciona una frase particular durante el entrenamiento de modelo y durante el uso del sistema de autenticación. A repetir la misma frase, un modelo fuerte de las unidades fonéticas y transiciones entre esas unidades fonéticas puede construirse para el sistema de autenticación de portavoz dependiente de texto. Esto no es tan verdadero en sistemas de autentificación de habla independiente de texto ya que muchas unidades fonéticas y muchas transiciones entre unidades fonéticas no se observarán durante entrenamiento y de esa forma no se representarán bien en los modelos. La discusión anterior simplemente se proporciona para información de antecedentes generales y no pretende utilizarse como un auxiliar al determinar al alcance del tema reclamado.
BREVE DESCRIPCION DE LA INVENCION La autenticación de portavoz se realiza al determinar una marca de similitud para una pronunciación de prueba y una pronunciación de entrenamiento almacenada. El cálculo de la marca de similitud involucra determinar la suma de un grupo de funciones, en donde cada función incluye el producto de una probabilidad posterior de un componente de mezcla y una diferencia entre un medio adaptado y un medio de fondo. El medio adaptado se forma basándose en el medio de fondo y la pronunciación de prueba. Esta breve descripción se proporciona para introducir una selección de conceptos en una forma simplificada que además se describe posteriormente en la descripción detallada. Esta breve descripción no pretende identificar características clave o características esenciales del tema reclamado, ni pretende utilizarse como un auxiliar al determinar el alcance del tema reclamado. El tema reclamado no se limita a implementaciones que resuelven cualquiera o todas las desventajas notadas en el fondo.
BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 es un diagrama de bloques de un ambiente de cómputo en el cual pueden practicarse algunas modalidades.
La Figura 2 es un diagrama de bloques de un ambiente de cómputo alternativo en el cual pueden practicarse algunas modalidades. La Figura 3 es un diagrama de flujo de un método de entrenamiento de un sistema de autenticación independiente de texto. La Figura 4 es un diagrama de bloques de elementos utilizados para entrenar un sistema de autenticación independiente de texto. La Figura 5 es un diagrama de flujo de un método para establecer umbrales durante entrenamiento. La Figura 6 es un diagrama de flujo de un método para identificar parámetros de modelo para una pronunciación de prueba.
La Figura 7 es un diagrama de bloques de elementos utilizados en los métodos de las Figuras 6 y 8. La Figura 8 es un diagrama de flujo de un método para determinar umbrales para una pronunciación de prueba. La Figura 9 es un diagrama de flujo de un método para autenticar una pronunciación de prueba. La Figura 10 es un diagrama de bloques de elementos utilizados para autenticar una pronunciación de prueba. La Figura 11 es un diagrama de flujo de un método de entrenamiento de un Modelo de Markov Oculto para un sistema de autenticación dependiente de texto. La Figura 12 es un diagrama de bloques de elementos utilizados para entrenar un Modelo de Markov Oculto.
La Figura 13 es un diagrama de flujo de un método para autenticar una pronunciación de prueba que utiliza un Modelo de Markov Oculto. La Figura 14 es un diagrama de bloques de elementos utilizados para autenticar una pronunciación de prueba que utiliza un Modelo de Markov Oculto.
DESCRIPCION DETALLADA La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el cual pueden implementarse las modalidades. El ambiente de sistema de cómputo 100 es solo un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación al alcance de uso o funcionalidad del tema reclamado. El ambiente de cómputo 100 tampoco debe interpretarse como teniendo ninguna dependencia o requerimiento que se relaciona con cualquiera o combinación de componentes ilustrados en el ambiente operativo ilustrativo 100. Las modalidades son operacionales con numerosos otros ambientes o configuraciones de sistema de cómputo de propósito general o de propósito especial. Ejemplos de sistemas de cómputo, ambientes, y/o configuraciones bien conocidas que pueden ser adecuadas para uso con varias modalidades incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de m u Iti procesador, sistemas a base de microprocesador, cajas de tv por cable, electrónica de consumidor programable, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuido de que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. Las modalidades pueden describirse en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, que se ejecutan por una computadora. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. Algunas modalidades se diseñan para practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivos de procesamiento remoto que se enlazan a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa se localizan tanto en medios de almacenamiento por computadora locales y remotos que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar algunas modalidades incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, pero no se limitan a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. A manera de ejemplo, y no de limitación, tales arquitecturas incluyen conductor común de Arquitectura Estándar de Industria (ISA), conductor común de Arquitectura de Microcanal (MCA), conductor común de ISA Mejorado (EISA), conductor común local de Asociación de Estándares Electrónicos (VESA), y conductor común de Interconexión de Componente Periférico (PCI) también conocido como conductor común de Mezzanine. La computadora 110 típicamente incluye una variedad de medios legibles por computadora. Los medios legibles por computadora puede ser cualquier medio disponible que puede accederse por la computadora 110 e incluye tanto medios volátiles como no volátiles, removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento por computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede utilizarse para almacenar la información deseada y que puede accederse por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otros mecanismos de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecidas o cambiadas de tal forma para codificar información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios por cable tal como una conexión por cable de red o por cable directo, y medios inalámbricos tal como medios acústicos, de RF, infrarrojos y otros inalámbricos. Combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora. La memoria de sistema 130 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil tal como memoria solo de lectura (ROM) 131 y memoria de acceso aleatorio (RAM) 132. Un sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 110, tal como durante el arranque, típicamente se almacena en ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por la unidad de procesamiento 120. A manera de ejemplo, y no de limitación, La Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. La computadora 110 también puede incluir otros medios de almacenamiento por computadora removibles/no removibles volátiles/no volátiles. A manera de ejemplo solamente, la Figura 1 ilustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD-ROM u otros medios ópticos. Otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles que pueden utilizarse en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado sólido, y similares. La unidad de disco duro 141 típicamente se conecta al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 típicamente se conectan al conductor común de sistema 121 por una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento por computadora asociados discutidos anteriormente e ¡lustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 se ¡lustra como almacenando el sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les proporcionan números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede ingresar comandos e información en la computadora 110 a través de dispositivos de entrada tal como un teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguibola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrado) pueden incluir una palanca de mandos, almohadilla de juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada frecuentemente se conectan a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que se acopla al conductor común de sistema, pero puede conectarse por otra interfase y estructuras de conductor común, tal como un puerto paralelo, puerto de juegos o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de presentación también se conecta al conductor común de sistema 121 a través de una interfase, tal como interfase de video 190. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tal como bocinas 197 e impresoras 196, que puede conectarse a través de una interfase periférica de salida 195. La computadora 110 opera en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como una computadora remota 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también puede incluir otras redes. Tales ambientes en red comúnmente están ubicados en oficinas, redes de computadora extendidas en empresa, intranets e Internet. Cuándo se utiliza en un ambiente en red de LAN, la computadora 110 se conecta a la LAN 171 a través de una interfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un módem 172 u otros medios para establecer comunicaciones en una WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede conectarse al conductor común de sistema 121 a través de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente de red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remota. A manera de ejemplo, y no de limitación, la Figura 1 ilustra programas de aplicación remota 185 como residentes en la computadora remota 180. Se apreciará que las conexiones en red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 2 es un diagrama de bloques de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil 200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, y una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes antes mencionados se acoplan para comunicación uno con otro en un conductor común adecuado 210. La memoria 204 se implementa como memoria electrónica no volátil tal como memoria de acceso aleatorio (RAM) con un módulo de respaldo de batería (no mostrado) para que la información almacenada en la memoria 204 no se pierda cuando se cierra la energía generada al dispositivo móvil 200. Una porción de la memoria 204 preferiblemente se distribuye como memoria dirigible para ejecución de programa, mientras otra porción de la memoria 204 preferiblemente se utiliza para almacenamiento, tal como para almacenamiento simulado en una unidad de disco. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 así como un almacenamiento de objeto 216. Durante operación, el sistema operativo 212 preferiblemente se ejecuta por el procesador 202 desde la memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de la marca WINDOWS® CE comercialmente disponible de Microsoft Corporation. El sistema operativo 212 preferiblemente se diseña para dispositivos móviles, e implementa características de base de datos que pueden utilizarse por aplicaciones 214 a través de un grupo de interfases de programación de aplicación expuestas y métodos. Los objetos en el almacenamiento de objeto 216 se mantienen por aplicaciones 214 y sistema operativo 212, al menos parcialmente en respuesta a llamadas a las interfases y métodos de programación de aplicación expuestos. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten que el dispositivo móvil 200 envíe y reciba información. Los dispositivos incluyen módems por cable e inalámbricos, receptores de satélite y sintonizadores de difusión por nombrar algunos. El dispositivo móvil 200 también puede conectarse directamente a una computadora para intercambiar datos con este. En tales casos, la interfase de comunicación 208 puede ser un transceptor infrarrojo o una conexión de comunicación en serie o paralela, todos de los cuales son capaces de transmitir información de dirección. Los componentes de entrada/salida 206 incluyen una variedad dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de dispositivos de entrada que incluyen un generador de audio, un dispositivo vibratorio, y una presentación. Los dispositivos enlistados anteriormente son a manera de ejemplo y no necesitan estar presentes todos en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida pueden unirse a o encontrarse con dispositivos móviles 200.
VERIFICACION DE PORTAVOZ INDEPENDIENTE DE TEXTO Bajo una modalidad de la presente invención, el sistema de autenticación de portavoz independiente de texto se proporciona y autentica una señal de conferencia de prueba al formar una medida de similitud que se basa en un modelo adaptado a conferencia de entrenamiento para un usuario y modelo adaptados a la señal de diálogo de prueba. En particular, la similitud mide los usos de las diferencias entre los dos modelos adaptados y modelo de fondo. En una modalidad, el modelo de fondo es un Modelo de Mezcla de Gaussian que se define como: M M P(x, I o ) = ? ™, P, (*, I ) = ? : , ?, ) EC.1 en donde M es el número de componentes de mezcla en el modelo, wi es un peso para el avo componente de mezcla, m¡ es el medio de para el avo componente de mezcla y ?¡ es la matriz de covarianza del avo componente. La notación s0 denota el grupo de parámetros del modelo de fondo (el peso, medio y covarianza para cada componente). El modelo de fondo se adapta para conferencia de entrenamiento que utiliza las siguientes ecuaciones: EC.2 I-I EC. 3 —?r(í\ 9(f) ,~ EC.5 ?< = ?Í EC. 6 en donde x> es un vector característica de entrenamiento de un portavoz particular, y(i\xt) es la probabilidad posterior del avo componente de mezcla dado el vector de característica del portavoz, P es el número de marcos en la pronunciación de entrenamiento del portavoz particular, y(i) es la cuenta suave de los marcos que pertenecen al avo componente de mezcla a través de la pronunciación de entrenamiento completa del portavoz particular, y a es un factor suavizante que causa que el medio m, del modelo adaptado adopte el medio del modelo de fondo si existen pocos marcos observados para el avo componente de mezcla en la pronunciación de entrenamiento. Se debe notar que en la modalidad descrita anteriormente, la covarianza para el modelo adaptado es igual a la covarianza para el modelo de fondo. Bajo una modalidad, la medida de similitud se define como: en donde 5t ~ m, - , EC. 8 EC. 9 d, = m¡ - m, EC. 10 en donde x, es un vector de característica de la pronunciación de prueba, T es un número de marcos de la pronunciación de prueba y ñ¡, el medio de muestra de la pronunciación de prueba que se define como: De esa forma, en la medida de similitud de la ecuación 7, se forma un producto de la probabilidad posterior y, para la pronunciación de prueba, a diferencia, S, , entre un medio adaptado para el portavoz de prueba y un medio de fondo y la diferencia, S¡, entre un medio de muestra para la pronunciación de prueba y un medio de fondo. Bajo una modalidad, la medida de similitud de la Ecuación 7 se simplifica a: Bajo una modalidad adicional, para reducir la dependencia de datos de LLR0 en la Ecuación 12, se realiza normalización al elegir cuidadosamente umbrales. Bajo una modalidad, los umbrales se construyen al seleccionar primero los subgrupos de parámetros de modelo adaptados de un grupo o conjunto de parámetros de modelo que se adaptaron de pronunciaciones de múltiples portavoces. Un subgrupo de parámetros de modelo adoptado se elige al identificar pronunciaciones representadas por parámetros en el conjunto de parámetros que son muy similares a la pronunciación de entrenamiento. Un segundo subgrupo de parámetros de modelo se elige al identificar pronunciaciones representadas por parámetros de modelo en el conjunto de parámetros que son muy similares a la pronunciación de prueba. Bajo una modalidad, las determinaciones de similitud se hacen al utilizar la ecuación 12 anterior. Por ejemplo, cuando se localizan pronunciaciones similares a la pronunciación de entrenamiento, los parámetros de modelo para una pronunciación tomada del conjunto de parámetros de modelo se aplican como los parámetros de modelo de la pronunciación de prueba en la Ecuación 12 mientras los parámetros de modelo para la pronunciación de entrenamiento se utilizan directamente en la Ecuación 12. Cuando se localizan pronunciaciones que son similares a la pronunciación de prueba, los parámetros de modelo para una pronunciación tomada del conjunto de parámetros de modelo se utilizan como los parámetros de modelo de pronunciación entrenamiento y los parámetros de modelo de pronunciación de prueba se utilizan directamente en la Ecuación 12. Una vez que un subgrupo de pronunciaciones similares, conocidas como un grupo de portavoz de corte, se seleccionó para la pronunciación de entrenamiento y la pronunciación de prueba, los umbrales pueden establecerse como: ? d,? d EC.13 N„ 1 t?- ? d,??d; EC. 14 ?0 en donde *\ es el umbral para la pronunciación de entrenamiento en el avo componente de mezcla, t¡° es el umbral para la pronunciación de prueba en el avo componente de mezcla, A/coftoríe es el número de modelos adaptados seleccionados del conjunto de portavoz para formar el umbral, i es el ajuste del avo componente de la pronunciación de entrenamiento como se definió en la Ecuación 9, d, es el ajuste del avo componente de la pronunciación de prueba definida en la Ecuación 8, S¡k es el ajuste del avo componente del portavoz de cohorte K seleccionado de la pronunciación de entrenamiento y ¿>;s es el ajuste del avo componente del portavoz de cohorte s seleccionado para la pronunciación de prueba en donde: S," = mk - m EC. 15 d," = ms - m EC.16 en donde mk es el medio para la mva pronunciación de cohorte y ms es el medio para la sva pronunciación de cohorte. Al utilizar estos umbrales, el LLR0 normalizado es: La medida de similitud de la Ecuación 17 puede utilizarse directamente para autenticar una pronunciación de prueba contra una pronunciación de entrenamiento. En algunas modalidades, esta medida de similitud se utiliza repetitivamente para seleccionar un nuevo portavoz de cohorte establecido tanto para la pronunciación entrenamiento como para la pronunciación de prueba. Este nuevo grupo de portavoz de cohorte entonces se utiliza para establecer un nuevo umbral. Se debe notar que ya que la prueba de similitud de la Ecuación 17 es diferente de la prueba de similitud de la Ecuación 12, los grupos de cohorte seleccionados que utilizan la Ecuación 17 serán diferentes de los grupos de cohortes seleccionados que utilizan la Ecuación 12. Al utilizar los nuevos grupos de cohorte, se define un nuevo umbral como: ? -(.,°+/?)/2] N„,„ ? [<¾?, -¾*-('/ +'/°)/2J Ncohortt EC. 19 Una nueva medida de similitud entonces puede definirse como: ¦ fflrtOlfe'* rff + /2- + .,')/2J EC. 20 Este tipo de repetición, en donde las cohortes se seleccionan de una prueba de similitud, se definen nuevos umbrales de las cohortes, y se define una nueva medida de similitud de los nuevos umbrales, puede repetirse tantas veces como sea necesario con cada nueva prueba de similitud que se define al restar el promedio de los dos nuevos umbrales del promedio de los umbrales previos en el numerador de la medida de similitud previa. La Figura 3 proporciona un diagrama de flujo de un método para parámetros de modelo de entrenamiento utilizados en autenticación de portavoz bajo una modalidad de la invención. La Figura 4 proporciona un diagrama de bloques de elementos utilizados para construir estos parámetros de modelo. En el paso 300, se reciben pronunciaciones de múltiples portavoces en un conjunto de portavoz 400. Estas pronunciaciones se convierten en secuencias de valores digitales por un convertidor de analógico a digital 402 y se agrupan en marcos por un constructor de marco 404. Los marcos de valores digitales entonces se convierten en vectores de característica por un extractor de característica 406. Bajo una modalidad, el extractor de característica es un extractor de característica de coeficiente decepstral de Mel-Frecuencia (MFCC) que de forma vectores de característica de MFCC con coeficientes delta. Tales unidades de extracción de característica de MFCC son bien conocidas en la técnica. Esto produce un conjunto de portavoz de vectores de característica 408. En el paso 302, los vectores de característica de conjunto de portavoz se aplican a un entrenador de Modelo de Mezcla Gausiano 410 que utiliza los vectores de característica para definir un Modelo de Fondo Universal (UBM) 412, que en una modalidad toma la forma de un Modelo de Mezcla Gausiano. Tal entrenamiento involucra a agrupar los vectores de característica en componentes de mezcla e identificar parámetros de distribución Gausiana para cada componente de mezcla. En particular, se determinan un medio y una matriz de covarianza para cada componente de mezcla. En el paso 304, una unidad de adaptación de UBM 414 determina una probabilidad posterior de conjunto de portavoz 416 para cada componente de mezcla para cada portavoz en el conjunto de portavoz 400 que utiliza Ecuaciones 2 y 3 anteriores. En el paso 306, la unidad de adaptación de UBM 414 utiliza las probabilidades posteriores para determinar el conjunto de portavoz adaptado de Modelos de Mezcla Gausianos 418 para cada portavoz en el conjunto de portavoz 400 que utiliza Ecuaciones 4 a 6 anteriores. En las Ecuaciones 2-6, las pronunciaciones para una bocina particular se combinan para formar una pronunciación individual, que forma la secuencia de vectores de característica, X\ en donde T es el número total de marcos a través de todas las pronunciación es del portavoz.
En el paso 308, una pronunciación de entrenamiento 420 de un usuario futuro del sistema se recibe y se convierte en vectores de característica de entrenamiento de usuario 422 utilizando un convertidor analógico digital 402, constructor de marco 404 y extractor de característica 406. En el paso 310, la unidad de adaptación de UBM 414 identifica probabilidades posteriores de usuario 424 que utiliza Ecuaciones 2 y 3 anteriores y forma Modelos de Mezcla Gausianos adaptados de usuario 426 utilizando las Ecuaciones 4 a 6 anteriores. Se debe notar que los pasos 308, 310 y 312 se repiten para cada persona que utilizará el sistema de verificación . En el paso 314, se entrenan los umbrales de similitud. El método para entrenar estos umbrales se muestra en el diagrama de flujo de la Figura 5. El método mostrado en la Figura 5 es un método iterativo que establece umbrales no sólo para cada usuario del sistema de verificación, sino para cada portavoz en el conjunto de portavoz. En el paso 500 de la Figura 5, un portavoz, ya sea un portavoz del conjunto de portavoz o un usuario del sistema, se selecciona. En el paso 501, los parámetros de Modelo de Mezcla Gaussiana y las probabilidades posteriores para el portavoz seleccionado se recuperan como parámetros de modelo de portavoz seleccionado 433. En el paso 502, se utiliza una prueba de similitud 440 por unidad de selección de cohorte 430 para seleccionar una cohorte de portavoces del conjunto de portavoz 400. Durante este paso, los parámetros de modelo (y(i),m) asociados con cada portavoz en el conjunto de portavoz se aplican separadamente a la prueba de similitud junto con los parámetros de modelo ( y(i),m ) 433 para el portavoz actualmente seleccionado. El subgrupo de portavoces del conjunto de portavoz que produce la medida de similitud superior para el portavoz actualmente seleccionado se seleccionan como la cohorte que resulta en un grupo de parámetros de modelo de cohorte 432. De acuerdo con una modalidad, la .prueba de similitud de la ecuación 12 se utiliza como prueba de similitud 440 durante la repetición inicial. En el paso 504, una unidad de construcción de umbral 434 utiliza parámetros de modelo de cohorte 432 y los parámetros de modelo de portavoz seleccionados 433 para construir un umbral 436 para el portavoz seleccionado. Bajo una modalidad, la Ecuación 13 se utiliza para calcular el umbral con los medios de los parámetros de modelo de portavoz seleccionados 433 que se utilizan para definir el valor de ajuste St y los medios para los parámetros de modelo de cohorte 432 que se utilizan para definir 5¡k para cada cohorte. En el paso 506, el método de la Figura 5 determina si existen más portavoces en el conjunto de portavoz o en el grupo de usuarios del sistema. Si existen más portavoces, el siguiente portavoz se selecciona al regresar al paso 500, y la prueba de similitud 440 se utiliza de nuevo para identificar cohortes para el nuevo portavoz. Un umbral entonces se determina para el nuevo portavoz. Los pasos 500, 502, 504 y 506 se repiten hasta que los umbrales se determinaron para cada portavoz en el conjunto de portavoz y cada usuario del sistema. Cuando no hay portavoces adicionales, una unidad de construcción de prueba de similitud 438 construye una nueva prueba de similitud 440 en el paso 508. Bajo una modalidad, la nueva prueba de similitud se define como la Ecuación 17 anterior. En el paso 510, el método determina si las pruebas de similitud convergen. Si las pruebas no convergen, el procedimiento regresa al paso 500 en donde se selecciona un portavoz de cómputo de portavoz o del grupo de usuarios de sistema. El paso 502 entonces se utiliza para seleccionar los portavoces de corte, esta vez que utilizan la nueva prueba de similitud 440 establecidas por la unidad de construcción de prueba de similitud 438. Los nuevos umbrales 436 entonces se determinan en el paso 504 utilizando las nuevas cohortes seleccionadas. Por ejemplo, bajo algunas modalidades, la Ecuación 18 se utiliza para determinar los nuevos umbrales en el paso 504 durante la segunda repetición. Los pasos 500, 502, 504 y 506 se repiten para cada portavoz en el conjunto de portavoz y cada usuario del sistema. Después que se determinaron los nuevos umbrales para cada portavoz, se define una nueva prueba de similitud en el paso 508. Por ejemplo, durante la segunda repetición, la nueva prueba de similitud se definirá como se encontró en la Ecuación 20. Las repeticiones para determinar cohortes utilizando una prueba de similitud, que definen umbrales de los cohortes, y que redefinen la prueba de similitud basándose en los nuevos umbrales, se repiten iterativamente hasta que las pruebas de similitud convergen en el paso 510 para que los cambios en la prueba de similitud no cambien el grupo de portavoz de cohorte seleccionado. El paso de establecer umbrales durante entrenamiento entonces termina en el paso 512. Una vez que se han adaptado los modelos y los umbrales establecidos para cada portavoz en el conjunto de portavoz y cada usuario del sistema, el sistema puede utilizarse para autenticar un usuario. La autenticación comienza al establecer parámetros de modelo para una pronunciación de prueba como se muestra en el diagrama de flujo de la Figura 6 y el diagrama de bloques de la Figura 7. En el paso 600 de la Figura 6, se recibe una pronunciación de prueba 700 de la Figura 7. La pronunciación de prueba se convierte en una secuencia de valores digitales por un convertidor analógico a digital 702 y se agrupan marcos por una unidad de construcción de marco 704. Los marcos de valores digitales se aplican a un extractor de características 706, que realiza la misma extracción de característica que el extractor de característica 406 de la Figura 4 para producir vectores de pronunciación de expresión de prueba 708. El paso 602, una unidad de adaptación 710 forma probabilidades posteriores específicas de pruebas 712 basándose en el modelo de fondo universal 412 que utiliza ecuaciones 2 y 3 anteriores. En el paso 604 el modelo de fondo universal se adapta por adaptación hasta 710 para formar GMMS adaptadas de pruebas 714 que utilizan Ecuaciones 4 a 6 anteriores, con la pronunciación de prueba que se utiliza como X¡ . En el paso 606, los umbrales de similitud 724 se determinan para la pronunciación de prueba. Un método para determinar los umbrales de similitud se muestra en más detalle en el diagrama de flujo de la Figura 8. En el paso 800 de la Figura 8, una prueba de similitud 716 se utiliza por una unidad de selección de cohorte 718 para encontrar aquellos portavoces en el conjunto de portavoz que son muy similares al portavoz de prueba. Durante este peso, los parámetros de modelo {?(?),??) asociados con cada portavoz en el conjunto de portavoz se aplican de forma separada la prueba de similitud. Junto con los parámetros de modelo ( OO»*" > 12 , 714 para la pronunciación de prueba. El subgrupo de portavoces de cómputo de portavoz que producen la similitud superior mide el portavoz actualmente seleccionado que se selecciona como la cohorte resultante en un grupo de parámetros de modelo de cohorte 720. De acuerdo con una modalidad, la prueba de similitud de la ecuación 12 se utiliza como prueba de similitud 716 durante la iteración inicial. En el paso 802, una unidad de construcción de umbral 722 utiliza parámetros de modelo de corte 720 y GMMS adaptados de prueba 714 para formar umbrales de pronunciación de prueba 724. De acuerdo con una modalidad, la Ecuación 14 se utiliza para calcular el umbral con el medio de los GMMS adaptados de pruebas 714 que se utilizan para definir el valor de ajuste S¡ y el medio para los parámetros de modelo de cohorte 720 que se utilizan para definir 5¡s para cada cohorte. En el paso 804, se forma una nueva prueba de similitud 716 por una unidad de construcción de prueba de similitud 726 utilizando umbrales de pronunciación de prueba 724 establecidas en el paso 802 y umbrales de conjunto de portavoz 436 establecidos en el método de la Figura 5. De acuerdo con una modalidad, la prueba de similitud de la Ecuación 17 se utiliza como la prueba de similitud nueva 716. En el paso 806, el método determina si el mismo número de iteraciones es se alcanzó como se realizó en el diagrama de flujo de la Figura 5. Si el mismo número de iteraciones no se realizó, la nueva prueba de similitud se utiliza para seleccionar un nuevo grupo de cohortes al regresar al paso 800. Las nuevas cohortes 720 se utilizan por la unidad de construcción de umbral 722 para formar nuevos umbrales de pronunciación de prueba, que se agregan a los umbrales de portavoz de prueba 724. Los nuevos umbrales se utilizan por la unidad de construcción de prueba de similitud 726 en el paso 804 para formar una nueva prueba de similitud tal como la prueba de similitud de la Ecuación 20. Los pasos 800, 802, 804 y 806 se repiten hasta que el mismo número de iteraciones se realizó en el método de la Figura 8 como se realizó en el método de la Figura 5 que resulta en una prueba de similitud final 716 que tiene el mismo número de umbrales que la prueba de similitud final 440 formada a través del diagrama de flujo de la Figura 5. Cuando se alcanza el mismo número de iteraciones, el procedimiento para calcular umbrales de similitud para la pronunciación de prueba termina en el paso 808. La autenticación de portavoz continúa con el procedimiento mostrado en la Figura 9 que utiliza los elementos del diagrama de bloque de la Figura 10. En el paso 900, se recibe una identificación de usuario nominal 1000 al utilizar la identificación de usuario nominal, los Modelos de Mezcla Gausianos adaptados 1002, probabilidades posteriores 1004 y umbrales 1006 para el usuario nominal se recuperan en el paso 902. Estos parámetros se determinaron de pronunciaciones de entrenamiento del usuario nominal en el diagrama de flujo de la Figura 3. En el paso 904, se recuperan los Modelos de Mezcla Gausianos adaptados de pronunciación de prueba 714, probabilidades posteriores de pronunciación de prueba 712 y umbrales de pronunciación de prueba 724 de la Figura 7. En el paso 906, la prueba de similitud final 716 se utiliza por un módulo de marcación de similitud 1010 para formar una marca de similitud 1012 entre los parámetros de modelo de pronunciación de pruebas 712, 714, 724 y los parámetros de modelos de usuario nominal 1002, 1004, 1006. De acuerdo con una modalidad, la prueba de similitud final 716 es la prueba de similitud de la Ecuación 20. En el paso 908, la marca de similitud 1012 se utiliza por una unidad de autenticación de portavoz 1014 para ser una decisión sobre si la pronunciación de prueba es del usuario identificado por la Id de usuario nominal 1000.
AUTENTICACION DE PORTAVOZ DEPENDIENTE DEL TEXTO De acuerdo con una modalidad adicional de la presente invención, se proporciona un sistema de autenticación de portavoz dependiente de texto en donde se construye un Modelo de Marco Oculto y se utiliza para realizar autenticación de portavoz. La Figura 11 proporciona un método para entrenar tal Modelo de Marco Oculto y la Figura 12 proporciona un diagrama de bloques de elementos utilizados al entrenar el Modelo de Marco Oculto. En el paso 1100 de la Figura 11, se entrena un modelo de fondo universal independiente de texto. De acuerdo con una modalidad, el modelo de fondo universal es un Modelo de Mezcla Gaussiano que se entrena al recolectar conferencia independiente de texto de muchos portavoces diferentes en un conjunto de portavoz 1200. Cada expresión en el conjunto de portavoz 1200 se convierte en una secuencia de valores digitales por un convertidor analógico a digital 1202 y los valores digitales se agrupan en marcos por una unidad de construcción de marco 1204. Para cada marco, una unidad de extracción de característica 1206 extrae un vector de característica, que en una modalidad es un coeficiente sepstral de Mel-f recuencia con vector delta. Los vectores de característica extraídos 1208 se aplican a un entrenador de Modelo de Mezcla Gausiano 1210 para formar el modelo de fondo universal 1212. Los entrenadores de Modelo de Mezcla Gausianos son bien conocidos en la técnica y forman Modelos de Mezcla Gausianos al agrupar vectores de característica en componentes de mezcla e identificar parámetros Gausianos que describen la distribución de vectores de característica asignados a cada componente. En el paso 1101, las pronunciaciones de entrenamiento 1216 se reciben y se convierten en valores digitales por un convertidor analógico a digital 1218 y se agrupan en marcos por una unidad de construcción de marco 1220. Para cada marco, una unidad de extracción de característica 1222 extrae un vector de característica con ello forma vectores de característica de entrenamiento 1224, que son el mismo tipo de vectores que vectores de característica de conjunto de portavoz 1208. De acuerdo con una modalidad, las pronunciaciones de entrenamiento 1216 se forman por un portavoz individual que repite una palabra o frase. En el paso 1102, el modelo de fondo universal 1212 se utiliza para definir parámetros de probabilidad de estado de Modelo de Marco Oculto de línea de base 1213. De acuerdo con una modalidad, esto se realiza al establecer el medio y la covarianza de cada componente de mezcla como el medio y covarianza de un estado de Modelo de Marco Oculto correspondiente. En el paso 1103, el modelo de fondo universal 1212 se adapta a un portavoz particular por una unidad adaptación 1226 y se convierte en parámetros de probabilidad de estado de HMM 1214. En particular, los vectores de característica de entrenamiento 1224 se proporcionan a la unidad adaptación de modelo de mezcla Gausiana 1226, que también recibe el modelo de fondo universal 1212. La unidad de adaptación de Modelo de mezcla Gausiano 1226 adapta el modelo de fondo universal que utiliza Ecuaciones 2 a 6 anteriores mientras utiliza los vectores de característica de entrenamiento como %t El medio resultante y la covarianza para cada componente de mezcla se almacenan como parámetros de modelo para una distribución de probabilidad de estado de HMM correspondiente. De esa forma, cada componente de mezcla representa un estado de HMM separado. En el paso 1104, los vectores de característica de entrenamiento 1224 se aplican a un descodif icador de Modelo de Markov Oculto 1228, que descodificada secuencia de vectores de característica para identificar una secuencia de estados de HMM 1230 que son muy probablemente otorgados con la secuencia de vectores de característica 1224. Para realizar esta descodificación, el descodif icador de HMM I228 utiliza parámetros de probabilidad de estado de HMM 1214 y un grupo inicial de parámetros de probabilidad de transición de HMM 1232. De acuerdo una modalidad, las probabilidades de transición de HMM ¡nicialmente se establecen a un valor uniforme para que la probabilidad de transitar entre dos estados sea la misma para todos los estados. En el paso 1106, la secuencia de estado descodificado 1230 se utiliza por una calculadora de probabilidad de transición 1234 para entrenar parámetros de probabilidad de transición de HMM 1232. Este cálculo involucra contar el número de transiciones entre varios estados y asignar probabilidades a cada transición basándose en las cuentas. En el paso 1108, los vectores de característica de entrenamiento 1224 de nuevo se descodifican una vez por el descodificador de HMM 1228, esta vez al utilizar los nuevos parámetros de probabilidad de transición de HMM 1232 y los parámetros de probabilidad estado de HMM 1214. Esto forma una nueva secuencia de estado descodificado 1230. En el paso 1110, el método determina si la secuencia de estado descodificado de convergió. Si no convergió, se utiliza la nueva secuencia de estado para retener los parámetros de probabilidad de transición de HMM 1232 al regresar al paso 1106. Los vectores de característica de entrenamiento 1224 de nuevo se descodifican al utilizar nuevos parámetros de probabilidad de transición en el paso 1108. Los pasos 1106, 1108 y 1110 se repiten hasta que la nueva secuencia de estado de HMM de salida está estable, en donde el entrenamiento de HMM está completo en el paso 1112. Una vez que se entrenó el Modelo de Markov Oculto, puede utilizarse para realizar autenticación de portavoz como se muestra en el diagrama de flujo de la Figura 13 y el diagrama de bloques de la Figura 14. En el paso 1300, de la Figura 13, se recibe una identificación de usuario nominal 1400 y se utiliza por una unidad de recuperación de HMM 1402 para seleccionar parámetros de probabilidad estado de Modelo de Markov Oculto 1404 y parámetros de probabilidad de transición de Modelo de Markov Oculto 1406 en el paso 1302. En el paso 1304, se recibe una pronunciación de prueba 1408. La pronunciación de prueba se convierte en una secuencia de valores digitales por un convertidor analógico a digital 1410 y la secuencia de valores digitales se agrupa en marcos por una unidad de construcción de marco 1412. Para cada marco, un extractor de característica 1414 extrae un vector de característica que forma una secuencia de vectores de característica 1416. En el paso 1306 los vectores de característica de pronunciación de prueba 1416 se aplican a un descodificador de Modelo de Markov Oculto 1418, que descodifica los vectores de característica que utilizan un Modelo de Marcación Oculto de línea de base que consiste de parámetros de probabilidad de estado de Modelo de Markov Oculto de de línea de base 1213 generado del modelo de fondo universal 1420 y parámetros de probabilidad de transición de HMM 1406, que se entrenan al utilizar el método de la Figura 11. El descodificador de HMM 1418 produce una probabilidad de línea de base 1422 para la secuencia de estado muy probable dado los parámetros de probabilidad de estado de HMM de línea de base 1213 y los parámetros de probabilidad de transición de HMM 1406. En el paso 1308, el descodificador de HMM 1418 descodifica vectores de característica 1416 que utilizan los parámetros de probabilidad estado de Modelo de Markov Oculto 1404 y los parámetros de probabilidad de transición de HMM 1406 identificados de la identificación de usuario nominal. Esta descodificación resulta en una probabilidad de usuario nominal 1424, que proporciona una probabilidad para la secuencia muy probable de estados de HMM identificados dados los parámetros de probabilidad 1404 y parámetros de probabilidad de transición de HMM 1406. En el paso 1310, la relación de la probabilidad de usuario nominal 1424 y la probabilidad de línea de base 1422 se aplica a una función de registro por un módulo de marcación 1428 para determinar una marca de relación de probabilidad de registro 1426. En el paso 1312, esta marca se compara con un umbral por un módulo de autentificación 1430 para determinar si la expresión de prueba es del portavoz identificado por la identificación de usuario nominal. Aunque el tema se describió en lenguaje específico a características estructurales y/o actos metodológicos, se debe entender que el tema definido en las reivindicaciones anexas no necesariamente se limita a las características específicas o actos descritos anteriormente. El lugar de esto, las características y actos específicos descritos anteriormente se describen como formas ilustrativas para implementar las reivindicaciones.

Claims (4)

35 REIVINDICACIONES
1. - Un método que comprende: recibir (600) una señal de conferencia (700); formar (604) medios adaptados (714) para cada uno de la pluralidad de componentes de mezcla al adoptar un modelo de fondo (412) que comprende medios de fondo para cada uno de la pluralidad de componentes de mezcla basándose en la señal de conferencia (700); determinar (906) una marca de similitud (1012) al determinar la suma de funciones determinadas para la pluralidad de componentes de mezcla, en donde cada función comprende el producto de una probabilidad posterior de un componente de mezcla basándose en la señal de conferencia y una diferencia entre un medio adaptado (714) y un medio de fondo (412).
2. - El método de acuerdo con la reivindicación 1, que además comprende formar (312) medios de entrenamiento para cada uno de la pluralidad de componentes de mezcla al adaptar (312) el modelo de fondo basándose en una señal de conferencia de entrenamiento (420) de un usuario.
3. - El método de acuerdo con la reivindicación 2, en donde cada función además comprende el producto de una probabilidad posterior de un componente de mezcla basándose en la señal de conferencia de entrenamiento y una diferencia entre un medio de entrenamiento y un medio de fondo.
4.- El método de acuerdo con la reivindicación 3, que además comprende recibir (900) una identificación de usuario nominal (1000) y seleccionar (902) medios de entrenamiento (1002) para uso en las funciones basadas en la identificación de usuario nominal. 5.- El método de acuerdo con la reivindicación 1, que además comprende formar (306) medios de conjunto de portavoz (418) para cada uno de la pluralidad de portavoces en un conjunto de portavoz (400), el medio de conjunto de portavoz para un portavoz siendo formado al adaptar el modelo de fondo basándose en la conferencia del portavoz. 6.- El método de acuerdo con la reivindicación 5, en donde cada función además comprende un umbral correspondiente en donde cada umbral (722) se basa en medios de conjunto de portavoz (720) para un subgrupo de los portavoces en el conjunto de portavoz. 7.- El método de acuerdo con la reivindicación 6, que además comprende seleccionar (800) el subgrupo de portavoces del conjunto de portavoz basándose en una marca de similitud determinada de los medios de conjunto de portavoz (418) y los medios adaptados (714). 8.- El método de acuerdo con la reivindicación 7, que además comprende: formar (312) medios de entrenamiento (426) para cada uno de la pluralidad de componentes de mezcla al adaptar el modelo de fondo basándose en una señal de diálogo de entrenamiento (420) de un usuario; y determinar (314) umbrales de usuario nominal (436) basándose en medios de conjunto de portavoz para un segundo subgrupo de los portavoces en el conjunto de portavoz, el segundo subgrupo siendo seleccionado (502) del conjunto de portavoz basándose en una marca de similitud determinada de los medios de conjunto de portavoz y los medios de entrenamiento. 9. - El método de acuerdo con la reivindicación 8, en donde cada función además comprende un segundo umbral. 10. - Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar pasos que comprenden: determinar (800) una marca de similitud entre una pronunciación de prueba (714) y cada uno de un grupo de pronunciaciones de entrenamiento (418); utilizar (800) las marcas de similitud para seleccionar un subgrupo (720) del grupo de pronunciaciones de entrenamiento; utilizar (802) el subgrupo (720) de pronunciaciones de entrenamiento para definir un umbral (724); y utilizar (906) el umbral para determinar una marca de similitud de autenticación entre la pronunciación de prueba y una pronunciación de usuario almacenada. 11.- El medio legible por computadora de acuerdo con la reivindicación 10, en donde determinar (906) una marca de similitud comprende adaptar (604) un modelo de fondo basándose en la pronunciación de prueba para formar un medio adaptado y utilizar (906) el medio adaptado en la marca de similitud. 12.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde utilizar (906) el medio adaptado comprende determinar la diferencia entre el medio adaptado y un medio de fondo del modelo de fondo y utilizar la diferencia para determinar la marca de similitud. 13.- El medio legible por computadora de acuerdo con la reivindicación 12, en donde determinar la marca de similitud además comprende determinar (602) una probabilidad para un componente de mezcla basándose en la pronunciación de prueba y utilizar el producto de la probabilidad para el componente de mezcla y la diferencia entre el medio adaptado y el medio de fondo para determinar la marca de similitud. 14.- El medio legible por computadora de acuerdo con la reivindicación 10, en donde utilizar el umbral para determinar una marca de similitud de autenticación comprende: utilizar (804, 800) el umbral para determinar una nueva marca de similitud entre la pronunciación de prueba y cada uno del grupo de pronunciaciones de entrenamiento; utilizar (800) las nuevas marcas de similitud para seleccionar un segundo subgrupo del grupo de pronunciaciones de entrenamiento; utilizar (802) el segundo subgrupo de pronunciaciones de entrenamiento para definir un segundo umbral; y utilizar (906) el umbral y el segundo umbral para determinar una marca de similitud de autenticación entre la pronunciación de prueba y una pronunciación de usuario almacenada. 15.- El medio legible por computadora de acuerdo con la reivindicación 10, que además comprende: determinar (502) una marca de similitud entre la pronunciación de usuario almacenada y cada uno del grupo de pronunciaciones de entrenamiento; utilizar (502) las marcas de similitud para seleccionar un subgrupo específico de usuario del grupo de pronunciaciones de entrenamiento; utilizar (504) el subgrupo específico de usuario de pronunciaciones de entrenamiento para definir un umbral específico de usuario; y utilizar (906) el umbral específico de usuario para determinar la marca de similitud de autenticación entre la pronunciación de prueba y la pronunciación de usuario almacenada. 16.- El medio legible por computadora de acuerdo con la reivindicación 15, en donde utilizar el subgrupo específico de usuario de pronunciaciones de entrenamiento para definir un umbral específico de usuario comprende utilizar medios 418 adaptados de un modelo de fondo para cada pronunciación de entrenamiento en el subgrupo de pronunciaciones de entrenamiento. 17.- Un método que comprende: entrenar (1100) un modelo de mezcla Gausiano (1212) utilizando un diálogo independiente de texto (1200) de una pluralidad de portavoces; recibir (1102) pronunciaciones de entrenamiento (1216) de un usuario; adaptar (1103) el modelo de mezcla Gausiano basándose en las pronunciaciones en entrenamiento para formar parámetros de probabilidad estado del Modelo de Markov Oculto (1404) para el usuario; establecer (1106) parámetros de probabilidad de transición del Modelo de Markov Oculto (1406); y utilizar los parámetros de probabilidad de estado del Modelo de Markov Oculto (1404) y los parámetros de probabilidad de transición del Modelo de Markov Oculto (1406) para determinar (1312) si se produjo una pronunciación de prueba (1408) por el usuario. 18.- El método de acuerdo con al reivindicación 17, en donde establecer los parámetros de probabilidad de Transición del Modelo de Markov Oculto comprende: establecer (1106) parámetros de probabilidad de transición del Modelo de Markov Oculto iniciales (1232); utilizar (1108) los parámetros de probabilidad estado del Modelo de Markov de Oculto y los parámetros de probabilidad de transición del Modelo de Markov Oculto iniciales para descodificar la pronunciación de prueba en una secuencia descodificada de estados del Modelo de Markov Oculto (1230); y actualizar (1106) los parámetros de probabilidad de transición del Modelo de Markov Oculto (1232) basándose en la secuencia descodificada de los estalos del Modelo de Markov Oculto. 19.- El método de acuerdo con la reivindicación 17, que además comprende utilizar (1101) el modelo de mezcla Gausiano para formar parámetros de probabilidad de estado del Modelo de Markov Oculto de línea de base (1213), y en donde determinar si la pronunciación de prueba se produjo por el usuario además comprende utilizar los parámetros de probabilidad de estado del Modelo de Markov Oculto de linea de base (1213) para determinar si se produjo la pronunciación de prueba por el usuario. 20.- El método de acuerdo con la reivindicación 19, en donde determinar si la pronunciación de prueba se produjo por el usuario comprende: descodificar (1308) la pronunciación de prueba al utilizar los parámetros de probabilidad estado del Modelo de Markov Oculto (1404) y los parámetros de probabilidad de transición del Modelo de Markov Oculto (1406) para determinar una probabilidad de usuario (1424); descodificar (1306) la pronunciación de prueba al utilizar los parámetros de probabilidad de estado del Modelo de Markov Oculto (1213) y los parámetros de probabilidad de transición del Modelo de Markov Oculto (1406) para determinar una probabilidad de línea de base (1422); y utilizar (1310) la probabilidad de usuario y la probabilidad de línea de base para generar una marca.
MX2008010478A 2006-02-20 2007-02-13 Autenticacion de portavoz. MX2008010478A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/358,302 US7539616B2 (en) 2006-02-20 2006-02-20 Speaker authentication using adapted background models
PCT/US2007/004137 WO2007098039A1 (en) 2006-02-20 2007-02-13 Speaker authentication

Publications (1)

Publication Number Publication Date
MX2008010478A true MX2008010478A (es) 2008-10-23

Family

ID=38429414

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2008010478A MX2008010478A (es) 2006-02-20 2007-02-13 Autenticacion de portavoz.

Country Status (11)

Country Link
US (1) US7539616B2 (es)
EP (2) EP1989701B1 (es)
JP (1) JP4876134B2 (es)
KR (1) KR101323061B1 (es)
CN (2) CN101385074B (es)
AU (1) AU2007217884A1 (es)
CA (2) CA2643481C (es)
MX (1) MX2008010478A (es)
NO (1) NO20083580L (es)
RU (1) RU2008134112A (es)
WO (1) WO2007098039A1 (es)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
AU2012200605B2 (en) * 2008-09-05 2014-01-23 Auraya Pty Ltd Voice authentication system and methods
WO2010025523A1 (en) * 2008-09-05 2010-03-11 Auraya Pty Ltd Voice authentication system and methods
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
US8645136B2 (en) 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
US9036890B2 (en) 2012-06-05 2015-05-19 Outerwall Inc. Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like
CN102737633B (zh) * 2012-06-21 2013-12-25 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
EP2713367B1 (en) * 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US8739955B1 (en) * 2013-03-11 2014-06-03 Outerwall Inc. Discriminant verification systems and methods for use in coin discrimination
US9443367B2 (en) 2014-01-17 2016-09-13 Outerwall Inc. Digital image coin discrimination for use with consumer-operated kiosks and the like
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
JP6239471B2 (ja) 2014-09-19 2017-11-29 株式会社東芝 認証システム、認証装置および認証方法
CN105513588B (zh) * 2014-09-22 2019-06-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及***
CN105096941B (zh) * 2015-09-02 2017-10-31 百度在线网络技术(北京)有限公司 语音识别方法以及装置
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
FR3058558B1 (fr) * 2016-11-07 2020-01-10 Pw Group Procede et systeme d'authentification par biometrie vocale d'un utilisateur
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10950243B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs Inc. Method for reduced computation of t-matrix training for speaker recognition
US10832683B2 (en) * 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
US10950244B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs LLC. System and method for speaker authentication and identification
WO2019129511A1 (en) * 2017-12-26 2019-07-04 Robert Bosch Gmbh Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
US10762905B2 (en) * 2018-07-31 2020-09-01 Cirrus Logic, Inc. Speaker verification
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
US11158325B2 (en) * 2019-10-24 2021-10-26 Cirrus Logic, Inc. Voice biometric system
CN111564152B (zh) * 2020-07-16 2020-11-24 北京声智科技有限公司 语音转换方法、装置、电子设备及存储介质
US20220148600A1 (en) * 2020-11-11 2022-05-12 Rovi Guides, Inc. Systems and methods for detecting a mimicked voice input signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
ES2239650T3 (es) * 2000-07-05 2005-10-01 Matsushita Electric Industrial Co., Ltd. Identificacion y verificacion de interlocutores.
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
WO2003088534A1 (en) * 2002-04-05 2003-10-23 International Business Machines Corporation Feature-based audio content identification
KR100611562B1 (ko) 2003-09-17 2006-08-11 (주)한국파워보이스 음성 암호를 이용한 컴퓨터 보안 방법

Also Published As

Publication number Publication date
US7539616B2 (en) 2009-05-26
CN101385074B (zh) 2012-08-15
US20070198257A1 (en) 2007-08-23
EP1989701A4 (en) 2011-06-22
CA2861876A1 (en) 2007-08-30
EP2410514A2 (en) 2012-01-25
EP2410514A3 (en) 2012-02-22
CA2643481C (en) 2016-01-05
AU2007217884A1 (en) 2007-08-30
EP1989701A1 (en) 2008-11-12
RU2008134112A (ru) 2010-02-27
JP4876134B2 (ja) 2012-02-15
KR101323061B1 (ko) 2013-10-29
CN102646416B (zh) 2014-10-29
EP1989701B1 (en) 2012-06-27
CA2643481A1 (en) 2007-08-30
CA2861876C (en) 2016-04-26
EP2410514B1 (en) 2013-05-29
KR20080102373A (ko) 2008-11-25
NO20083580L (no) 2008-09-10
CN101385074A (zh) 2009-03-11
WO2007098039A1 (en) 2007-08-30
CN102646416A (zh) 2012-08-22
JP2009527798A (ja) 2009-07-30

Similar Documents

Publication Publication Date Title
MX2008010478A (es) Autenticacion de portavoz.
US6876966B1 (en) Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7043422B2 (en) Method and apparatus for distribution-based language model adaptation
US7624018B2 (en) Speech recognition using categories and speech prefixing
US20030050783A1 (en) Terminal device, server device and speech recognition method
RU2393549C2 (ru) Способ и устройство для распознавания речи
US20060277033A1 (en) Discriminative training for language modeling
US20020128840A1 (en) Artificial language
Jones et al. Video mail retrieval: The effect of word spotting accuracy on precision
EP1447792A2 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法
US20040143435A1 (en) Method of speech recognition using hidden trajectory hidden markov models
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
US20030171931A1 (en) System for creating user-dependent recognition models and for making those models accessible by a user
KR20190061579A (ko) 실시간 자동 통역 시스템 및 이의 발화 검증 방법
Mirishkar et al. CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection
Gallardo-Antolín et al. Recognizing GSM digital speech
Furui Speech and speaker recognition evaluation
Takano et al. Estimation of speech intelligibility using speech recognition systems
Shimizu et al. Development of client-server speech translation system on a multi-lingual speech communication platform
Larcher et al. From GMM to HMM for embedded password-based speaker recognition
Alhonen et al. Mandarin short message dictation on symbian series 60 mobile phones
JP2000227800A (ja) 話者照合装置および話者照合装置における閾値設定方法
Littlefield et al. Dual-Type Automatic Speech Recogniser Designs for Spoken Dialogue Systems

Legal Events

Date Code Title Description
FA Abandonment or withdrawal