RU2008114596A - Способ и устройство для распознавания речи - Google Patents

Способ и устройство для распознавания речи Download PDF

Info

Publication number
RU2008114596A
RU2008114596A RU2008114596/09A RU2008114596A RU2008114596A RU 2008114596 A RU2008114596 A RU 2008114596A RU 2008114596/09 A RU2008114596/09 A RU 2008114596/09A RU 2008114596 A RU2008114596 A RU 2008114596A RU 2008114596 A RU2008114596 A RU 2008114596A
Authority
RU
Russia
Prior art keywords
recognition result
specified
vector
feature vector
probability
Prior art date
Application number
RU2008114596/09A
Other languages
English (en)
Other versions
RU2393549C2 (ru
Inventor
Еспер ОЛЬСЕН (FI)
Еспер ОЛЬСЕН
Original Assignee
Нокиа Корпорейшн (Fi)
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн (Fi), Нокиа Корпорейшн filed Critical Нокиа Корпорейшн (Fi)
Publication of RU2008114596A publication Critical patent/RU2008114596A/ru
Application granted granted Critical
Publication of RU2393549C2 publication Critical patent/RU2393549C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. Способ распознавания речи, включающий: ! прием кадров, содержащих выборки аудиосигнала; ! формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра; ! проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу; ! установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения; ! анализ набора моделей смешивания для определения результата распознавания; ! определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает: ! определение вероятности того, что результат распознавания корректен; ! определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и ! деление этой вероятности на указанный нормализующий член; ! при этом способ также включает сравнение меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания. ! 2. Способ по п.1, в котором меру достоверности вычисляют с помощью следующего уравнения: ! ! где О - вектор признаков указанного акустического сигнала; ! sl - конкретный фрагмент речи из указанного акустического сигнала; ! p(O|s1) - акустическое правдоподобие указанного конкретного фрагмента речи s1; ! p(s1) - априорная вероятность указанного конкретного фрагмента речи; ! Ok - проекция в�

Claims (15)

1. Способ распознавания речи, включающий:
прием кадров, содержащих выборки аудиосигнала;
формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра;
проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;
установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения;
анализ набора моделей смешивания для определения результата распознавания;
определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает:
определение вероятности того, что результат распознавания корректен;
определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и
деление этой вероятности на указанный нормализующий член;
при этом способ также включает сравнение меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.
2. Способ по п.1, в котором меру достоверности вычисляют с помощью следующего уравнения:
Figure 00000001
где О - вектор признаков указанного акустического сигнала;
sl - конкретный фрагмент речи из указанного акустического сигнала;
p(O|s1) - акустическое правдоподобие указанного конкретного фрагмента речи s1;
p(s1) - априорная вероятность указанного конкретного фрагмента речи;
Ok - проекция вектора признаков на k-е подпространство;
µsmk - среднее значение m-й компоненты смеси s-го состояния на k-е подпространство;
σ2smk - вектор дисперсии m-й компоненты смеси s-го состояния на k-е подпространство;
N() - гауссова функция плотности вероятности состояния s;
К - число подпространств и
Т - число кадров в указанном акустическом сигнале.
3. Способ по п. 1 или 2, в котором каждое подпространство представлено кодовой книгой, и модели смешивания указывают индексом в кодовой книге.
4. Способ по п. 1 или 2, в котором векторы признаков формируют путем определения мел-частотных кепстральных коэффициентов для каждого кадра.
5. Электронное устройство, содержащее:
вход для ввода кадров, содержащих выборки, сформированные на основе аудиосигнала;
экстрактор признаков для формирования вектора признаков, содержащего первое число компонентов вектора для каждого кадра, и для проецирования вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;
калькулятор вероятности для установления, для каждого проецированного вектора, набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения, и для анализа набора моделей смешивания для определения результата распознавания;
определитель достоверности для определения меры достоверности результата распознавания, когда результат распознавания найден, причем это определение включает:
определение вероятности того, что результат распознавания корректен;
определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и
деление этой вероятности на указанный нормализующий член;
компаратор для сравнивания меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.
6. Электронное устройство по п. 5, также содержащее:
вход для ввода аудиосигнала;
аналого-цифровой преобразователь для формирования выборок из аудиосигнала;
организатор для помещения выборок аудиосигнала в кадры.
7. Электронное устройство по п. 5 или 6, также содержащее кодовую книгу для каждого подпространства.
8. Электронное устройство по п. 7, в котором модели смешивания указываются индексом в кодовой книге.
9. Электронное устройство по п. 5 или 6, в котором экстрактор признаков содержит средство для формирования векторов признаков путем определения мел-частотных кепстральных коэффициентов для каждого кадра.
10. Электронное устройство по п. 5 или 6, которое представляет собой беспроводной терминал.
11. Электронное устройство по п. 5 или 6, которое представляет собой устройство распознавания речи.
12. Компьютерный программный продукт, включающий машинные инструкции, сохраненные на читаемом носителе для выполнения процессором, при этом машинные инструкции, при выполнении их процессором, для распознавания речи, включают:
прием кадров, содержащих выборки аудиосигнала;
формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра;
проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;
установление, для каждого проецированного вектора, набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения;
анализ набора моделей смешивания для определения результата распознавания;
определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает:
определение вероятности того, что результат распознавания корректен;
определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и
деление этой вероятности на указанный нормализующий член;
при этом компьютерный программный продукт включает также машинные инструкции для сравнения меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.
13. Компьютерный программный продукт по п.12, где указанное определение меры достоверности для результата распознавания включает машинные инструкции для вычисления меры достоверности с помощью следующего уравнения:
Figure 00000002
где О - вектор признаков указанного акустического сигнала;
sl - конкретный фрагмент речи из указанного акустического сигнала;
p(O|sl) - акустическое правдоподобие указанного конкретного фрагмента речи sl;
p(sl) - априорная вероятность указанного конкретного фрагмента речи;
Ok - проекция вектора признаков на k-е подпространство;
µsmk - среднее значение m-й компоненты смеси s-го состояния на k-е подпространство;
σ2smk - вектор дисперсии m-й компоненты смеси s-го состояния на k-е подпространство;
N() - гауссова функция плотности вероятности состояния s;
К - число подпространств и
Т - число кадров в указанном акустическом сигнале.
14. Компьютерный программный продукт по п.12 или 13, содержащий машинные инструкции для представления каждого подпространства кодовой книгой и для указания моделей смешивания индексом в кодовой книге.
15. Компьютерный программный продукт по п.12 или 13, содержащий машинные инструкции для формирования векторов признаков путем определения мел-частотных кепстральных коэффициентов для каждого кадра.
RU2008114596/09A 2005-10-17 2006-10-17 Способ и устройство для распознавания речи RU2393549C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/252,475 2005-10-17
US11/252,475 US20070088552A1 (en) 2005-10-17 2005-10-17 Method and a device for speech recognition

Publications (2)

Publication Number Publication Date
RU2008114596A true RU2008114596A (ru) 2009-11-27
RU2393549C2 RU2393549C2 (ru) 2010-06-27

Family

ID=37949210

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008114596/09A RU2393549C2 (ru) 2005-10-17 2006-10-17 Способ и устройство для распознавания речи

Country Status (5)

Country Link
US (1) US20070088552A1 (ru)
EP (1) EP1949365A1 (ru)
KR (1) KR20080049826A (ru)
RU (1) RU2393549C2 (ru)
WO (1) WO2007045723A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2571588C2 (ru) * 2014-07-24 2015-12-20 Владимир Анатольевич Ефремов Электронное устройство для автоматического перевода устной речи с одного языка на другой

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US8239195B2 (en) * 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US9997161B2 (en) 2015-09-11 2018-06-12 Microsoft Technology Licensing, Llc Automatic speech recognition confidence classifier
US10706852B2 (en) 2015-11-13 2020-07-07 Microsoft Technology Licensing, Llc Confidence features for automated speech recognition arbitration
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
KR20180068467A (ko) 2016-12-14 2018-06-22 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
RU210836U1 (ru) * 2020-12-03 2022-05-06 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Аудиобейдж с детектором механических колебаний акустической частоты для выделения речи оператора
RU207166U1 (ru) * 2021-04-30 2021-10-14 Общество с ограниченной ответственностью "ВОКА-ТЕК" Аудиобейдж, регистрирующий речь пользователя

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
EP0953971A1 (en) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. Speech recognition system and method
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
US7587321B2 (en) * 2001-05-08 2009-09-08 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7499857B2 (en) * 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2571588C2 (ru) * 2014-07-24 2015-12-20 Владимир Анатольевич Ефремов Электронное устройство для автоматического перевода устной речи с одного языка на другой

Also Published As

Publication number Publication date
RU2393549C2 (ru) 2010-06-27
WO2007045723A1 (en) 2007-04-26
US20070088552A1 (en) 2007-04-19
EP1949365A1 (en) 2008-07-30
KR20080049826A (ko) 2008-06-04

Similar Documents

Publication Publication Date Title
RU2008114596A (ru) Способ и устройство для распознавания речи
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN104143326B (zh) 一种语音命令识别方法和装置
CN111429946A (zh) 语音情绪识别方法、装置、介质及电子设备
US8560318B2 (en) Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
US10490194B2 (en) Speech processing apparatus, speech processing method and computer-readable medium
US9972341B2 (en) Apparatus and method for emotion recognition
US7418383B2 (en) Noise robust speech recognition with a switching linear dynamic model
CN109346088A (zh) 身份识别方法、装置、介质及电子设备
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
US10748544B2 (en) Voice processing device, voice processing method, and program
CN108399914A (zh) 一种语音识别的方法和装置
US20220004920A1 (en) Classification device, classification method, and classification program
CN112331180A (zh) 一种口语评测方法及装置
Kumar et al. Significance of GMM-UBM based modelling for Indian language identification
Subhashree et al. Speech Emotion Recognition: Performance Analysis based on fused algorithms and GMM modelling
CN101452701A (zh) 基于反模型的置信度估计方法及装置
US20210264939A1 (en) Attribute identifying device, attribute identifying method, and program storage medium
CN107274892A (zh) 说话人识别方法及装置
Nakajima et al. Monaural source enhancement maximizing source-to-distortion ratio via automatic differentiation
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
JP3735209B2 (ja) 話者認識装置及び方法
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20101018