RU2008114596A - Способ и устройство для распознавания речи - Google Patents
Способ и устройство для распознавания речи Download PDFInfo
- Publication number
- RU2008114596A RU2008114596A RU2008114596/09A RU2008114596A RU2008114596A RU 2008114596 A RU2008114596 A RU 2008114596A RU 2008114596/09 A RU2008114596/09 A RU 2008114596/09A RU 2008114596 A RU2008114596 A RU 2008114596A RU 2008114596 A RU2008114596 A RU 2008114596A
- Authority
- RU
- Russia
- Prior art keywords
- recognition result
- specified
- vector
- feature vector
- probability
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract 9
- 239000013598 vector Substances 0.000 claims abstract 34
- 239000012634 fragment Substances 0.000 claims abstract 8
- 238000004590 computer program Methods 0.000 claims 4
- 239000000203 mixture Substances 0.000 claims 4
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 239000006185 dispersion Substances 0.000 claims 2
- 230000005236 sound signal Effects 0.000 claims 2
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
1. Способ распознавания речи, включающий: ! прием кадров, содержащих выборки аудиосигнала; ! формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра; ! проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу; ! установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения; ! анализ набора моделей смешивания для определения результата распознавания; ! определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает: ! определение вероятности того, что результат распознавания корректен; ! определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и ! деление этой вероятности на указанный нормализующий член; ! при этом способ также включает сравнение меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания. ! 2. Способ по п.1, в котором меру достоверности вычисляют с помощью следующего уравнения: ! ! где О - вектор признаков указанного акустического сигнала; ! sl - конкретный фрагмент речи из указанного акустического сигнала; ! p(O|s1) - акустическое правдоподобие указанного конкретного фрагмента речи s1; ! p(s1) - априорная вероятность указанного конкретного фрагмента речи; ! Ok - проекция в�
Claims (15)
1. Способ распознавания речи, включающий:
прием кадров, содержащих выборки аудиосигнала;
формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра;
проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;
установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения;
анализ набора моделей смешивания для определения результата распознавания;
определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает:
определение вероятности того, что результат распознавания корректен;
определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и
деление этой вероятности на указанный нормализующий член;
при этом способ также включает сравнение меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.
2. Способ по п.1, в котором меру достоверности вычисляют с помощью следующего уравнения:
где О - вектор признаков указанного акустического сигнала;
sl - конкретный фрагмент речи из указанного акустического сигнала;
p(O|s1) - акустическое правдоподобие указанного конкретного фрагмента речи s1;
p(s1) - априорная вероятность указанного конкретного фрагмента речи;
Ok - проекция вектора признаков на k-е подпространство;
µsmk - среднее значение m-й компоненты смеси s-го состояния на k-е подпространство;
σ2 smk - вектор дисперсии m-й компоненты смеси s-го состояния на k-е подпространство;
N() - гауссова функция плотности вероятности состояния s;
К - число подпространств и
Т - число кадров в указанном акустическом сигнале.
3. Способ по п. 1 или 2, в котором каждое подпространство представлено кодовой книгой, и модели смешивания указывают индексом в кодовой книге.
4. Способ по п. 1 или 2, в котором векторы признаков формируют путем определения мел-частотных кепстральных коэффициентов для каждого кадра.
5. Электронное устройство, содержащее:
вход для ввода кадров, содержащих выборки, сформированные на основе аудиосигнала;
экстрактор признаков для формирования вектора признаков, содержащего первое число компонентов вектора для каждого кадра, и для проецирования вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;
калькулятор вероятности для установления, для каждого проецированного вектора, набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения, и для анализа набора моделей смешивания для определения результата распознавания;
определитель достоверности для определения меры достоверности результата распознавания, когда результат распознавания найден, причем это определение включает:
определение вероятности того, что результат распознавания корректен;
определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и
деление этой вероятности на указанный нормализующий член;
компаратор для сравнивания меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.
6. Электронное устройство по п. 5, также содержащее:
вход для ввода аудиосигнала;
аналого-цифровой преобразователь для формирования выборок из аудиосигнала;
организатор для помещения выборок аудиосигнала в кадры.
7. Электронное устройство по п. 5 или 6, также содержащее кодовую книгу для каждого подпространства.
8. Электронное устройство по п. 7, в котором модели смешивания указываются индексом в кодовой книге.
9. Электронное устройство по п. 5 или 6, в котором экстрактор признаков содержит средство для формирования векторов признаков путем определения мел-частотных кепстральных коэффициентов для каждого кадра.
10. Электронное устройство по п. 5 или 6, которое представляет собой беспроводной терминал.
11. Электронное устройство по п. 5 или 6, которое представляет собой устройство распознавания речи.
12. Компьютерный программный продукт, включающий машинные инструкции, сохраненные на читаемом носителе для выполнения процессором, при этом машинные инструкции, при выполнении их процессором, для распознавания речи, включают:
прием кадров, содержащих выборки аудиосигнала;
формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра;
проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;
установление, для каждого проецированного вектора, набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения;
анализ набора моделей смешивания для определения результата распознавания;
определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает:
определение вероятности того, что результат распознавания корректен;
определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и
деление этой вероятности на указанный нормализующий член;
при этом компьютерный программный продукт включает также машинные инструкции для сравнения меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.
13. Компьютерный программный продукт по п.12, где указанное определение меры достоверности для результата распознавания включает машинные инструкции для вычисления меры достоверности с помощью следующего уравнения:
где О - вектор признаков указанного акустического сигнала;
sl - конкретный фрагмент речи из указанного акустического сигнала;
p(O|sl) - акустическое правдоподобие указанного конкретного фрагмента речи sl;
p(sl) - априорная вероятность указанного конкретного фрагмента речи;
Ok - проекция вектора признаков на k-е подпространство;
µsmk - среднее значение m-й компоненты смеси s-го состояния на k-е подпространство;
σ2 smk - вектор дисперсии m-й компоненты смеси s-го состояния на k-е подпространство;
N() - гауссова функция плотности вероятности состояния s;
К - число подпространств и
Т - число кадров в указанном акустическом сигнале.
14. Компьютерный программный продукт по п.12 или 13, содержащий машинные инструкции для представления каждого подпространства кодовой книгой и для указания моделей смешивания индексом в кодовой книге.
15. Компьютерный программный продукт по п.12 или 13, содержащий машинные инструкции для формирования векторов признаков путем определения мел-частотных кепстральных коэффициентов для каждого кадра.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/252,475 | 2005-10-17 | ||
US11/252,475 US20070088552A1 (en) | 2005-10-17 | 2005-10-17 | Method and a device for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2008114596A true RU2008114596A (ru) | 2009-11-27 |
RU2393549C2 RU2393549C2 (ru) | 2010-06-27 |
Family
ID=37949210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008114596/09A RU2393549C2 (ru) | 2005-10-17 | 2006-10-17 | Способ и устройство для распознавания речи |
Country Status (5)
Country | Link |
---|---|
US (1) | US20070088552A1 (ru) |
EP (1) | EP1949365A1 (ru) |
KR (1) | KR20080049826A (ru) |
RU (1) | RU2393549C2 (ru) |
WO (1) | WO2007045723A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2571588C2 (ru) * | 2014-07-24 | 2015-12-20 | Владимир Анатольевич Ефремов | Электронное устройство для автоматического перевода устной речи с одного языка на другой |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101056511B1 (ko) | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US20100057452A1 (en) * | 2008-08-28 | 2010-03-04 | Microsoft Corporation | Speech interfaces |
US8239195B2 (en) * | 2008-09-23 | 2012-08-07 | Microsoft Corporation | Adapting a compressed model for use in speech recognition |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US9997161B2 (en) | 2015-09-11 | 2018-06-12 | Microsoft Technology Licensing, Llc | Automatic speech recognition confidence classifier |
US10706852B2 (en) | 2015-11-13 | 2020-07-07 | Microsoft Technology Licensing, Llc | Confidence features for automated speech recognition arbitration |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
KR20180068467A (ko) | 2016-12-14 | 2018-06-22 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
RU2761940C1 (ru) * | 2018-12-18 | 2021-12-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу |
RU210836U1 (ru) * | 2020-12-03 | 2022-05-06 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Аудиобейдж с детектором механических колебаний акустической частоты для выделения речи оператора |
RU207166U1 (ru) * | 2021-04-30 | 2021-10-14 | Общество с ограниченной ответственностью "ВОКА-ТЕК" | Аудиобейдж, регистрирующий речь пользователя |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450523A (en) * | 1990-11-15 | 1995-09-12 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems |
US5263120A (en) * | 1991-04-29 | 1993-11-16 | Bickel Michael A | Adaptive fast fuzzy clustering system |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
US5946656A (en) * | 1997-11-17 | 1999-08-31 | At & T Corp. | Speech and speaker recognition using factor analysis to model covariance structure of mixture components |
US6233555B1 (en) * | 1997-11-25 | 2001-05-15 | At&T Corporation | Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models |
US6151574A (en) * | 1997-12-05 | 2000-11-21 | Lucent Technologies Inc. | Technique for adaptation of hidden markov models for speech recognition |
US6141641A (en) * | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
EP0953971A1 (en) * | 1998-05-01 | 1999-11-03 | Entropic Cambridge Research Laboratory Ltd. | Speech recognition system and method |
US6401063B1 (en) * | 1999-11-09 | 2002-06-04 | Nortel Networks Limited | Method and apparatus for use in speaker verification |
JP4336865B2 (ja) * | 2001-03-13 | 2009-09-30 | 日本電気株式会社 | 音声認識装置 |
US7587321B2 (en) * | 2001-05-08 | 2009-09-08 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system |
US7571097B2 (en) * | 2003-03-13 | 2009-08-04 | Microsoft Corporation | Method for training of subspace coded gaussian models |
US7499857B2 (en) * | 2003-05-15 | 2009-03-03 | Microsoft Corporation | Adaptation of compressed acoustic models |
-
2005
- 2005-10-17 US US11/252,475 patent/US20070088552A1/en not_active Abandoned
-
2006
- 2006-10-17 WO PCT/FI2006/050445 patent/WO2007045723A1/en active Application Filing
- 2006-10-17 KR KR1020087009164A patent/KR20080049826A/ko not_active Application Discontinuation
- 2006-10-17 RU RU2008114596/09A patent/RU2393549C2/ru not_active IP Right Cessation
- 2006-10-17 EP EP06794161A patent/EP1949365A1/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2571588C2 (ru) * | 2014-07-24 | 2015-12-20 | Владимир Анатольевич Ефремов | Электронное устройство для автоматического перевода устной речи с одного языка на другой |
Also Published As
Publication number | Publication date |
---|---|
RU2393549C2 (ru) | 2010-06-27 |
WO2007045723A1 (en) | 2007-04-26 |
US20070088552A1 (en) | 2007-04-19 |
EP1949365A1 (en) | 2008-07-30 |
KR20080049826A (ko) | 2008-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2008114596A (ru) | Способ и устройство для распознавания речи | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
CN104143326B (zh) | 一种语音命令识别方法和装置 | |
CN111429946A (zh) | 语音情绪识别方法、装置、介质及电子设备 | |
US8560318B2 (en) | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event | |
US10490194B2 (en) | Speech processing apparatus, speech processing method and computer-readable medium | |
US9972341B2 (en) | Apparatus and method for emotion recognition | |
US7418383B2 (en) | Noise robust speech recognition with a switching linear dynamic model | |
CN109346088A (zh) | 身份识别方法、装置、介质及电子设备 | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
CN108399914A (zh) | 一种语音识别的方法和装置 | |
US20220004920A1 (en) | Classification device, classification method, and classification program | |
CN112331180A (zh) | 一种口语评测方法及装置 | |
Kumar et al. | Significance of GMM-UBM based modelling for Indian language identification | |
Subhashree et al. | Speech Emotion Recognition: Performance Analysis based on fused algorithms and GMM modelling | |
CN101452701A (zh) | 基于反模型的置信度估计方法及装置 | |
US20210264939A1 (en) | Attribute identifying device, attribute identifying method, and program storage medium | |
CN107274892A (zh) | 说话人识别方法及装置 | |
Nakajima et al. | Monaural source enhancement maximizing source-to-distortion ratio via automatic differentiation | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
JP3735209B2 (ja) | 話者認識装置及び方法 | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
JP2011191542A (ja) | 音声分類装置、音声分類方法、及び音声分類用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20101018 |