RU2008114596A

RU2008114596A - Способ и устройство для распознавания речи

Info

Publication number: RU2008114596A
Application number: RU2008114596/09A
Authority: RU
Inventors: Еспер ОЛЬСЕН (FI); Еспер ОЛЬСЕН
Original assignee: Нокиа Корпорейшн (Fi); Нокиа Корпорейшн
Priority date: 2005-10-17
Filing date: 2006-10-17
Publication date: 2009-11-27
Also published as: RU2393549C2; WO2007045723A1; US20070088552A1; EP1949365A1; KR20080049826A

Abstract

1. Способ распознавания речи, включающий: ! прием кадров, содержащих выборки аудиосигнала; ! формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра; ! проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу; ! установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения; ! анализ набора моделей смешивания для определения результата распознавания; ! определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает: ! определение вероятности того, что результат распознавания корректен; ! определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и ! деление этой вероятности на указанный нормализующий член; ! при этом способ также включает сравнение меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания. ! 2. Способ по п.1, в котором меру достоверности вычисляют с помощью следующего уравнения: ! ! где О - вектор признаков указанного акустического сигнала; ! sl - конкретный фрагмент речи из указанного акустического сигнала; ! p(O|s1) - акустическое правдоподобие указанного конкретного фрагмента речи s1; ! p(s1) - априорная вероятность указанного конкретного фрагмента речи; ! Ok - проекция в�

Claims

1. Способ распознавания речи, включающий:

прием кадров, содержащих выборки аудиосигнала;

формирование вектора признаков, содержащего первое число компонентов вектора, для каждого кадра;

проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;

установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения;

анализ набора моделей смешивания для определения результата распознавания;

определение меры достоверности для результата распознавания, когда результат распознавания найден, причем это определение включает:

определение вероятности того, что результат распознавания корректен;

определение нормализующего члена путем выбора для каждого состояния среди указанного набора моделей смешивания одной модели смешивания, которая обеспечивает наивысшее правдоподобие; и

деление этой вероятности на указанный нормализующий член;

при этом способ также включает сравнение меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.

2. Способ по п.1, в котором меру достоверности вычисляют с помощью следующего уравнения:

где О - вектор признаков указанного акустического сигнала;

s_l - конкретный фрагмент речи из указанного акустического сигнала;

p(O|s₁) - акустическое правдоподобие указанного конкретного фрагмента речи s₁;

p(s₁) - априорная вероятность указанного конкретного фрагмента речи;

O_k - проекция вектора признаков на k-е подпространство;

µ_smk - среднее значение m-й компоненты смеси s-го состояния на k-е подпространство;

σ² _smk - вектор дисперсии m-й компоненты смеси s-го состояния на k-е подпространство;

N() - гауссова функция плотности вероятности состояния s;

К - число подпространств и

Т - число кадров в указанном акустическом сигнале.

3. Способ по п. 1 или 2, в котором каждое подпространство представлено кодовой книгой, и модели смешивания указывают индексом в кодовой книге.

4. Способ по п. 1 или 2, в котором векторы признаков формируют путем определения мел-частотных кепстральных коэффициентов для каждого кадра.

5. Электронное устройство, содержащее:

вход для ввода кадров, содержащих выборки, сформированные на основе аудиосигнала;

экстрактор признаков для формирования вектора признаков, содержащего первое число компонентов вектора для каждого кадра, и для проецирования вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше, чем первое число, а общее число компонент проецированного вектора признаков равно первому числу;

калькулятор вероятности для установления, для каждого проецированного вектора, набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения, и для анализа набора моделей смешивания для определения результата распознавания;

определитель достоверности для определения меры достоверности результата распознавания, когда результат распознавания найден, причем это определение включает:

компаратор для сравнивания меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.

6. Электронное устройство по п. 5, также содержащее:

вход для ввода аудиосигнала;

аналого-цифровой преобразователь для формирования выборок из аудиосигнала;

организатор для помещения выборок аудиосигнала в кадры.

7. Электронное устройство по п. 5 или 6, также содержащее кодовую книгу для каждого подпространства.

8. Электронное устройство по п. 7, в котором модели смешивания указываются индексом в кодовой книге.

9. Электронное устройство по п. 5 или 6, в котором экстрактор признаков содержит средство для формирования векторов признаков путем определения мел-частотных кепстральных коэффициентов для каждого кадра.

10. Электронное устройство по п. 5 или 6, которое представляет собой беспроводной терминал.

11. Электронное устройство по п. 5 или 6, которое представляет собой устройство распознавания речи.

12. Компьютерный программный продукт, включающий машинные инструкции, сохраненные на читаемом носителе для выполнения процессором, при этом машинные инструкции, при выполнении их процессором, для распознавания речи, включают:

установление, для каждого проецированного вектора, набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения;

при этом компьютерный программный продукт включает также машинные инструкции для сравнения меры достоверности с пороговым значением для определения того, достаточно ли надежен результат распознавания.

13. Компьютерный программный продукт по п.12, где указанное определение меры достоверности для результата распознавания включает машинные инструкции для вычисления меры достоверности с помощью следующего уравнения:

p(O|s_l) - акустическое правдоподобие указанного конкретного фрагмента речи s_l;

p(s_l) - априорная вероятность указанного конкретного фрагмента речи;

К - число подпространств и

14. Компьютерный программный продукт по п.12 или 13, содержащий машинные инструкции для представления каждого подпространства кодовой книгой и для указания моделей смешивания индексом в кодовой книге.

15. Компьютерный программный продукт по п.12 или 13, содержащий машинные инструкции для формирования векторов признаков путем определения мел-частотных кепстральных коэффициентов для каждого кадра.