RU2230375C2 - Method of identification of announcer and device for its realization - Google Patents
Method of identification of announcer and device for its realization Download PDFInfo
- Publication number
- RU2230375C2 RU2230375C2 RU2002123509/09A RU2002123509A RU2230375C2 RU 2230375 C2 RU2230375 C2 RU 2230375C2 RU 2002123509/09 A RU2002123509/09 A RU 2002123509/09A RU 2002123509 A RU2002123509 A RU 2002123509A RU 2230375 C2 RU2230375 C2 RU 2230375C2
- Authority
- RU
- Russia
- Prior art keywords
- speech signal
- input
- segments
- standard
- segment
- Prior art date
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
Заявляемые способ и устройство относятся к анализу речи, могут быть использованы, в частности, в различных системах и устройствах для ограничения несанкционированного доступа к материальным или информационным ресурсам на основе биометрической информации о говорящем.The inventive method and device relate to speech analysis, can be used, in particular, in various systems and devices to limit unauthorized access to material or information resources based on biometric information about the speaker.
Известны способы и устройства распознавания дикторов на основе построения и сравнения чисто статистических моделей известных и неизвестных дикторов, например [1]. В известном способе распознавание диктора выполняют при использовании дискриминантных моделей Гауссовых смесей.Known methods and devices for recognizing speakers based on the construction and comparison of purely statistical models of known and unknown speakers, for example [1]. In the known method, speaker recognition is performed using discriminant models of Gaussian mixtures.
Данный способ, как и большинство чисто статистических подходов к распознаванию дикторов, не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (1-3 секунды), а используемые микрофоны имеют низкое качество (высокую вариативность частотного отклика).This method, like most purely statistical approaches to speaker recognition, is not suitable for situations where the used voice messages (passwords) are very short (1-3 seconds) and the microphones used are of poor quality (high frequency response variability).
Известен способ распознавания дикторов на основе чисто стохастического подхода [2]. В данном способе распознавание диктора выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных дикторов.A known method of speaker recognition based on a purely stochastic approach [2]. In this method, speaker recognition is performed by constructing and comparing covariance matrices of feature descriptions of the input speech signal and speech signal standards of known speakers.
Этот известный способ также не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (5 секунд и менее), а также очень чувствителен к пропаданию сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов.This known method is also not suitable for situations where the used voice messages (passwords) are very short (5 seconds or less), and also very sensitive to signal loss in certain parts of the frequency speech range due to ambient noise and low-quality microphones.
Известен способ распознавания изолированных слов речи с адаптацией к диктору [3], основанный на обработке с предискажениями входного речевого сигнала, дискретизации и последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предискажение входного речевого сигнала выполняют во временной области при дифференцировании со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.A known method for the recognition of isolated speech words with adaptation to the speaker [3], based on processing with distortion of the input speech signal, sampling and sequential segmentation of the speech signal, encoding segments with discrete elements, calculating the energy spectrum, measuring formant frequencies and determining amplitudes and energy in different frequency bands of a speech signal, the classification of articulatory events and states, the formation and sorting of word patterns, the calculation of the distances between patterns with s with the implementation of recognizable words, decisions on the recognition or denial of recognition vocabulary words with the addition of standards in the process of adaptation to the speaker. The prediction of the input speech signal is performed in the time domain during differentiation with smoothing, the energy spectrum is quantized depending on the variance of the communication channel noise, the formant frequencies are determined by finding the global maximum of the logarithmic spectrum and subtracting the specified frequency-dependent function from this spectrum, when classifying articulatory events and states determine the proportion of periodic and noise sources of excitation when compared with a threshold of autocorrelation coefficients In the case of rectangular pulses in several frequency bands, the beginning and end of articulatory movements and the corresponding acoustic processes are determined by comparing the likelihood function with a threshold of the autocorrelation coefficients, formant frequencies and energies in the given frequency bands, the speech signal is segmented into the intervals between the beginning and end of acoustic processes corresponding to specific articulatory movements, and sequentially, starting with vowels, with segment recognition produce only if the types of transitions coincide on its left and right borders and end segmentation when recognizing the left and right time segments of the pause between words. The word standards are formed in the form of matrices with binary values of the likelihood of signs, and the rejection of recognition is carried out with the normalized difference of the distance from the unknown implementation to the two nearest standards belonging to different words, less than the established threshold.
Недостатками данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению голосового пароля, так как данный способ не различает дикторов при произнесении ими паролей с совпадающим словесным составом.The disadvantages of this known method of recognizing isolated speech words with adaptation to the speaker is the weak distinguishing power of this method when it is used to recognize speakers by pronouncing a voice password, since this method does not distinguish speakers when they pronounce passwords with the same verbal composition.
Известна система для обеспечения секретности на основе распознавания голоса [4], требующая и от обучающего и от неизвестного диктора обязательного повторного произнесения, по крайней мере, одного из паролей. Система сравнивает параметрические представления повторных произнесений пароля неизвестного и известного диктора и принимает положительное решение о тождестве сравниваемых дикторов только в случае, если каждое произнесение неизвестного диктора достаточно близко произнесениям обучающего диктора, в то же время если их представления достаточно далеки друг от друга.A known system for secrecy based on voice recognition [4], requiring both the teacher and the unknown speaker to re-pronounce at least one of the passwords. The system compares the parametric representations of repeated pronunciations of the password of the unknown and known announcers and makes a positive decision on the identity of the compared announcers only if each utilization of the unknown announcer is close enough to the pronunciations of the teaching announcer, at the same time if their representations are far enough from each other.
Данная известная система достаточно устойчива к использованию магнитофона вместо реального диктора в качестве источника речевого сигнала, в то же время ее недостатком является низкая помехоустойчивость в шумах переменного характера (в транспортном средстве, в условиях шума улицы, производственного помещения).This known system is quite resistant to using a tape recorder instead of a real speaker as a source of a speech signal, at the same time its disadvantage is low noise immunity in noise of a variable nature (in a vehicle, in the conditions of street noise, industrial premises).
Известен способ автоматической идентификации личности по особенностям произношения парольной фразы этой личностью [5], заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах - в области максимумов интенсивности речевого сигнала, а также в начале первой и в конце последней вокализованных зон. Для выделенных временных интервалов определяют параметры речевого сигнала, сравнивают их с эталонами, которые формируют с учетом математических ожиданий и допустимых разбросов этих параметров, для чего в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интервалов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэффициенты корреляции параметров речевого сигнала. На основании полученных параметров речевого сигнала и соответствующих им статистических характеристик принимают решение по идентификации личности.A known method of automatic identification of a person by the features of the pronunciation of a passphrase by this person [5], which consists in the fact that the speech signal is divided into voiced zones, time intervals are allocated in voiced zones - in the region of the maximum intensity of the speech signal, as well as at the beginning of the first and the end last voiced zones. For the selected time intervals, the parameters of the speech signal are determined, compared with standards, which are formed taking into account the mathematical expectations and permissible scatter of these parameters, for which time intervals are allocated at the end of the first, beginning of the last, at the beginning and at the end of other voiced zones, the duration of the time intervals is set a multiple of the period of the fundamental tone of the speech signal, determine the estimates of the correlation coefficients of the parameters of the speech signal, which are included in the number of compared with the standards, when f The formation of the standards additionally takes into account the correlation coefficients of the parameters of the speech signal. Based on the obtained parameters of the speech signal and the corresponding statistical characteristics, a decision is made to identify the person.
Недостатком известного способа идентификации личности является низкая помехоустойчивость метода, так как для его работы требуется выделение во входном речевом сигнале точного положения границ основного тона голоса, что в условиях наличия акустических помех (шум большого офисного помещения, улицы и т.п.) практически невозможно.The disadvantage of this method of identifying a person is the low noise immunity of the method, since it requires highlighting the exact position of the boundaries of the main tone of the voice in the input speech signal, which is almost impossible in the presence of acoustic noise (noise from a large office room, street, etc.).
Известно устройство для верификации диктора на основе измерения расстояния “ближайшего соседа” [6], включающее дисплей, генератор выдачи подсказок по случайному закону, блок распознавания слова, верификатор диктора, клавиатуру и блок первичной обработки сигнала, при этом вход блока первичной обработки сигнала является входом устройства, а его выход соединен с первыми входами распознавателя слов и верификатора дикторов, ко второму входу распознавателя слов подключен первый выход генератора выдачи подсказок, выход которого соединен с дисплеем. Клавиатура подключена к третьему входу распознавателя слов и к третьему входу верификатора дикторов, выход которого является выходом устройства. Верификатор дикторов данного устройства для определения сходства различия произнесения голосовых паролей использует разбиение входного речевого сигнала на отдельные кадры анализа, вычисление непараметрических речевых векторов для каждого кадра анализа и далее определение близости таким образом полученных описаний речевого сигнала сравниваемых произнесений на основе Эвклидова расстояния ближайшего соседа.A device for verifying the speaker based on the measurement of the distance of the “nearest neighbor” [6], including a display, a generator for issuing random prompts, a word recognition unit, a speaker verifier, a keyboard and a primary signal processing unit, while the input of the primary signal processing unit is an input device, and its output is connected to the first inputs of the word recognizer and speaker verifier, the first output of the prompt generator is connected to the second input of the word recognizer, the output of which is connected to we take it. The keyboard is connected to the third input of the word recognizer and to the third input of the speaker verifier, the output of which is the output of the device. The speaker verifier of this device uses the splitting of the input speech signal into separate analysis frames to calculate the similarity of the difference in pronouncing voice passwords, calculating nonparametric speech vectors for each analysis frame, and then determining the proximity of the thus obtained descriptions of the speech signal of the compared pronunciations based on the Euclidean distance of the nearest neighbor.
Недостатком данного устройства являются низкая помехоустойчивость при работе в акустических шумах офисных помещений и улицы в силу использования непараметрических речевых векторов и Эвклидовой метрики при определении степени сходства/отличия произнесений голосовых паролей, а также низкая надежность распознавания (высокий процент ложных отказов) за счет использования переменных по порядку слов голосовых паролей, вызванная неизбежной индивидуальной вариативностью произнесения одних и тех же слов в разном контексте даже одним и тем же диктором.The disadvantage of this device is the low noise immunity when working in the acoustic noise of office premises and the street due to the use of nonparametric speech vectors and the Euclidean metric when determining the degree of similarity / difference in pronunciation of voice passwords, as well as low recognition reliability (high percentage of false failures) due to the use of variables for the word order of voice passwords caused by the inevitable individual variability of pronouncing the same words in a different context, even by one and the same e speaker.
Известен способ распознавания говорящего [7], включающий сравнивание входного речевого сигнала неизвестного диктора с эталонами, представляющими речь заранее известных дикторов, из которых, по меньшей мере, один представлен, по меньшей мере, двумя эталонами. Последовательные сегменты входного сигнала сравнивают с последовательными сегментами эталона, получая меру близости сравниваемых сегментов входного речевого сигнала и эталона. Для каждого эталона заранее известного диктора, имеющего, по крайней мере, два эталона, формируют композитный результат сравнения данного эталона и входного речевого сигнала на основе выбора для каждого сегмента входного речевого сигнала ближайшего по используемой мере близости сегмента сравниваемого эталона. Далее идентифицируют неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и эталонов.A known method for recognizing a speaker [7], including comparing the input speech signal of an unknown speaker with patterns representing speech of previously known speakers, of which at least one is represented by at least two patterns. Serial segments of the input signal are compared with successive segments of the reference, obtaining a measure of the proximity of the compared segments of the input speech signal and the reference. For each standard of a well-known speaker with at least two standards, a composite result of comparing this standard and the input speech signal is formed based on the choice for each segment of the input speech signal of the closest segment of the compared standard in terms of proximity. An unknown speaker is then identified based on the composite results of comparing the input speech signal and the standards.
Известный способ распознавания диктора ограниченно применим на практике, так как обязательное требование наличия для распознаваемого, заранее известного диктора не менее двух эталонов не всегда осуществимо в реальных условиях. Кроме того, данный способ не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, поскольку используемое в способе чисто посегментное параметрическое описание речевых сигналов подвержено сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы метода в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных ближайших сегментов большого числа близких чисто шумовых сегментов, соответствующих сегментам речевых пауз и в эталоне и во входном речевом сигнале.The known method of speaker recognition is limited in practice, since the mandatory requirement for a recognizable, well-known speaker of at least two standards is not always feasible in real conditions. In addition, this method does not provide a high level of speaker recognition reliability when operating in the acoustic noise of real office rooms, the street, or vehicles, since the purely segmented parametric description of speech signals used in the method is strongly influenced by additive acoustic noise and natural speech variability. In addition, the low reliability of the method in noise is due to the fact that the segment of the reference standard closest in the measure of proximity used is searched for each segment of the input speech signal, which leads to the presence among the found nearest segments of a large number of close pure noise segments corresponding to segments of speech pauses and in the reference and in the input speech signal.
Известно устройство для распознавания диктора, совпадающее с заявляемым решением по наибольшему числу существенных признаков и принятое за прототип, описано в [7]. Известное устройство-прототип включает, в частности, источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в обрабатываемом сегменте, вычислителя кепстральных коэффициентов речи и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок нелинейного выравнивания временной оси сравниваемых слов, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство. Источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока нелинейного выравнивания временной оси сравниваемых слов, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока нелинейного выравнивания временной оси сравниваемых слов, выходы блока нелинейного выравнивания временной оси сравниваемых слов соединены со входами блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом.A device for recognizing the speaker, which coincides with the claimed solution for the largest number of essential features and adopted as a prototype, is described in [7]. The known prototype device includes, in particular, a source of a speech signal, a unit for determining a parametric description of a speech signal in the form of a separator of the beginning / end of a speech signal, a segmenter of a speech signal by a sequence of segments, a unit of multiplication by a weighting window, a unit of adding to the signal in a segment of zeros, a calculator Fourier transform, a calculator of the signal power spectrum in the processed segment, a calculator of cepstral speech coefficients and a shaper of parametric descriptions of the input speech about a signal connected in series, a switch, a nonlinear alignment unit for the time axis of the words being compared, a unit for comparing parametric descriptions of the standard and the input speech signal, a decision block for a recognizable speaker, and a storage device. The source of the speech signal is connected to the block for determining the parametric description of the speech signal, the output of which is connected to the input of the switch, the first output of which is connected to the first input of the nonlinear alignment block of the time axis of the compared words, and the second output is connected to the input of the storage device, the output of which is connected to the second input of the block nonlinear alignment of the time axis of the compared words, the outputs of the block of nonlinear alignment of the time axis of the compared words are connected to the inputs of the comparison unit to pairs metric descriptions of the standard and the input speech signal, the output of which is connected to the input of the decision block on the recognizable speaker, the output of which is the output of the device as a whole.
Известное устройство распознавания диктора ограниченно применимо на практике, так как обязательное требование наличия для распознаваемого, заранее известного диктора не менее двух эталонов не всегда реализуемо на практике. Известное устройство для распознавания диктора не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, поскольку используемые в устройстве чисто посегментное, кепстральное временное описание речевых сигналов и нелинейное выравнивание временной оси сравниваемых слов подвержены сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы устройства в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных ближайших сегментов большого числа близких чисто шумовых сегментов, соответствующих речевым паузам и в эталоне и во входном речевом сигнале.The known speaker recognition device is limitedly applicable in practice, since the mandatory requirement for a recognizable, pre-known speaker of at least two standards is not always practicable. The known speaker recognition device does not provide a high level of speaker recognition reliability when operating in the acoustic noise of real office rooms, the street or vehicles, since the purely segmented, cepstral temporal description of speech signals and non-linear alignment of the time axis of the compared words are strongly influenced by additive acoustic noise and natural variability of speech. In addition, the low reliability of the operation of the device in noise is due to the fact that the segment of the reference standard that is closest in terms of proximity used is searched for each segment of the input speech signal, which leads to the presence of a large number of close pure noise segments among the nearest segments found that correspond to speech pauses and reference and in the input speech signal.
Задачей настоящего изобретения являлось создание такого способа распознавания диктора и такого устройства, реализующего этот способ, которые, при сохранении достоинств прототипа, позволили бы повысить надежность распознавания, а также обеспечить высокую помехоустойчивость распознавания при работе в шумах и при использовании низкокачественных микрофонов.The objective of the present invention was to provide such a method for recognizing a speaker and such a device that implements this method, which, while maintaining the advantages of the prototype, would improve the reliability of recognition, as well as provide high noise immunity recognition when working in noise and when using low-quality microphones.
Поставленная задача решается тем, что заявляемый способ распознавания диктора включает сравнение входного речевого сигнала неизвестного диктора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосовых паролей, произносимых заранее известными дикторами, по меньшей мере, один из которых представлен, по меньшей мере, одним эталоном, для чего осуществляют посегментное сравнение параметрических описаний входного речевого сигнала с параметрическими описаниями каждого из выбранных для сравнения эталонов. В заявляемом способе в качестве параметрических описаний используют соответственно векторы частот формант последовательно расположенных во времени сегментов входного речевого сигнала и эталонов с не фиксированным от сегмента к сегменту количеством формант, а также статистические характеристики спектра мощности входного речевого сигнала и упомянутых эталонов, вычисляемые для их используемых сегментов. Для сравнения параметрических описаний входного речевого сигнала и эталона используется определенная мера близости между каждой парой сравниваемых сегментов входного речевого сигнала и эталона. При сравнении параметрических описаний входного речевого сигнала и эталона находят для каждого используемого сегмента входного речевого сигнала ближайший по мере близости сегмент каждого выбранного для сравнения эталона, формируют композитные результаты сравнения входного речевого сигнала и каждого из выбранных для сравнения эталонов, в которые соответственно включают взвешенное среднее по всем используемым сегментам входного речевого сигнала значение мер близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом каждого выбранного для сравнения эталона, и распознают неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и упомянутых эталонов. В качестве меры близости пары сравниваемых сегментов используют взвешенный модуль разности векторов формантных частот, для каждого используемого сегмента входного речевого сигнала ближайший по упомянутой мере близости сегмент выбранного для сравнения эталона определяют только среди сегментов эталона, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента входного речевого сигнала, а в композитный результат сравнения дополнительно включают коэффициент кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и выбранного для сравнения упомянутого эталона.The problem is solved in that the claimed speaker recognition method includes comparing the input speech signal of an unknown speaker with pre-stored patterns representing the voice signal of voice passwords spoken by previously known speakers, at least one of which is represented by at least one pattern, why carry out a step-by-step comparison of the parametric descriptions of the input speech signal with the parametric descriptions of each of the selected standards for comparison. In the claimed method, as the parametric descriptions, the frequency vectors of formants are used, respectively, of the segments of the input speech signal and patterns with the number of formants not fixed from segment to segment, and the statistical characteristics of the power spectrum of the input speech signal and the said patterns calculated for their used segments . To compare the parametric descriptions of the input speech signal and the standard, a certain measure of proximity is used between each pair of compared segments of the input speech signal and the standard. When comparing the parametric descriptions of the input speech signal and the standard, for each used segment of the input speech signal, the nearest closest segment of each selected reference for comparison is found, composite results of comparison of the input speech signal and each of the selected for comparison standards are formed, which respectively include a weighted average over all used segments of the input speech signal the value of the measures of proximity between this used segment of the input speech signal and Iden closest to him segment each selected for comparison reference, and recognize the unknown speaker on the basis of the composite results comparing the input speech signal and said reference. As a measure of proximity, a pair of compared segments uses a weighted module of the difference of the vectors of the formant frequencies, for each used segment of the input speech signal, the closest segment of the reference selected for comparison is determined only among the segments of the reference for which the number of formants in the corresponding segment of the frequency vector the formant is equal to the number formant in the corresponding frequency vector of the formant of the compared segment of the input speech signal, and in the composite comparison result but include cross-correlation coefficient statistical characteristics of the power spectrum of the input speech signal and for comparing said selected reference.
Голосовые пароли заранее известные дикторы могут произносить, по меньшей мере, два раза, при этом перед повторным произнесением пароля диктор произносит речевое высказывание с существенно измененным характером артикуляции.Voice passwords previously known speakers can pronounce at least two times, while before re-pronouncing the password, the announcer delivers a speech statement with a significantly changed nature of articulation.
В качестве используемых сегментов входного речевого сигнала и эталонов могут быть выбраны только сегменты, у которых число формант в соответствующем векторе частот формант составляет 3 и более.As used segments of the input speech signal and patterns, only segments can be selected for which the number of formants in the corresponding frequency vector of formants is 3 or more.
В качестве статистических характеристик спектра мощности входного речевого сигнала и эталонов может быть использован первый статистический момент спектра мощности их используемых сегментов в интервале времени произнесения соответственно входного речевого сигнала и эталонов.As the statistical characteristics of the power spectrum of the input speech signal and patterns, the first statistical moment of the power spectrum of their used segments in the pronunciation time interval of the input speech signal and patterns, respectively, can be used.
Можно дополнительно определять для каждого используемого сегмента, выбранного для сравнения эталона, ближайший по мере близости сегмент входного речевого сигнала, а в композитный результат сравнения можно дополнительно включать взвешенное среднее по всем используемым сегментам каждого эталона значение мер близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом входного речевого сигнала, при этом для каждого используемого сегмента эталона ближайший по упомянутой мере близости сегмент входного речевого сигнала определяют только среди сегментов входного речевого сигнала, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента упомянутого эталона.It is possible to additionally determine for each used segment selected for comparison of the reference, the closest segment of the input speech signal as close as possible, and the composite result of the comparison can additionally include a weighted average of all used segments of each reference value of the proximity measures between this used reference segment and found for it the nearest segment of the input speech signal, while for each used segment of the standard, the closest segment of the input according to the measure of proximity the speech signal is determined only among the segments of the input speech signal, in which the number of formants in the corresponding segment of the frequency vector of the formant is equal to the number of formants in the corresponding frequency vector of the formants of the compared segment of the mentioned standard.
Из композитного результата сравнения входного речевого сигнала и выбранного для сравнения эталона дополнительно можно вычитать взвешенное среднее по всем используемым сегментам этого эталона значение меры близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом этого эталона, не тождественным данному используемому сегменту, а также взвешенное среднее по всем используемым сегментам входного речевого сигнала значение меры близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом входного речевого сигнала, не тождественным данному используемому сегменту.From the composite result of comparing the input speech signal and the standard selected for comparison, we can additionally subtract the weighted average over all used segments of this standard from the measure of proximity between this used segment of the standard and the nearest segment of this standard found for it that is not identical to the used segment, as well as the weighted average for all used segments of the input speech signal, the value of the measure of proximity between this used segment of the input speech signal and the closest segment of the input speech signal found for it that is not identical to the given segment being used.
В заявляемом способе можно предварительно определять и запоминать эталон окружающего шума и эталон амплитудно-частотной характеристики используемого микрофона. При этом эталон окружающего шума определяют путем накопления в течение заданного интервала времени среднего спектра мощности сигнала окружающего шума без присутствия речевого сигнала, а эталон амплитудно-частотной характеристики используемого микрофона определяют путем накопления при непрерывном произнесении в микрофон речи в течение заданного интервала времени среднегеометрического значения спектра мощности данного речевого сигнала и последующего покомпонентного деления полученного среднегеометрического значения спектра мощности на заранее заданный эталонный средний спектр речевого сигнала.In the inventive method, it is possible to preliminarily determine and store the standard of ambient noise and the standard of the amplitude-frequency characteristics of the microphone used. In this case, the ambient noise standard is determined by accumulating the average power spectrum of the ambient noise signal over a predetermined time interval without the presence of a speech signal, and the standard amplitude-frequency characteristic of the microphone used is determined by accumulating the geometric mean power spectrum during continuous preset speech for a specified time interval of a given speech signal and subsequent component-wise division of the obtained mean geometric value of the power spectrum information on a predetermined reference average spectrum of the speech signal.
В качестве используемых сегментов входного речевого сигнала и эталонов можно выбирать сегменты, у которых усредненная по компонентам относительная энергия разности их спектра мощности и эталона окружающего шума превышает заранее заданное пороговое значение.As used segments of the input speech signal and standards, it is possible to choose segments for which the relative energy of the difference between their power spectrum and the ambient noise standard averaged over the components exceeds a predetermined threshold value.
Параметрическое описание каждого сегмента входного речевого сигнала и эталона можно нормализовать путем покомпонентного деления спектра мощности данного сегмента на эталон амплитудно-частотной характеристики микрофона.The parametric description of each segment of the input speech signal and the standard can be normalized by componentwise dividing the power spectrum of this segment by the standard amplitude-frequency characteristics of the microphone.
Суть заявляемого способа заключается в использовании в качестве параметрического описания речевого сигнала сочетания сильно отличающихся по различительным свойствам сегментных признаков векторов формант и статистических характеристик речевого сигнала всего произнесения пароля в целом, а также в использовании нестандартной неевклидовой меры близости при сравнении форматных векторов двух отдельных сегментов с последующим ее применением к определению статистического сходства сегментных формантных структур речевого сигнала сравниваемых произнесений на основе поиска наилучшего приближения. Общеизвестно (см., например, Чистович Л.А. и др. - Физиология речи. Восприятие речи человеком. - Л.: Наука, 1976), что формантное описание речевого сигнала является наиболее помехоустойчивым и информативным при решении задач распознавания речевых образов. До сих пор его реально редко использовали на практике в силу отсутствия способов надежного выделения формант в зашумленном речевом сигнале, вариативности числа формант, выделяемых на отдельном сегменте, нестабильности формантного описания при изменении громкости произнесения и психофизиологического состояния диктора. В заявляемом изобретении впервые предлагается использовать для распознавания дикторов векторы формантных частот с допустимо различным числом выделенных формант на конкретном сегменте. Описанный ниже способ выделения формант обеспечивает их высокую надежность выделения даже в условиях окружающего шума. Предложенная в изобретении метрика сравнения сегментов не привязана к конкретной временной позиции сегмента в высказывании и позволяет найти похожие по реализации сегменты речевого сигнала во всем произнесении, а не только в примерно том же месте относительно начала высказывания и во входном речевом сигнале и в эталоне. Сочетание разнородного описания речевого сигнала (и формантного и статистического) позволяет избежать недостатков использования чисто формантного описания и, в частности, уменьшить ошибки распознавания, связанные с внутренней вариативностью речевого сигнала за счет различной громкости произнесения, изменения эмоционального и физического состояния диктора, Ломбард-эффекта и т.д. В отличие от известных решений в данном способе распознавания и реализующем его устройстве предлагается симметризованная метрика сравнения эталона и входного речевого сигнала на основе посегментного наилучшего приближения с возможным вычитанием из нее объектной дисперсии данной меры близости. Существенным отличием от прототипа является то, что ближайшие к данному сегменту входного речевого сигнала сегменты эталона ищутся не среди всех сегментов сравниваемого эталона, а только среди сегментов, имеющих совпадающее число компонент вектора формантных частот. Дополнительные пункты изобретения предлагают процедуры определения эталонов окружающего шума и АЧХ используемого микрофона, а также процедуры учета при обработке речевого сигнала данных эталонов, которые существенно повышают устойчивость работы метода и устройства распознавания по отношению к искажениям сигнала низкокачественными микрофонами и шумам.The essence of the proposed method consists in using, as a parametric description of a speech signal, combinations of formant vectors and statistical characteristics of the speech signal of the entire password utterance, which differ greatly in the distinguishing properties of the speech vectors, as well as using a non-standard non-Euclidean measure of proximity when comparing format vectors of two separate segments with the subsequent its application to the determination of statistical similarity of segmented formant structures of a speech signal Vai utterances based on the search of the best approximation. It is well known (see, for example, Chistovich L.A. et al. - Physiology of speech. Human perception of speech. - L .: Nauka, 1976) that the formant description of a speech signal is the most noise-resistant and informative in solving speech recognition problems. Until now, it has actually been rarely used in practice due to the lack of ways to reliably isolate formants in a noisy speech signal, the variability of the number of formants allocated on a separate segment, the instability of the formant description when the pronunciation volume and the psychophysiological state of the speaker change. In the claimed invention for the first time it is proposed to use vectors of formant frequencies with an admissible different number of allocated formants on a particular segment for recognition of speakers. The method for isolating formants described below ensures their high reliability of isolation even under ambient noise conditions. The segment comparison metric proposed in the invention is not tied to a specific temporal position of the segment in the utterance and allows one to find segments of the speech signal that are similar in implementation throughout the utterance, and not only in about the same place relative to the beginning of the utterance both in the input speech signal and in the reference. The combination of a diverse description of the speech signal (both formant and statistical) avoids the disadvantages of using a purely formant description and, in particular, reduces recognition errors associated with the internal variability of the speech signal due to different pronunciation volumes, changes in the emotional and physical state of the speaker, the Lombard effect and etc. In contrast to the known solutions, this recognition method and the device that implements it offer a symmetric metric for comparing the standard and the input speech signal based on the segmentwise best approximation with possible subtraction of the object dispersion of this proximity measure from it. A significant difference from the prototype is that the segments of the standard closest to this segment of the input speech signal are not searched among all segments of the compared standard, but only among segments that have the same number of components of the formant frequency vector. Additional points of the invention offer procedures for determining environmental noise standards and the frequency response of the microphone used, as well as procedures for taking into account these standards when processing a speech signal, which significantly increase the stability of the method and recognition device with respect to signal distortion by low-quality microphones and noise.
Поставленная задача в части устройства решается тем, что в устройстве для распознавания диктора, включающем источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен со входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, блок определения параметрического описания речевого сигнала дополнительно содержит блок определения формантного вектора текущего сегмента и первый сумматор-накопитель статистических характеристик входного речевого сигнала, включенные параллельно друг другу между вычислителем спектра мощности сигнала в сегменте и формирователем параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блока определения формантного расстояния от входного речевого сигнала до эталона и блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона, выходы которых соединены соответственно через первый блок умножения и второй блок умножения со вторым сумматором, а выход второго сумматора соединен с входом блока принятия решения о распознаваемом дикторе.The problem is solved in part of the device in that in the device for recognizing the speaker, including the source of the speech signal, a unit for determining a parametric description of the speech signal in the form of a separator of the beginning / end of the speech signal, a segmenter of a speech signal by a sequence of segments, a unit of multiplication by a weighting window, an addition unit to a signal in a segment of zeros, a Fourier transform calculator, a signal power spectrum calculator in a segment, and a parameter generator of parametric descriptions of the input speech signal connected in series, a switch, a unit for comparing parametric descriptions of a standard and an input speech signal, a decision block for a recognizable speaker and a storage device, while the source of a speech signal is connected to a unit for determining a parametric description of a speech signal, the output of which is connected to the input of the switch, the first output which is connected to the first input of the unit for comparing the parametric descriptions of the standard and the input speech signal, and the second output is connected to the input of the storage device, the output of which is connected to the second input of the unit for comparing the parametric descriptions of the standard and the input speech signal, the output of which is connected to the input of the decision block for the recognizable speaker, the output of which is the output of the device as a whole, the unit for determining the parametric description of the speech signal further comprises a unit for determining the formant vector of the current segment and a first adder-accumulator of statistical characteristics of the input speech signal, connected in parallel between each other between the calculator sp krata of the signal power in the segment and the generator of the parametric descriptions of the input speech signal, the unit for comparing the parametric descriptions of the standard and the input speech signal is made in the form of a unit for determining the formant distance from the input speech signal to the standard and a unit for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and reference, the outputs of which are connected respectively through the first block of multiplication and the second block of multiplication with the second adder, and the output of the second mmatora connected to the input of the decision on recognizable speaker.
Блок определения формантного расстояния от входного речевого сигнала до сравниваемого эталона может включать блок задания сравниваемых сегментов входного речевого сигнала, подключенный к блоку выбора сравниваемых сегментов эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно первый, второй и третий блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам эталона соединены соответственно с первыми входами третьего, четвертого и пятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы блоков умножения соединены с третьим сумматором.The unit for determining the formant distance from the input speech signal to the compared standard may include a unit for specifying the compared segments of the input speech signal connected to the block for selecting the compared segments of the standard, the output of which is connected to the input of the determinant block of the proximity measure between the 3-formant vectors of the pair of compared segments, the input of the determinant block proximity measures between 4-formant vectors of a pair of compared segments and the input of the determinant block proximity measures between 5-formant vectors of a pair of compa segments, the outputs of which, through the first, second and third blocks, respectively, search for the smallest proximity measure for a given segment of the input speech signal for all segments of the standard, the adder-accumulator of the average least measures of proximity for all 3-formant segments of the standard, the adder-accumulator of the average least measures of proximity for all 4-formant segments of the standard, the accumulator-accumulator of the average least measures of proximity for all 5-formant segments of the standard are connected respectively to the first inputs of the third, fourth and fifth th multiplication units, the second inputs of which are connected to the mass storage device, and the outputs of the multiplication units are connected to the third adder.
Блок сравнения параметрических описаний эталона и входного речевого сигнала может дополнительно содержать блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала, соединенный через шестой блок умножения со вторым сумматором.The unit for comparing the parametric descriptions of the standard and the input speech signal may further comprise a unit for determining the formant distance from the compared standard to the input speech signal, connected through the sixth multiplication unit to the second adder.
Блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала может включать блок задания сравниваемых сегментов эталона, подключенный к блоку выбора сравниваемых сегментов входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно четвертый, пятый и шестой блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-форматным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам входного речевого сигнала соединены соответственно с первыми входами седьмого, восьмого и девятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с четвертым сумматором.The unit for determining the formant distance from the compared standard to the input speech signal may include a unit for specifying the compared segments of the standard connected to the block for selecting the compared segments of the input speech signal, the output of which is connected to the input of the determinant block of the proximity measure between the 3-formant vectors of the pair of compared segments, the input of the determinant block proximity measures between 4-formant vectors of a pair of compared segments and the input of the determinant block proximity measures between 5-formant vectors of a pair of compa segments, the outputs of which, respectively, through the fourth, fifth and sixth blocks of finding the smallest proximity measure for a given segment of the reference standard for all segments of the input speech signal, the accumulator-accumulator of the average least proximity measures for all 3-format segments of the input speech signal, the accumulator-accumulator of the average smallest proximity measures for all 4-formant segments of the input speech signal, the adder-accumulator of the average smallest proximity measures for all 5-formant segments of the input speech signal are connected respectively respectively, with the first inputs of the seventh, eighth, and ninth multiplication units, the second inputs of which are connected to a weight storage device, and the outputs of the said multiplication units are connected to the fourth adder.
Блок сравнения параметрических описаний входного речевого сигнала и эталона дополнительно может содержать блок определения формантного расстояния от сегментов эталона до эталона в целом и блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом, соединенных через соответственно десятый и одиннадцатый блоки умножения со вторым сумматором.The unit for comparing the parametric descriptions of the input speech signal and the standard may further comprise a unit for determining the formant distance from the segments of the standard to the standard as a whole and a unit for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole, connected via the tenth and eleventh multiplication units to the second by the adder.
Блок определения формантного расстояния от сегментов эталона до эталона в целом может включать соединенные последовательно блок задания сравниваемых сегментов эталона, блок удаления выбранного для сравнения сегмента (блок модификации эталона), блок выбора сравниваемых сегментов модифицированного эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно седьмой, восьмой и девятый блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного эталона соединены соответственно с первыми входами двенадцатого, тринадцатого и четырнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с пятым сумматором.The unit for determining the formant distance from the segments of the standard to the standard as a whole may include a series-connected unit for specifying the compared segments of the standard, a unit for deleting the segment selected for comparison (block for modifying the standard), a unit for selecting the compared segments of the modified standard, the output of which is connected to the input of the determinant of the measure of proximity between 3-formant vectors of the pair of compared segments, the input of the determinant block of the measure of proximity between 4-formant vectors of the pair of compared segments and the input m of the determinant of the measure of proximity between 5-formant vectors of a pair of compared segments, the outputs of which, respectively, are the seventh, eighth and ninth blocks of finding the smallest proximity measure for a given segment of the standard for all segments of the modified standard, the accumulator-accumulator of the average least proximity measures for all 3-formant segments of the modified standard, the adder-accumulator of the average least measures of proximity for all 4-formant segments of the modified standard, the adder-accumulator of the average least measures of bl Soest all the segments 5 formant modified standard are respectively connected to the first inputs of the twelfth, thirteenth and fourteenth multiplication units, the second inputs of which are connected to the memory device of weighting coefficients, and multiplying the outputs of said blocks are connected to a fifth adder.
Блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом может включать соединенные последовательно блок задания сравниваемых сегментов входного речевого сигнала, блок удаления выбранного для сравнения сегмента (блок модификации входного речевого сигнала), блок выбора сравниваемых сегментов модифицированного входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно десятый, одиннадцатый и двенадцатый блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного входного речевого сигнала соединены соответственно с первыми входами пятнадцатого, шестнадцатого и семнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с шестым сумматором.The unit for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole may include a sequentially connected unit for setting the compared segments of the input speech signal, a unit for deleting the segment selected for comparison (block for modifying the input speech signal), a unit for selecting compared segments of the modified input speech signal, the output of which is connected to the input of the block of the determinant of the proximity measure between the 3-formant vectors of a pair of compared segments, the input of the block determinant of the proximity measure between the 4-formant vectors of a pair of compared segments and the input of a block of the determinant of the proximity measure between the 4-formant vectors of a pair of compared segments, the outputs of which, through the tenth, eleventh and twelfth blocks of the search, are the smallest for a given segment of the input speech signal of the proximity measure for all segments of the modified the input speech signal, the adder-drive of the average least measures of proximity for all 3-formant segments of the modified input speech signal, an adder-accumulator of average least closeness measures for all 4-formant segments of a modified input speech signal, an adder-accumulator of average least closeness measures for all 5-formant segments of a modified input speech signal are connected respectively to the first inputs of the fifteenth, sixteenth and seventeenth multiplication blocks, the second inputs which are connected to a mass storage device, and the outputs of said multiplication units are connected to a sixth adder.
Блок определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона может включать первый, второй и третий блоки покомпонентного умножения, которые последовательно соединены соответственно с седьмым, восьмым и девятым сумматорами, выход седьмого сумматора соединен с первым входом делителя, ко второму входу которого через блок умножения и блок извлечения квадратного корня подключены выходы восьмого и девятого сумматоров.The unit for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and the reference may include first, second, and third component-wise multiplication units that are connected in series with the seventh, eighth, and ninth adders, respectively, the output of the seventh adder is connected to the first input of the divider, to the second input whose outputs of the eighth and ninth adders are connected through the multiplication unit and the square root extraction unit.
Устройство для распознавания диктора дополнительно может содержать второй коммутатор, блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона, при этом источник входного речевого сигнала соединен с входом второго коммутатора, один из выходов которого соединен с первым входом блока определения параметрического описания входного речевого сигнала, а второй выход второго коммутатора подключен ко входу блока определения эталона шума и эталона амплитудно-частотной характеристики микрофона, выход которого соединен с входом запоминающего устройства, подключенного ко второму входу блока определения параметрического описания входного речевого сигнала.The speaker recognition device may further comprise a second switch, a unit for determining a noise standard and a standard for amplitude-frequency characteristics of the microphone, while the source of the input speech signal is connected to the input of the second switch, one of the outputs of which is connected to the first input of the unit for determining the parametric description of the input speech signal, and the second output of the second switch is connected to the input of the unit for determining the noise standard and the standard amplitude-frequency characteristics of the microphone, the output of which connected to the input of the storage device connected to the second input of the unit for determining the parametric description of the input speech signal.
Блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона может включать последовательно соединенные блок выделения начала/конца речевого сигнала, сегментатор речевого сигнала на последовательность сегментов, блок умножения на взвешивающее окно, блок добавления к сигналу в сегменте нулей, вычислитель преобразования Фурье, блок вычислителя спектра мощности сигнала в сегменте, а также переключатель режима работы (получения эталона шума или получения эталона АЧХ используемого микрофона), сумматор-накопитель покомпонентного среднего значения последовательности сегментных спектров и блок формирования эталона АЧХ используемого микрофона, включающий последовательно соединенные блок умножителя-накопителя, блок выделения корня n-ой степени из результата работы предыдущего блока, делитель на эталонный средний спектр речевого сигнала и запоминающее устройство хранения эталонного среднего спектра речевого сигнала, при этом выход блока вычислителя спектра мощности сигнала в сегменте соединен с входом переключателя режима, первый выход которого подключен к первому входу сумматора-накопителя покомпонентного среднего значения последовательности сегментных спектров, а второй выход переключателя соединен с первым входом блока формирования эталона АЧХ используемого микрофона, второй выход блока выделения начала/конца речевого сигнала подключен ко второму входу упомянутого сумматора-накопителя и второму входу блока формирования эталона АЧХ используемого микрофона, третий вход которого соединен с запоминающим устройством.The unit for determining the noise standard and the standard amplitude-frequency characteristics of the microphone may include a series-connected unit for selecting the beginning / end of the speech signal, a segmenter of the speech signal for a sequence of segments, a unit for multiplying by a weighting window, a unit for adding to a signal in a segment of zeros, a Fourier transform calculator, and a calculator block the power spectrum of the signal in the segment, as well as a mode switch (to obtain a noise standard or to obtain a frequency response standard of the microphone used), an adder-accumulator l component-wise average value of a sequence of segmented spectra and a block for generating a standard AFC of the microphone used, including a series-connected block of the storage multiplier, a block for extracting the root of the nth degree from the result of the previous block, a divider by the reference average spectrum of the speech signal, and a storage device for storing the reference average spectrum a speech signal, while the output of the block of the spectrum of the signal power spectrum in the segment is connected to the input of the mode switch, the first output of which the second is connected to the first input of the accumulator-accumulator of the component-wise average value of the sequence of segment spectra, and the second output of the switch is connected to the first input of the unit for generating the frequency response standard of the microphone used, the second output of the block for selecting the beginning / end of the speech signal is connected to the second input of the said accumulator-accumulator and the second input block forming the standard frequency response of the microphone used, the third input of which is connected to the storage device.
Устройство для распознавания диктора дополнительно может содержать устройство для ввода идентификатора диктора и устройство выбора эталона, при этом устройство для ввода идентификатора диктора подключено к первому входу устройства выбора эталона, второй вход которого соединен с запоминающим устройством, а выход устройства выбора эталона подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала.The speaker recognition device may further comprise a device for inputting a speaker identifier and a sample selection device, wherein a device for inputting a speaker identifier is connected to the first input of the sample selection device, the second input of which is connected to a storage device, and the output of the sample selection device is connected to the second input of the unit comparing the parametric descriptions of the standard and the input speech signal.
Заявляемый способ распознавания диктора и устройство для его осуществления поясняются чертежами, гдеThe inventive method of speaker recognition and a device for its implementation are illustrated by drawings, where
на фиг.1 схематически изображены основные блоки устройства для распознавания диктора;figure 1 schematically shows the main blocks of the device for speaker recognition;
на фиг.2 приведена схема блока определения параметрического описания речевого сигнала;figure 2 shows a block diagram for determining a parametric description of a speech signal;
на фиг.3 дана схема блока сравнения параметрических описаний эталона и входного речевого сигнала;figure 3 is a diagram of a unit for comparing parametric descriptions of the standard and the input speech signal;
на фиг.4 приведена схема блока определения формантного расстояния от входного речевого сигнала до эталона;figure 4 shows a block diagram for determining the formant distance from the input speech signal to the standard;
на фиг.5 показана схема блока определения формантного расстояния от эталона до входного речевого сигнала;figure 5 shows a block diagram for determining the formant distance from the standard to the input speech signal;
на фиг.6 дана схема блока определения формантного расстояния от сегментов эталона до эталона в целом;Fig.6 is a diagram of a unit for determining the formant distance from the segments of the standard to the standard as a whole;
на фиг.7 показана схема блока определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом;7 shows a block diagram for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole;
на фиг.8 приведена схема блока определения эталона шума и эталона АЧХ используемого микрофона;on Fig shows a block diagram for determining the noise standard and the frequency response standard of the microphone used;
на фиг.9 дана схема блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона (Xi - статистические характеристики спектра мощности входного речевого сигнала; Ti - статистические характеристики спектра мощности эталона; КК - значение функции кросс-корреляции);figure 9 is a diagram of a block for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and the reference (X i are the statistical characteristics of the power spectrum of the input speech signal; T i are the statistical characteristics of the power spectrum of the reference; KK is the value of the cross-correlation function) ;
на фиг.10 показана первая часть последовательности операций определения формантного вектора текущего анализируемого сегмента (ВНФ - вектор нормализующей функции спектра мощности, u обозначает операцию сглаживания);figure 10 shows the first part of the process of determining the formant vector of the current analyzed segment (VNF is the vector of the normalizing function of the power spectrum, u denotes the smoothing operation);
на фиг.11 приведена вторая часть последовательности операций определения формантного вектора текущего анализируемого сегмента; где ВЧФ - вектор частотных формант; ГФД - границы формантных диапазонов; L и Н - соответственно нижняя и верхняя граница текущего диапазона поиска формант; Lk и Hk - соответственно нижняя и верхняя граница каждого формантного диапазона для каждой компоненты ВЧФ; Ti - величина порога отбрасывания слабых максимумов, Т2 - величина заданного порога близости формант; Q - максимально допустимое число формантных компонент.figure 11 shows the second part of the sequence of operations for determining the formant vector of the current analyzed segment; where HFF is a vector of frequency formants; GFD - the boundaries of the formant ranges; L and H are the lower and upper bounds of the current formant search range, respectively; L k and H k are the lower and upper bounds of each formant range for each RF component, respectively; T i is the threshold value of discarding weak maxima, T 2 is the value of the specified threshold of proximity of formants; Q is the maximum allowable number of formant components.
Устройство, с помощью которого реализуют заявляемый способ распознавания диктора, включает (см. фиг.1) источник речевого сигнала в цифровой форме, например микрофон 1 (М) и аналого-цифровой преобразователь (АЦП) 2, первый коммутатор 3, блок 4 определения параметрического описания речевого сигнала (БОПОРС), второй коммутатор 5, блок 6 сравнения параметрических описаний эталона и входного речевого сигнала (БСПО), блок 7 принятия решения о распознаваемом дикторе (БПР), первый блок 8 запоминающего устройства для хранения эталонов параметрического описания речевого сигнала заранее известных дикторов, векторов нормализующей функции спектра мощности, границ формантных диапазонов и порогов (ЗУЭД). В устройство могут быть дополнительно введены: блок 9 определения эталона шума и эталона амплитудно-частотной характеристики (АЧХ) используемого микрофона (БОЭШМ) и второй блок 10 запоминающего устройства для хранения эталона шума, эталона АЧХ микрофона, порога шума, эталонного спектра речевого сигнала (ЗУЭШМ). В случае использования устройства для верификации диктора в устройство дополнительно вводят устройство 11 для ввода идентификатора диктора (УВИД) и устройство 12 выбора эталона (УВЭ). Микрофон 1 через АЦП 2 соединен с входом первого коммутатора 3, первый выход которого подключен к первому входу БОПОРС 4, а второй выход - к БОЭШМ 9. Выход БОПОРС 4 соединен с входом второго коммутатора 5, первый выход которого подключен к первому входу БСПО 6, а второй выход соединен с входом ЗУЭД 8. Выход БОЭШМ 9 подключен к входу ЗУЭШМ 10, выход которого соединен со вторым входом БОПОРС 4. В случае верификации диктора УВИД 11 подключают к первому входу УВЭ 12, второй вход которого соединяют с выходом ЗУЭД 8, а выход УВЭ 12 подключают ко второму входу БСПО 6, выход которого соединен с входом БПР 7, выход которого является выходом устройства в целом. Если верификацию диктора не проводят, то выход ЗУЭД 8 непосредственно соединяют со вторым входом БСПО 6.The device with which the inventive method of speaker recognition is implemented includes (see FIG. 1) a digital voice source, for example, microphone 1 (M) and analog-to-digital converter (ADC) 2, first switch 3, parametric determination unit 4 speech signal descriptions (BOPORS), second switch 5,
Блок 4 определения параметрического описания речевого сигнала (БОПОРС) включает (см. фиг.2) последовательно соединенные блок выделения 13 начала/конца речевого сигнала (ВНКРС), сегментатор 14 речевого сигнала на последовательность сегментов (СРС), блок 15 умножения на взвешивающее окно (БУВО), блок 16 добавления к сигналу в сегменте нулей (БДН), вычислитель 17 преобразования Фурье (ВПФ) и блок 18 вычислителя спектра мощности сигнала в сегменте (ВСМ). В случае использования эталона шума (ЭШ) и эталона АЧХ микрофона (ЭАЧХ) блок 4 дополнительно включает вычитатель-компаратор 19 (К), определяющий превышение порога шума (ПШ) по отношению к эталону шума (ЭШ), и блок 20 умножения (УСЭМ) спектра мощности текущего сегмента анализа на эталон АЧХ используемого микрофона (ЭАЧХ). Выход ВСМ 18 соединен в этом случае с первым входом УСЭМ 20, выход которого подключен к первому входу К 19. Выходы К 19 подключены соответственно к входу сумматора-накопителя 21 статистических характеристик входного речевого сигнала (C1) и к первому входу блока 22 определения формантного вектора текущего сегмента (ОФВ), выходы которых соединены соответственно с первым и вторым входами формирователя 23 параметрических описаний входного речевого сигнала (ФПОРС), к третьему входу которого подключен второй выход ВНКРС 13. Второй, третий и четвертый входы ОФВ 22 соединены с выходами ЗУЭД 8, а второй вход УСЭМ 20 и второй и третий входы К 19 подключены к выходам ЗУЭШМ 10. На УСЭМ 20 подают сигнал эталона АЧХ микрофона из ЗУЭШМ 10 (см. фиг.2), а на К 19 подают сигналы эталона шума и порога шума. Если эталоны шума и АЧХ микрофона не используют, то выход ВСМ 18 непосредственно соединяют с первым входом ОФВ 22 и входом C1 21 (на фиг.2 эти связи показаны пунктирными линиями). Вход ВНКРС 13 является входом БОПОРС 4, а выход ФПОРС 23 - выходом БОПОРС 4.The unit 4 for determining the parametric description of the speech signal (BOPORS) includes (see FIG. 2) a series-connected unit for allocating 13 beginning / end of the speech signal (SSCC), a
Блок 6 сравнения параметрических описаний входного речевого сигнала и эталона (БСПО) (см. фиг.3) включает, по меньшей мере, блок 24 определения формантного расстояния от входного речевого сигнала до сравниваемого эталона (БОФР1), блок 25 определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона (БОФКК), выходы которых соединены соответственно через первый блок 26 умножения (BУ1) и второй блок 27 умножения (БУ2) с сумматором 28 (С2). Дополнительно БСПО 6 может включать блок 29 определения формантного расстояния от сравниваемого эталона до входного речевого сигнала (БОФР2), соединенный через блок 30 умножения (БУ6) с сумматором 28. БСПО может также включать блок 31 определения формантного расстояния от сегментов эталона до эталона в целом (БОФР3) и блок 32 определения формантного расстояния от сегментов входного речевого сигнала до этого речевого сигнала в целом (БОФP4), которые соединены через соответственно блок 33 умножения (БУ10) и блок 34 умножения (БУ11) с С2 28. На входы БОФP1 24, БОФКК 25, БОФР2 29, БОФР3 31 и БОФP4 32 подают параметрическое описание входного речевого сигнала (ПОС) из БОПОРС 4 и параметрическое описание эталона (ПОЭ) из ЗУЭД 8. На вторые входы БУ1 26, БУ2 27, БУ6 30, БУ10 33 и БУ11 34 подают значения весовых коэффициентов соответственно W1, W2, W3, W4 и W5 из блока 35 запоминающего устройства весовых коэффициентов (ЗУВК). Выход С2 28 соединен с входом БПР 7.
Блок 24 (см. фиг.4) определения формантного расстояния от входного речевого сигнала до эталона (БОФР1) включает блок 36 задания сравниваемых сегментов входного речевого сигнала (БЗСС), блок 37 выбора сравниваемых сегментов эталона (БВСЭ), блок 38 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 39 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 40 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 41, 42 и 43 поиска наименьшей для данного, заданного БЗСС 36 сегмента входного речевого сигнала меры близости по всем сегментам эталона, соответственно БПMБ1, БПМБ2 и БПМБ3, сумматор 44 - накопитель средних наименьших мер близости по всем 3-формантным сегментам эталона (СН3ФЭ), сумматор 45 - накопитель средних наименьших мер близости по всем 4-формантным сегментам эталона (СН4ФЭ), сумматор 46 - накопитель средних наименьших мер близости по всем 5-формантным сегментам эталона (СН5ФЭ), три блока 47, 48, 49 умножения, соответственно БУ3, БУ4, БУ5, и сумматор 50 (С3). Вход БЗСС 36 соединен с выходом БОПОРС 4, а выход подключен к первому входу БВСЭ 37, на второй вход которого подают ПОЭ из ЗУЭД 8 (см. фиг.1). Выход БВСЭ 37 подключен в входам ОМБ3Ф 38, ОМБ4Ф 39 и ОМБ5Ф 40. Выход ОМБ3Ф 38 через БПМБ1 41, СН3ФЭ 44 и БУ6 47 подключен ко входу С3 50, к которому также подключены ОМБ4Ф 39 через БПМБ2 42, СН4ФЭ 45 и БУ7 48 и ОМБ5Ф 40 через БПМБ3 43, СН5ФЭ 46 и БУ8 49. На вторые входы БУ3 47, БУ4 48 и БУ5 49 подают значения весовых коэффициентов соответственно W6, W7 и W8 из ЗУВК 35. Выход С3 50 соединен с входом БУ1 26 (см. фиг.3).Block 24 (see Fig. 4) for determining the formant distance from the input speech signal to the reference (BOFR 1 ) includes a block 36 for specifying the compared segments of the input speech signal (BSSS), block 37 for selecting the compared segments of the reference (BCE), block 38 of the proximity measure determinant between 3-formant vectors of a pair of compared segments (OMB3F), block 39 of the proximity measure determinant between 4-formant vectors of a pair of compared segments (OMB3F), block 40 of a determinant of the proximity measure between 5-form vectors of a pair of compared segments (OMB5F), three blocks 4 1, 42 and 43 of the search for the smallest for a given BSSS 36 segment of the input speech signal of the proximity measure for all segments of the standard, respectively BPMB 1 , BPMB 2 and BPMB 3 , adder 44 is the drive of the average least measures of proximity for all 3-formant segments of the standard ( CH3FE), adder 45 - accumulator of the smallest mean closeness measures for all 4-formant segments of the standard (CH4FE), adder 46 - accumulator of the mean least closeness measures for all 5-formant segments of the standard (CH5FE), three blocks 47, 48, 49 of multiplication, BU respectively 3, 4 BU, BU 5, and an adder 50 ( 3). The input of the BZSS 36 is connected to the output of the BOPORS 4, and the output is connected to the first input of the BVSE 37, the second input of which serves POE from ZUED 8 (see figure 1). The output of
Блок 29 (см. фиг.5) определения формантного расстояния от эталона до входного речевого сигнала (БОФР2) включает блок 51 задания сравниваемых сегментов эталона (БЗСЭ), блок 52 выбора сравниваемых сегментов входного речевого сигнала (БВСС), блок 53 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 54 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 55 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 56, 57 и 58 поиска наименьшей для данного, заданного БЗСЭ 51 сегмента эталона меры близости по всем сегментам входного речевого сигнала, соответственно БПМБ4, БПМБ5 и БПМБ6, сумматор 59 - накопитель средних наименьших мер близости по всем 3-формантным сегментам входного речевого сигнала (СН3ФС), сумматор 60 - накопитель средних наименьших мер близости по всем 4-формантным сегментам входного речевого сигнала (СН4ФС), сумматор 61 - накопитель средних наименьших мер близости по всем 5-формантным сегментам входного речевого сигнала (СН5ФС), три блока 62, 63, 64 умножения, соответственно БУ7, БУ8, БУ9, и сумматор 65 (С4). Вход БЗСЭ 51 соединен с выходом ЗУЭД 8, а выход подключен к первому входу БВСС 52, на второй вход которого подают ПОС из БОПОРС 4 (см. фиг.1). Выход БВСС 52 подключен в входам ОМБ3Ф 53, ОМБ4Ф 54 и ОМБ5Ф 55. Выход ОМБ3Ф 53 через БПМБ4 56, СН3ФС 59 и БУ9 62 подключен к входу С4 65, к которому также подключены ОМБ4Ф 54 через БПМБ5 57, СН4ФС 60 и БУ10 63 и ОМБ5Ф 55 через БПМБ6 58, СН5ФС 61 и БУ11 64. На вторые входы БУ7 62, БУ8 63 и БУ9 64 подают значения весовых коэффициентов соответственно W6, W7 и W8 из ЗУВК 35 (см. фиг.3).Block 29 (see Fig. 5) for determining the formant distance from the reference to the input speech signal (BOFR 2 ) includes a block 51 for setting the compared segments of the reference (BSSE), block 52 for selecting the compared segments of the input speech signal (BVSS), block 53 of the determinant of proximity measures between 3-formant vectors of a pair of compared segments (OMB3F), block 54 of proximity measure determinant between 4-formant vectors of a pair of compared segments (OMB3F), block 55 of determinant of proximity measure between 5-form vectors of a pair of compared segments (OMB5F), three blocks 5 6, 57 and 58 of the search for the smallest for a given BZSE 51 segment of the standard of proximity measure for all segments of the input speech signal, respectively BPMB 4 , BPMB 5 and BPMB 6 , adder 59 is the drive of the average least measures of proximity for all 3-formant segments of the input speech the signal (SN3FS), adder 60 - the accumulator of the least average proximity measures for all 4-formant segments of the input speech signal (CH4FS), adder 61 - the accumulator of the least average proximity measures for all 5-formant segments of the input speech signal (SN5FS), three blocks 62 , 63, 6 4 multiplications, respectively BU 7 , BU 8 , BU 9 , and adder 65 (C 4 ). The
Блок 31 (см. фиг.6) определения формантного расстояния от сегментов эталона до эталона в целом (БОФР3) включает блок 66 задания сравниваемых сегментов эталона (БЗСЭ), блок 67 удаления уже выбранного для сравнения сегмента (БУВС) из набора всех сегментов эталона, блок 68 выбора сравниваемых сегментов модифицированного эталона (БВСМЭ), блок 69 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 70 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 71 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 72, 73 и 74 поиска наименьшей для данного, заданного БЗСЭ 66 сегмента эталона меры близости по всем сегментам модифицированного эталона, соответственно БПМБ7, БПМБ8 и БПМБ9, сумматор 75 - накопитель средних наименьших мер близости по всем 3-формантным используемым сегментам модифицированного эталона (СН3ФЭ), сумматор 76 - накопитель средних наименьших мер близости по всем 4-формантным используемым сегментам модифицированного эталона (СН4ФЭ), сумматор 77 - накопитель средних наименьших мер близости по всем 5-формантным используемым сегментам модифицированного эталона (СН5ФЭ), три блока 78, 79, 80 умножения, соответственно БУ12, БУ13, БУ14, и сумматор 81 (C5). Вход БЗСЭ 66 соединен с выходом ЗУЭД 8, а выход через БУВС 67 подключен к первому входу БВСМЭ 68, на второй вход которого подают ПОС из ЗУЭД 8 (см. фиг.1). Выход БВСМЭ 68 подключен в входам ОМБ3Ф 69, ОМБ4Ф 70 и ОМБ5Ф 71. Выход ОМБ3Ф 69 через БПМБ7 72, СН3ФЭ 75 и БУ12 78 подключен к входу С5 81, к которому также подключены ОМБ4Ф 70 через БПМБ8 73, СН4ФЭ 76 и БУ13 79 и ОМБ5Ф 71 через БПМБ9 74, СН5ФЭ 77 и БУ14 80. На вторые входы БУ12 78, БУ13 79 и БУ14 80 подают значения весовых коэффициентов соответственно W6, W7 и W8 из ЗУВК 35 (см. фиг.3).Block 31 (see Fig. 6) for determining the formant distance from the segments of the standard to the standard as a whole (BOFR 3 ) includes a block 66 for specifying the compared segments of the standard (BSSE), block 67 for deleting a segment already selected for comparison from the set of all segments of the standard , block 68 of the choice of compared segments of the modified standard (BVSME), block 69 of the determinant of the measure of proximity between 3-formant vectors of a pair of compared segments (OMB3F), block 70 of the determinant of the measure of proximity between 4-formant vectors of a pair of compared segments (OMB4F), block 71 determine As a measure of the proximity between the 5-formant vectors of the pair of compared segments (OMB5F), the three blocks 72, 73 and 74 search for the smallest for a given segment of the reference measure of proximity measure for all segments of the modified standard specified by BSE 66, respectively BPMB 7 , BPMB 8 and BPMB 9 , adder 75 is the accumulator of the average least measures of proximity for all 3-formant used segments of the modified standard (CH3FE), adder 76 is the accumulator of the average least measures of proximity for all 4-formant used segments of the modified standard (CH4FE), adder 77 - a drive of average least measures of proximity for all 5-formant used segments of the modified standard (SN5FE), three multiplication blocks 78, 79, 80, respectively BU 12 , BU 13 , BU 14 , and adder 81 (C 5 ). The
Блок 32 (см. фиг.7) определения расстояния от сегментов входного речевого сигнала до этого речевого сигнала в целом (БОФР4) включает блок 82 задания сравниваемых сегментов входного речевого сигнала (БЗСС), блок 83 удаления выбранного для сравнения сегмента (БУВС), блок 84 выбора сравниваемых сегментов модифицированного входного речевого сигнала (БВСМС), блок 85 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 86 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 87 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 88, 89 и 90 поиска наименьшей для данного, задаваемого БЗСС 82 сегмента входного речевого сигнала меры близости по всем сегментам модифицированного входного речевого сигнала, соответственно БПМБ10, БПМБ11 и БПМБ12, сумматор 91 - накопитель средних наименьших мер близости по всем 3-формантным используемым сегментам модифицированного входного речевого сигнала (СН3ФС), сумматор 92 - накопитель средних наименьших мер близости по всем 4-формантным используемым сегментам модифицированного входного речевого сигнала (СН4ФС), сумматор 93 - накопитель средних наименьших мер близости по всем 5-формантным используемым сегментам модифицированного входного речевого сигнала (СН5ФС), три блока 94, 95, 96 умножения, соответственно БУ15, БУ16, БУ17, и сумматор 97 (С6). Вход БЗСС 82 соединен с выходом БОПОРС 4, а выход через БУВС 83 подключен к первому входу БВСМС 84, на второй вход которого подают ПОС из БОПОРС 4 (см. фиг.1). Выход БВСМС 84 подключен в входам ОМБ3Ф 85, ОМБ4Ф 86 и ОМБ5Ф 87. Выход ОМБ3Ф 85 через БПМБ10 88, СН3ФС 91 и БУ15 94 подключен к входу С6 97, к которому также подключены ОМБ4Ф 76 через БПМБ11 89, СН4ФС 92 и БУ16 95 и ОМБ5Ф 87 через БПМБ12 90, СН5ФС 93 и БУ17 96. На вторые входы БУ15 94, БУ16 95 и БУ17 96 подают значения весовых коэффициентов соответственно W6, W7 и W8 из ЗУВК 35 (см. фиг.3).Block 32 (see Fig. 7) for determining the distance from the segments of the input speech signal to this speech signal as a whole (BOFR 4 ) includes a block 82 for setting the compared segments of the input speech signal (BSSS), block 83 for deleting the selected segment for comparison (BUVS), block 84 of the selection of the compared segments of the modified input speech signal (BVMSS), block 85 of the determinant of the proximity measure between the 3-formant vectors of a pair of compared segments (OMB3F), block 86 of the determinant of the measure of proximity between the 4-formant vectors of a pair of compared segments ( MB4F), block 87 of the determinant of the proximity measure between the 5-formant vectors of a pair of compared segments (OMB5F), three blocks 88, 89 and 90 of finding the smallest for a given segment of the input speech signal of the proximity measure for all segments of the modified input speech signal specified by the BSSS 82, respectively BPMB 10 , BPMB 11 and BPMB 12 , adder 91 - accumulator of the least average proximity measures for all 3 formant used segments of the modified input speech signal (SN3FS), adder 92 - accumulator of the least average proximity measures for all 4- the formant used segments of the modified input speech signal (CH4FS), adder 93 is the accumulator of the average least measures of proximity for all 5-formant used segments of the modified input speech signal (CH5FS), three multiplication blocks 94, 95, 96, respectively BU 15 , BU 16 , BU 17 , and the adder 97 (C 6 ). The input of the
Блок 9 определения эталона шума и эталона амплитудно-частотной характеристики (АЧХ) используемого микрофона (БОЭШМ) включает (см. фиг.8) последовательно соединенные блок выделения 98 начала/конца речевого сигнала (ВНКРС), сегментатор 99 речевого сигнала на последовательность сегментов (СРС), блок 100 умножения на взвешивающее окно (БУВО), блок 101 добавления к сигналу в сегменте нулей (БДН), вычислитель 102 преобразования Фурье, блок 103 вычислителя спектра мощности сигнала в сегменте (ВСМ), а также переключатель режима 104 (получение эталона шума / получение эталона АЧХ микрофона), сумматор 105 - накопитель покомпонентного среднего значения последовательности сегментных спектров (СН) и блок 106 формирования эталона АЧХ используемого микрофона (ФЭМ), включающий последовательно соединенные блок 107 умножителя-накопителя (БУН), блок 108 выделения корня n-ой степени из результата работы БУН и делитель 109 (Д) на эталонный средний спектр речевого сигнала (ЭССС), хранящийся в блоке 110 запоминающего устройства. Выход ВСМ 103 соединен с входом переключателя режима 104, первый выход которого подключен к первому входу СН 105, а второй выход - к первому входу ФЭМ 106. Второй выход ВНКРС 98 соединен со вторым входом СН 105 и вторым входом ФЭМ 106, третий вход которого подключен к блоку 110 запоминающего устройства. С выхода СН 105 поступает эталон шума (ЭШ), а с выхода ФЭМ 106 - эталон амплитудно-частотной характеристики микрофона (ЭАЧХ).The unit 9 for determining the noise standard and the standard amplitude-frequency characteristic (AFC) of the microphone used (BOES) includes (see Fig. 8) a series-connected block for separating 98 the beginning / end of the speech signal (VNKRS), the
Блок 25 определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона (БОФКК) (см. фиг.9) включает первый блок 111 покомпонентного умножения (БПУ1), второй блок 112 покомпонентного умножения (БПУ2), третий блок 113 покомпонентного умножения (БПУ3), которые последовательно соединены соответственно с сумматорами С7 114, C8 115 и С9 116, последовательно подключенные блок 117 умножения (БУ18), блок 118 извлечения квадратного корня (БИКК) и делитель 119 (Д1). Выход С7 114 соединен с первым входом Д1 119, а выходы C8 115 и С9 116 подключены ко входам БУ18 117, выход которого через БИКК 118 соединен с вторым входом Д1 119.
Распознавание диктора по заявляемому способу иллюстрируется на примере работы устройства, реализующего заявляемый способ. Ссылки на блоки устройства даны по фиг.1-11.Recognition of the speaker by the claimed method is illustrated by the example of a device that implements the inventive method. References to the blocks of the device are given in figure 1-11.
Устройство распознавания дикторов может работать в различных режимах: режиме обучения и режиме распознавания. Кроме того, заявляемое устройство может быть использовано для настройки технических параметров.The speaker recognition device can work in various modes: learning mode and recognition mode. In addition, the inventive device can be used to configure technical parameters.
В режиме обучения речевой сигнал голосовых паролей, произносимых заранее известными дикторами, подают на вход устройства, например, с микрофона 1 (или выхода магнитофона) через АЦП 2 и коммутатор 3 на вход БОПОРС 4. Коммутатор 3 переключает устройство в режим работы или обучения (верхняя позиция на фиг.1), или в режим настройки технических параметров (нижняя позиция на фиг.1). В качестве голосовых паролей используют отдельные слова или фразы. Из речевого сигнала произнесенных паролей в БОПОРС 4 формируют параметрические описания, запоминаемые в ЗУЭД 8 в качестве эталонов. При этом коммутатор 5 замыкает вход на второй выход (нижний на фиг.1). На каждое произнесение каждого голосового пароля каждого известного диктора запоминают свой эталон. Число заранее известных дикторов может быть любым: от одного и более. Число использованных голосовых паролей также может быть любым, большим единицы. Для каждого голосового пароля может выполняться несколько его различных произнесений одним и тем же диктором, для каждого из которых формируют отдельный эталон. Эталоны речевого сигнала произнесения голосового пароля запоминают и могут хранить совместно с идентифицирующей данного диктора информацией (например, его именем или PIN-кодом).In the training mode, the voice signal of voice passwords pronounced by previously known speakers is fed to the input of the device, for example, from microphone 1 (or the output of the tape recorder) through the ADC 2 and switch 3 to the input of the BOPORS 4. Switch 3 switches the device to the operating or learning mode (upper position in figure 1), or in the mode of setting technical parameters (lower position in figure 1). As voice passwords, separate words or phrases are used. Parametric descriptions are formed from the speech signal of the spoken passwords in BOPORS 4, which are stored in
Сохраненные эталоны используют для сравнения с тестом - входным речевым сигналом неизвестного, подлежащего распознаванию диктора. Выбор эталонов для сравнения производят блоком УВЭ 12 или только для заявляемого диктора (режим верификации), или для всех заранее известных дикторов (режим идентификации). В режиме верификации неизвестный диктор через блок УВИД 11 вводит идентификатор того диктора, тождество с которым он хочет подтвердить своим голосовым паролем. Далее блок УВЭ 12 в этом случае выбирает для сравнения только эталон того диктора, тождество с которым заявил неизвестный диктор.The saved standards are used for comparison with the test - the input speech signal of an unknown speaker to be recognized. The selection of standards for comparison is carried out by the UVE block 12 or only for the claimed speaker (verification mode), or for all previously known speakers (identification mode). In verification mode, an unknown speaker through the UVID block 11 enters the identifier of that speaker, the identity with which he wants to confirm with his voice password. Further, the UVE block 12 in this case selects for comparison only the standard of that speaker, the identity of which was announced by an unknown speaker.
С целью повышения надежности распознавания для каждого голосового пароля предлагается иметь несколько эталонов, получаемых при разных произнесениях данного голосового пароля.In order to increase the reliability of recognition for each voice password, it is proposed to have several standards obtained with different pronunciations of this voice password.
Дело в том, что ошибки в распознавании дикторов для произвольного метода распознавания отчасти вызваны тем, что речь любого диктора изменяется от произнесения к произнесению даже для одного и того же голосового пароля. Такая естественная вариативность речи велика при длительном перерыве между произнесениями (несколько дней и более), однако мала при быстром повторении одного и того же голосового пароля во время одной сессии обучения. С целью увеличения вариативности речевого сигнала в разных эталонах одного и того же голосового пароля при их запоминании в рамках одной сессии обучения перед повторным произнесением одного и того же голосового пароля известный диктор произносит речевое высказывание с измененным характером артикуляции. Например, очень высоким или очень низким голосом с имитацией состояния страха или угрозы и т.д. Вид изменения характера артикуляции не существенен. Необходимо только лишь функционирование органов артикуляции речи в ненормативном режиме с ненормативным мышечным усилием и ненормативной конфигурацией вокального тракта. После такого высказывания, как показывает практика, вариативность произнесения пароля уже нормальным голосом возрастает, что приводит к большей вариативности речевого сигнала эталонов и к уменьшению ошибки распознавания диктора при использовании нескольких, вышеуказанным образом полученных эталонов. Например, при применении трех эталонов одного голосового пароля с их произнесением по вышеприведенному методу ошибка пропуска своего диктора уменьшается на 10% по сравнению с использованием обычного повторного произнесения голосовых паролей при получении эталонов.The fact is that errors in speaker recognition for an arbitrary recognition method are partly due to the fact that the speech of any speaker varies from pronunciation to pronunciation even for the same voice password. This natural variation in speech is great with a long break between pronunciations (several days or more), but it is small with a quick repetition of the same voice password during one training session. In order to increase the variability of the speech signal in different standards of the same voice password when they are memorized within the same training session, before the pronouncing of the same voice password again, a well-known speaker makes a speech statement with a changed nature of articulation. For example, in a very high or very low voice imitating a state of fear or threat, etc. The type of change in the nature of articulation is not significant. It is only necessary the functioning of the organs of articulation of speech in an abnormal mode with abnormal muscle effort and abnormal configuration of the vocal tract. After such an utterance, as practice shows, the variability of pronouncing the password in a normal voice increases, which leads to greater variability of the speech signal of the standards and to a decrease in speaker recognition error when using several of the above-obtained standards. For example, when applying three patterns of one voice password with their pronunciation according to the above method, the error of skipping your speaker decreases by 10% compared to using the usual repeated pronunciation of voice passwords when receiving patterns.
В режиме распознавания согласно предлагаемому изобретению входной речевой сигнал через блоки 1, 2, 3 в цифровой форме поступает в БОПОРС 4, формирующий его параметрическое описание. Для речевого сигнала в блок ВНКРС 13 (фиг.2) определяют начало и конец высказывания и временные отметки передают в блок ФПОРС 23. Сам способ определения начала и конца высказывания особой роли не играет и может быть таким, как, например, описано в L.F. Lamel, L.R. Rabiner, A.E. Rosenberg and J.С. Wilpon "An Improved Endpoint Detector for Isolated Word Recognition". - IEEE transactions on Acoustics, Speech and Signal Processing. - Vol. ASSP-29, № 4, pp. 777-785, Aug. 1981 или в J.С. Wilpon, L.F. Lamel, L.R. Rabiner and T. Martin "An Improved Word-Detection Algorithm for Telephone-Quality Speech Incorporating Both Semantic Constraints". - AT&T Bell Laboratories Technical Journal, Vol. 63, № 3, pp.479-497, Mar. 1984. Далее речевой сигнал в сегментаторе речевого сигнала 14 разбивают на последовательность сегментов- отрезков сигнала, следующих друг за другом через фиксированный интервал времени. Длина сегмента особой роли не играет в пределах 20-50 мс со сдвигом от сегмента к сегменту на 2-20 мс. Стандартная длина 256 отсчетов. Далее сигнал на каждом сегменте в БУФО 15 умножают на взвешивающее окно, например окно Хэмминга, с длиной, равной длине сегмента. Далее в БДН 16 с целью увеличения точности вычислений спектра к сигналу добавляют нулевую последовательность, увеличивающую общую длительность сигнала, например, в 2 или 4 раза. Далее в блоке ВПФ 17 производят вычисление преобразования Фурье полученной последовательности значений для всех ее отсчетов. Например, это может быть быстрое преобразование Фурье на 512-1024 отсчетов. Затем в блоке ВСМ 18 вычисляют спектр мощности полученного амплитудного спектра.In the recognition mode according to the invention, the input speech signal through
Затем в полной версии устройства сигнал поступает на блок УСЭМ 20, где покомпонентно делится на эталон АЧХ используемого микрофона, который был получен в режиме настройки технических характеристик и был запомнен в ЗУЭШМ 10 запоминающего устройства. Такое деление позволяет сделать параметрическое описание обрабатываемого речевого сигнала относительно независимым от АЧХ используемого микрофона и тем самым повысить надежность распознавания.Then, in the full version of the device, the signal enters the USEM 20 unit, where it is divided into component-wise standard frequency response of the microphone used, which was obtained in the settings mode of technical characteristics and was stored in the
Далее сигнал поступает на компаратор 19. В нем последовательность поступающих сегментов разбивают на две части: на используемые и не используемые для определения параметрического описания сегменты. На компаратор из ЗУЭШМ 10 поступают эталон шума и значение порога шума. Для каждого сегмента в компараторе вычисляют покомпонентную разность спектра мощности сигнала на данном сегменте и эталона шума ЭШ. Далее определяется средняя энергия полученной разности, которую сравнивают с ПШ. Те сегменты, для которых ПШ превышен, считаются “используемыми” и поступают для дальнейшего построения параметрического описания речевого сигнала. Остальные сегменты исключают из дальнейшего использования.Then the signal goes to the
Затем для всех используемых сегментов входного речевого сигнала или эталона строят параметрическое описание соответственно теста или эталона, состоящее из двух частей. Первую часть получают в блоке ОФВ 22, она состоит из набора векторов формантных частот, определяемых на используемых сегментах теста или эталона.Then, for all used segments of the input speech signal or standard, a parametric description of a test or standard, consisting of two parts, is constructed. The first part is obtained in the
Формантная частота речевого сигнала на сегменте анализа является устоявшимся понятием в области обработки речевого сигнала (см., например, Г. Фант. - Акустическая теория речеобразования. - М.: Наука, 1964, стр. 32) и соответствует резонансному пику, наблюдающемуся в спектре мощности речевого звука. Число определенных для данного сегмента частот формант может различаться от 1 до 6-7 в полосе частот речевого сигнала. Таким образом, параметрический вектор, описывающий речевой сигнал на сегменте анализа, согласно заявляемому изобретению, может отличаться по числу его компонент. Для получения параметрических описаний, использованных до сих пор в распознавании дикторов, такие описания не применялись (см., например, D. O'Shaughnessy. - Speech Communications. Human and Machine. - New York: IEEE Press, 2000.) Число компонент характеризующего речь вектора признаков параметрического описания для сегмента речевого сигнала обычно используют одно и то же для всех сегментов. В заявляемом способе это число может различаться - число компонент вектора формантных частот (ВФЧ) может быть различным, обычно от 3 до 5 (или 6). Для стабильности оценок параметров речи предлагается считать используемыми сегментами те сегменты входного речевого сигнала или эталона, на которых число определенных формантных частот 3 и более. Сам прием выделения формант для данного способа распознавания дикторов не существенен. Один из приемов выделения формантных частот, применявшийся при реализации и оценке заявляемого способа, описан ниже. Таким образом, первую часть параметрического описания входного речевого сигнала или эталона составляет набор векторов частот формант на используемых сегментах соответственно входного речевого сигнала или эталона. Каждый вектор состоит из Q=3 и более (до 6-8) частот формант.The formant frequency of the speech signal in the analysis segment is a well-established concept in the field of speech signal processing (see, for example, G. Fant. - Acoustic theory of speech formation. - M .: Nauka, 1964, p. 32) and corresponds to the resonance peak observed in the spectrum power of speech sound. The number of formants defined for a given segment of frequencies can vary from 1 to 6-7 in the frequency band of a speech signal. Thus, the parametric vector describing the speech signal on the analysis segment, according to the claimed invention, may differ in the number of its components. To obtain the parametric descriptions used so far in speaker recognition, such descriptions were not used (see, for example, D. O'Shaughnessy. - Speech Communications. Human and Machine. - New York: IEEE Press, 2000.) The number of components characterizing the speech of the feature vector of the parametric description for the segment of the speech signal usually use the same thing for all segments. In the inventive method, this number may vary - the number of components of the vector of the formant frequencies (HPF) may be different, usually from 3 to 5 (or 6). For stability of estimates of speech parameters, it is proposed to consider as used segments those segments of the input speech signal or reference on which the number of certain formant frequencies is 3 or more. The technique of isolating formants for this method of speaker recognition is not significant. One of the methods for isolating the formant frequencies that was used in the implementation and evaluation of the proposed method is described below. Thus, the first part of the parametric description of the input speech signal or pattern is a set of formant frequency vectors on the segments used, respectively, of the input speech signal or pattern. Each vector consists of Q = 3 and more (up to 6-8) formant frequencies.
Вторую часть параметрического описания входного речевого сигнала или эталона образуют статистические характеристики спектра мощности речевого сигнала, полученные на совокупности используемых сегментов соответственно теста или эталона в C1 21. С точки зрения статистики совокупность векторов спектра мощности на всех используемых сегментах речевого сигнала можно рассматривать как многомерную случайную величину, и для описания ее статистических свойств можно использовать общепринятые статистические характеристики, вычисляемые по стандартным общеизвестным процедурам: функцию распределения, математическое ожидание, дисперсию, статистические моменты, характеристические функции (см., например, В.Н. Лавренчик. - Постановка физического эксперимента и статистическая обработка его результатов. - М.: Энергоатомиздат, 1986, глава 2 “Числовые характеристики случайных величин”, стр. 54-76).The second part of the parametric description of the input speech signal or standard is formed by the statistical characteristics of the power spectrum of the speech signal obtained on the set of used segments of the test or standard, respectively, in
Из всей совокупности возможных к применению статистических характеристик спектра мощности входного речевого сигнала или эталона в качестве такой характеристики предлагается использовать, в частности, первый статистический момент спектра мощности (см., например, В.Н. Лавренчик. - Постановка физического эксперимента и статистическая обработка его результатов. - М.: Энергоатомиздат, 1986, глава 2 “Числовые характеристики случайных величин”, стр. 67). Пусть Xi - компоненты спектра мощности речевого сигнала, i=1,..., N. Тогда его первый спектральный момент SM1 находится по формулеOf the totality of the statistical characteristics of the power spectrum of the input speech signal or reference that can be applied, it is proposed to use, in particular, the first statistical moment of the power spectrum (see, for example, V.N. Lavrenchik. - Setting up a physical experiment and its statistical processing as such a characteristic) Results - M .: Energoatomizdat, 1986, Chapter 2, “Numerical Characteristics of Random Variables,” p. 67). Let Xi be the components of the power spectrum of the speech signal, i = 1, ..., N. Then its first spectral moment SM1 is found by the formula
Как показывают практические измерения, применение только одной данной статистической характеристики речевого сигнала совместно с ВФЧ позволило получить достаточно высокий и стабильный процент распознавания дикторов на представительном речевом материале. Отличие заявляемого способа распознавания дикторов от других известных способов состоит, в частности, в том, что в качестве параметрического описания сравниваемых входного речевого сигнала и эталона используют и разноразмерные признаки отдельных сегментов (формантные векторы) и признаки всего произнесения пароля в целом (статистические характеристики). Использование столь разнородных описаний речевого сигнала позволяет учесть вариативность речевых параметров за счет разнообразных причин и добиться высокой надежности распознавания дикторов.As practical measurements show, the use of only one given statistical characteristic of the speech signal together with the HPF allowed to obtain a sufficiently high and stable percentage of speaker recognition on representative speech material. The difference between the proposed method for recognizing speakers from other known methods consists, in particular, in that, as a parametric description of the compared input speech signal and reference, different-sized signs of individual segments (formant vectors) and signs of the entire pronunciation of the password as a whole (statistical characteristics) are used. The use of such heterogeneous descriptions of the speech signal allows one to take into account the variability of speech parameters due to various reasons and to achieve high reliability of speaker recognition.
В блоке ФПОРС 23 происходит формирование параметрического описания речевого сигнала, состоящего из статистических характеристик, получаемых в C1 21, вычисление которых для данного высказывания прекращается согласно сигналу из блока ВНКРС 13 и из набора ВФЧ для используемых сегментов на протяжении высказывания от его начала до конца.In the
В режиме распознавания коммутатор 5 замыкает вход на первый выход (верхний на фиг.1). БСПО 6 формирует композитный результат сравнения входного речевого сигнала неизвестного диктора и каждого поступающего из ЗУЭД 8 эталона, сравнивая между собой параметрические описания входного речевого сигнала неизвестного диктора и речевого сигнала сравниваемого эталона. Сравнение параметрических описаний выполняют раздельно для набора формантных векторов и для статистических характеристик. Наборы формантных векторов сравнивают в БОФр1 24, БОФР2 29, БОФР3 31, БОФР4 32 следующим образом. Сначала сравнивают между собой ВФЧ всех используемых сегментов сравниваемых речевых образов. Для определения степени сходства между собой ВФЧ сравниваемых сегментов речевого сигнала вводится мера близости, которая задается в виде взвешенной суммы модулей разности частот соответствующих по номеру частот формант:In recognition mode, the switch 5 closes the input to the first output (top in figure 1).
где ρ (Si,Tj) - мера близости двух сравниваемых сегментов речевого сигнала Si и Tj,where ρ (Si, Tj) is a measure of the proximity of two compared segments of the speech signal Si and Tj,
Wk - весовые коэффициенты для оптимизации вклада каждой формантной частоты в меру близости,Wk - weighting coefficients for optimizing the contribution of each formant frequency to a measure of proximity,
Fk(Si) и Fk(Tj) - соответственно формантные частоты для к-ой компоненты векторов формантных частот первого сравниваемого сегмента Si и второго сравниваемого сегмента Tj.Fk (Si) and Fk (Tj) are respectively the formant frequencies for the k-th component of the formant frequency vectors of the first compared segment Si and the second compared segment Tj.
Число частот формант в сравниваемых сегментах - М - должно в них совпадать. Для векторов формантных частот с разным числом компонент мера близости не определена, такие сегменты в заявляемом методе считаются несопоставимыми. М должно быть равно 3 и более.The number of formant frequencies in the compared segments — M — must coincide in them. For vectors of formant frequencies with different numbers of components, the measure of proximity is not defined, such segments in the inventive method are considered incomparable. M must be equal to 3 or more.
Для сравнения входного речевого сигнала и эталона согласно в БОФР1 24 для каждого используемого сегмента входного речевого сигнала по формуле (2) вычисляют меры близости с каждым используемым сегментом выбранного для сравнения эталона и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСС 36 задает текущий сегмент входного речевого сигнала, БВСЭ 37 последовательно перебирает используемые сегменты сравниваемого эталона. В зависимости от числа формант в заданном сегменте входного речевого сигнала в блоках 38, 39 или 40 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ1 41, БПМБ2 42 или БПМБ3 43 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФЭ 44, СН4ФЭ 45 или СН5ФЭ 46 суммируются и делятся на число соответственно 3-, 4- или 5-формантных используемых сегментов входного речевого сигнала. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты соответственно в БУ3 47, БУ4 48, БУ5 49 умножаются на весовые коэффициенты и суммируются в С3 50, давая в итоге на выходе БОФР 24 d(S,Tm) - формантное расстояние от тестового входного речевого сигнала S до эталона Тm. Здесь индекс m означает, что выбран для сравнения конкретный m-й эталон из всего набора хранящихся эталонов.To compare the input speech signal and the reference in accordance with
Кроме формантного расстояния d(S,Тm) от входного речевого сигнала S до эталона Тm можно в БОФР2 29 определять d(Tm,S) - расстояние от эталона Тm до входного речевого сигнала S. Для его вычисления для каждого используемого сегмента выбранного для сравнения эталона по формуле (2) вычисляются меры близости с каждым используемым сегментом входного речевого сигнала и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСЭ 51 задает текущий сегмент сравниваемого эталона, БВСС 52 последовательно перебирает используемые сегменты входного речевого сигнала. В зависимости от числа формант в заданном сегменте сравниваемого эталона в блоках ОМБЗФ 53, ОМБ4Ф 54 или ОМБ5Ф 55 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ4 56, БПМБ5 57 или БПМБ6 58 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФС 59, СН4ФС 60 или СН5ФС 61 суммируются и делятся на число используемых соответственно 3-, 4- или 5-формантных сегментов эталона. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты умножаются в БУ7 62, БУ8 63, БУ9 64 на весовые коэффициенты и суммируются в С4 65, давая в итоге на выходе БОФР2 29 d(Tm,S) - формантное расстояние от эталона Тm до тестового входного речевого сигнала S. Здесь индекс m означает, что выбран для сравнения конкретный m-й эталон из всего набора хранящихся эталонов. Целесообразность использования такого расстояния связана с тем, что вышеописанным образом определенное расстояние между тестовым входным речевым сигналом и эталоном не обладает свойством математической симметричности для случая, когда статистика распределения формантных частот в сравниваемых произнесениях существенно различается. Для улучшения надежности распознавания и “симметризации” расстояния между тестовым входным речевым сигналом и эталоном и предлагается использовать в композитном результате сравнения тестового входного речевого сигнала и эталона также расстояние от эталона до входного речевого сигнала и от входного речевого сигнала до эталона.In addition to the formant distance d (S, Тm) from the input speech signal S to the standard Тm, it is possible to determine d (Tm, S) - the distance from the standard Тm to the input speech signal S. in
Из композитного результата сравнения кроме d(S,Tm) и d(Tm,S) можно вычитать еще два члена: d(S,S) и d(Tm,Tm) - форматное расстояние от входного речевого сигнала до самого себя и формантное расстояние от сравниваемого эталона Tm до самого себя, то есть эталона Тm. Вычисление этих расстояний со знаком “минус” (то есть инвертированных) производится соответственно БОФР3 31 и БОФР4 32. При определении d(Tm,Tm) для каждого используемого сегмента выбранного для сравнения эталона по формуле (2) вычисляются меры близости с каждым используемым сегментом этого же эталона, кроме того, сегмента, который в данный момент уже выбран, и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСЭ 66 задает текущий сегмент сравниваемого эталона, БУВС 67 модифицирует эталон, удаляя из него уже заданный сегмент, БВСМЭ 68 последовательно перебирает используемые сегменты эталона. В зависимости от числа формант в заданном сегменте эталона в блоках ОМБ3Ф 69, ОМБ4Ф 70 или ОМБ5Ф 71 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ7 72, БПМБ8 73 или БПМБ9 74 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФЭ 75, СН4ФЭ 76 или СН5ФЭ 77 суммируются и делятся на число соответственно 3-, 4- или 5-формантных используемых сегментов эталона. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты соответственно в БУ12 78, БУ13 79 и БУ14 80 умножаются на -1 и весовые коэффициенты и суммируются в C5 81, давая в итоге на выходе БОФР3 31 d(Tm,Tm) - инвертированное формантное расстояние от эталона Tm до эталона Тm. Далее оно умножается на -1 и поступает на умножитель БУ10 33.Apart from d (S, Tm) and d (Tm, S), two more terms can be subtracted from the composite comparison result: d (S, S) and d (Tm, Tm) —the formatted distance from the input speech signal to itself and the formant distance from the reference standard Tm to itself, that is, the standard Tm. Calculation of these distances with a minus sign (that is, inverted) is carried out respectively by
При определении d(S,S) - расстояния от тестового входного сигнала S до самого себя, то есть до входного сигнала S, для каждого используемого сегмента тестового входного сигнала по формуле (2) вычисляются меры близости с каждым используемым сегментом этого входного речевого сигнала, кроме того, сегмента, который в данный момент уже выбран, и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСС 82 задает текущий сегмент входного речевого сигнала, БУВС 83 модифицирует этот сигнал, удаляя из него уже заданный сегмент, БВСМС 84 последовательно перебирает используемые сегменты тестового входного речевого сигнала. В зависимости от числа формант в заданном сегменте входного речевого сигнала в блоках ОМБ3Ф 85, ОМБ4Ф 86 или ОМБ5Ф 87 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ10 88, БПМБ11 89 или БПМБ12 90 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФС 91, СН4ФС 92 или СН5ФС 93 суммируются и делятся на число соответственно 3-, 4- или 5-формантных используемых сегментов входного речевого сигнала. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты соответственно в БУ15 94, БУ16 95 и БУ17 96 умножаются на -1 и весовые коэффициенты и суммируются в С6 97, давая в итоге на выходе блока 32 d(S,S) - инвертированное формантное расстояние от входного речевого сигнала S до входного речевого сигнала S. Оба последних расстояния являются оценками степени естественного разброса векторов частот формант для тестового входного речевого сигнала и эталона. Их вычитание (сложение инвертированных расстояний) из композитного результата сравнения входного речевого сигнала и эталона позволяет лучше учесть внутреннюю вариативность речевых параметров и добиться повышения надежности распознавания дикторов, особенно для длительных перерывов между сессиями обучения и распознавания (месяц и более).When determining d (S, S) - the distance from the test input signal S to itself, that is, to the input signal S, for each used segment of the test input signal using formula (2), proximity measures are calculated with each used segment of this input speech signal, in addition, the segment that is currently selected, and among all the counted proximity measures, the least modulo is searched.
Кроме формантных расстояний между параметрическими описаниями сравниваемого эталона и входного речевого сигнала БОФКК 25 определяет меру близости между входящими в параметрическое описание статистическими характеристиками спектра мощности входного речевого сигнала и сравниваемого эталона. Для этого вычисляется коэффициент нормированной кросс-корреляции между входящими в параметрическое описание входного речевого сигнала и эталона статистическими характеристиками спектра мощности входного речевого сигнала Xi, i=1,..., L, и эталона Yi, i=1,..., L. Коэффициент кросс-корреляции ККК получают путем суммирования результатов покомпонентного умножения Xi· Yi по всем компонентам статистических характеристик и последующего деления этой суммы на квадратный корень из произведения сумм квадратов всех компонент Xi и Yi:In addition to the formant distances between the parametric descriptions of the compared standard and the input speech signal,
БОФКК 25 реализует вычисление коэффициента кросс-корреляции между статистическими характеристиками входного речевого сигнала и эталона согласно формуле (3) через блоки 111-119, как показано на фиг.9.
Композитный результат сравнения входного речевого сигнала и выбранного для сравнения эталона CR(S,Tm) получается из рассмотренных выше формантных расстояний и коэффициента кросс-корреляции в виде взвешенной суммы. Композитный результат выглядит следующим образом:The composite result of comparing the input speech signal and the CR (S, Tm) standard selected for comparison is obtained from the formant distances and the cross-correlation coefficient discussed above in the form of a weighted sum. The composite result is as follows:
В композитный результат сравнения в заявляемом способе обязательно должны входить только первый и последний члены уравнения:The composite result of the comparison in the claimed method must include only the first and last members of the equation:
Дополнительно могут входить первый, второй и пятый члены уравнения (3):Additionally, the first, second, and fifth terms of equation (3) can be included:
Вычисление по формуле (3) обеспечивает наивысшую надежность распознавания дикторов, хотя для ряда приложений и вычислительно более простые выражения (4) и (5) обеспечивают достаточный уровень надежности распознавания дикторов.The calculation by formula (3) provides the highest reliability of speaker recognition, although for a number of applications and computationally simpler expressions (4) and (5) provide a sufficient level of speaker recognition reliability.
Реализуя формулы (3)-(6) в БСПО 6, результаты на выходе БОФР1 24, БОФР2 29, БОФР3 31, БОФР4 32, БОФКК 25 умножаются на весовые коэффициенты соответственно в умножителях БУ1 26, БУ6 30, БУ10 33, БУ11 34, БУ2 27 и суммируются в С2 28, давая в итоге композитный результат сравнения входного речевого сигнала и выбранного для сравнения эталона.Realizing formulas (3) - (6) in
При идентификации дикторов входной речевой сигнал теста, то есть произнесения голосового пароля неизвестным, подлежащим распознаванию диктором, подается на вход устройства и последовательно сравнивается с эталонами всех заранее известных дикторов, эталоны которых хранятся в ЗУЭД 8. В процессе сравнения входного речевого сигнала и каждого выбранного для сравнения эталона определяют композитный результат их сравнения в виде скалярного числа. Среди всех композитных результатов сравнения входного речевого сигнала с выбранными эталонами в БПР 7 выбирается наименьший результат, который сравнивается с заранее заданным порогом принятия решения, получаемым в процессе статистической обработки результатов распознавания на обучающей базе данных. Если порог не превышен, то неизвестный диктор считается распознанным как диктор, для эталона которого получился наименьший результат сравнения. В противном случае диктор считается неизвестным.When the speakers are identified, the input test speech signal, that is, the voice password is pronounced by an unknown speaker to be recognized, is fed to the device input and sequentially compared with the standards of all previously known speakers, the standards of which are stored in
Выбор порога производится из соображений обеспечения необходимого уровня ошибок первого и второго рода (не распознание тождественного диктора и распознание ложного диктора, как известного). Основной характеристикой системы распознавания считается порог, при котором получается равный уровень ошибок обоего рода. Для заявляемого способа распознавания дикторов на базе данных из 100 различных дикторов при 15 тестовых попытках на каждого диктора на 5 различных голосовых паролях получен результат 1,2% равных ошибок распознавания. Для оценок использовалась общедоступная база голосовых паролей (100 дикторов, 5 паролей, 15 произнесений каждого пароля): ELRA-S0050 Russian speech database (STC), 1998, EUROPEAN LANGUAGE RESOURCES ASSOCIATION, ELRA/ELDA 55-57 rue Brillat Savarin, 75013 PARIS, http://www.icp.grenet.fr/ELRA/home.html.The threshold is selected for reasons of ensuring the necessary level of errors of the first and second kind (not recognition of an identical speaker and recognition of a false speaker, as is known). The main characteristic of the recognition system is the threshold at which an equal level of errors of both kinds is obtained. For the proposed method of speaker recognition based on a database of 100 different speakers with 15 test attempts for each speaker on 5 different voice passwords, the result is 1.2% equal recognition errors. For evaluations, a public voice password database was used (100 speakers, 5 passwords, 15 pronunciations of each password): ELRA-S0050 Russian speech database (STC), 1998, EUROPEAN LANGUAGE RESOURCES ASSOCIATION, ELRA / ELDA 55-57 rue Brillat Savarin, 75013 PARIS, http://www.icp.grenet.fr/ELRA/home.html.
Тестовая версия программы, реализующей заявляемый способ распознавания, доступна на Интернет-сайте заявителя: http://www.speechpro.com.A test version of the program that implements the claimed recognition method is available on the applicant's website: http://www.speechpro.com.
В заявляемом способе распознавания диктора перед сессиями обучения и распознавания можно провести сессию оценки технических характеристик используемого устройства, переключив его в режим настройки технических параметров с помощью коммутатора 3 (фиг.1). Во время работы в этом режиме для получения эталона шума переключают коммутатор 104 (фиг.8) в режим вычисления эталона шума и обеспечивают поступление на вход устройства только сигнала окружающего шума без присутствия полезного сигнала произнесения голосового пароля в течение фиксированного, заранее определенного интервала времени. Длина интервала существенной роли не играет, типично он выбирается в пределах 30-60 секунд. Звуковой сигнал окружающего шума, соответствующий типичной акустической обстановке в месте размещения микрофона, например, может поступать с используемого микрофона 1 на вход БОЭШМ 9. Для этого сигнала в блоке ВНКРС 98 (фиг.8) выделяются моменты начала и конца поступления шума в устройство и временные отметки передаются в С 105. Блок ВНКРС 98 может быть аналогичен блоку ВНКРС 13 в блоке 4 (фиг.2). Далее звуковой сигнал в СРС 99 разбивают на последовательность сегментов - отрезков сигнала, следующих друг за другом через фиксированный интервал времени аналогично СРС 14 блока 4 Далее сигнал на каждом сегменте в БУВО 100 умножается на взвешивающее окно аналогично БУВО 15. Затем аналогично работе БДН 16 в БДН 101 к сигналу добавляется нулевая последовательность. Далее в ВПФ 102 аналогично блоку ВПФ 17 производится вычисление преобразования Фурье полученной последовательности значений для всех ее отсчетов. Затем в ВСМ 103 вычисляется спектр мощности полученного амплитудного спектра. Далее сигнал через коммутатор 104 поступает в блок сумматора-накопителя 105, где производится вычисление среднего спектра мощности по всем сегментам звукового сигнала за время поступления сигнала окружающего шума (между отметками начала и конца звучания шумового сигнала, поступающими из блока 98). Полученный таким образом эталон окружающего шума, представляющий собой оценку среднего спектра окружающего шума, запоминают в ЗУЭШМ 10 и далее используют для отбрасывания части непредставительных сегментов входного речевого сигнала теста и эталона. При этом используемыми сегментами речевого сигнала могут являться только те сегменты, для которых усредненная по компонентам относительная энергия разности их спектра мощности и соответствующих компонент эталона окружающего шума, вычисляемая в К 19 (фиг.2), не превышает заранее заданного порога, например 10%. Таким образом, из рассмотрения исключаются слабые по энергии, не содержащие достоверной информации о дикторе сегменты речевого сигнала. Оптимальный порог отбрасывания сегментов находится экспериментально во время проверки работы способа на большой выборке реальных произнесений голосовых паролей.In the inventive method of speaker recognition before training and recognition sessions, you can conduct a session to evaluate the technical characteristics of the device used, switching it to the setting mode of technical parameters using switch 3 (figure 1). During operation in this mode, to obtain a noise standard, the switch 104 (Fig. 8) is switched to the noise standard calculation mode and provides only the ambient noise signal to the device input without the presence of a useful voice password pronunciation signal for a fixed, predetermined time interval. The length of the interval does not play a significant role, typically it is selected within 30-60 seconds. The sound signal of ambient noise corresponding to a typical acoustic situation at the microphone’s location, for example, can come from the used
Кроме того, во время работы устройства в режиме настройки технических характеристик может определяться и амплитудно-частотная характеристика (АЧХ) используемого микрофона. Во время работы в этом режиме для получения ЭАЧХ переключают коммутатор 104 (фиг.8) в режим вычисления эталона АЧХ микрофона и обеспечивают поступление на вход устройства речевого сигнала в течение заранее заданного фиксированного интервала времени. Например, заранее известный диктор до начала сессии обучения непрерывно говорит в используемый микрофон 1 минуту. Длина интервала существенной роли не играет, типично он выбирается в пределах 30-90 секунд.In addition, during operation of the device in the setting mode of technical characteristics, the amplitude-frequency characteristic (AFC) of the microphone used can also be determined. During operation in this mode, in order to obtain the frequency response, the switch 104 (Fig. 8) is switched to the calculation mode of the microphone frequency response standard and the speech signal is received at the device input for a predetermined fixed time interval. For example, a well-known speaker announces continuously 1 minute into the microphone in use before the training session begins. The length of the interval does not play a significant role, typically it is selected within 30-90 seconds.
Речевой сигнал, например, может поступать с используемого микрофона 1 на вход БОЭШМ 9. Для этого сигнала в блоке ВНКРС 98 (фиг.8) выделяются моменты начала и конца поступления речевого сигнала в устройство и временные отметки передаются в блок ФЭМ 106. Блок ВНКРС 98 может быть аналогичен блоку ВНКРС 13 в блоке 4 (фиг.2). Далее речевой сигнал в СРС 99 разбивают на последовательность сегментов-отрезков сигнала, следующих друг за другом через фиксированный интервал времени аналогично СРС 14 блока 4. Далее сигнал на каждом сегменте в БУВО 100 умножается на взвешивающее окно аналогично БУВО 15. Затем аналогично работе БДН 16 в БДН 101 к сигналу добавляется нулевая последовательность. Далее в ВПФ 102 аналогично блоку ВПФ 17 производится вычисление преобразования Фурье полученной последовательности значений для всех ее отсчетов. Затем в ВСМ 103 вычисляется спектр мощности полученного амплитудного спектра. Далее сигнал через коммутатор 104 поступает в блок ФЭМ 106. Здесь для каждой компоненты спектра мощности речевого сигнала определяется ее среднегеометрическое значение для всех сегментов сигнала за время его произнесения в рамках данной сессии. Например, для i-ой компоненты N сегментов это значение вычисляется как корень 1/N степени из произведения друг на друга N i-ых компонент каждого сегмента речевого сигнала. БУН 107 производит накопление покомпонентных произведений спектра мощности речевого сигнала на всем его протяжении между метками начала и конца произнесения из блока 98. Далее в блоке 108 из полученных произведений извлекается соответствующий корень (например, путем перехода к логарифму обрабатываемого числа, делением логарифма на N и вычислением экспоненциальной функции от результата). Затем в Д 109 полученное среднегеометрическое значение каждой спектральной компоненты делят на значение соответствующей спектральной компоненты среднего спектра эталонного речевого сигнала, получаемого из ЗУ 110, а получаемые значения запоминают в ЗУЭШМ 10 в виде эталона АЧХ используемого микрофона. Данный средний спектр эталонного речевого сигнала получают путем измерения среднего спектра речи на большом количестве дикторов и при использовании прецизионного измерительного микрофона и хранят в виде фиксированного набора чисел.A speech signal, for example, can come from the
Перед сравнением входного речевого сигнала и эталона их параметрические описания можно нормализовать с целью компенсации искажений спектра речевого сигнала, возникающих за счет отличий АЧХ используемого микрофона от идеальной. Для этого после вычисления спектра мощности речевого сигнала на каждом сегменте речевого сигнала теста и эталона каждую компоненту этого спектра в блоке УСЭМ 20 (фиг.2) делят на соответствующую компоненту запомненного в режиме настройки технических характеристик эталона АЧХ используемого микрофона. После такого деления средний спектр нормализованного речевого сигнала уже не содержит информации об АЧХ используемого микрофона и сохраняет информацию только об индивидуальности диктора, что позволяет повысить надежность распознавания диктора. Такое повышение особенно существенно (ошибка распознавания уменьшается на 30-60%) при применении дешевых микрофонов, АЧХ которых имеет сильные отклонения от плоской (типично до 20 дБ в речевом диапазоне частот).Before comparing the input speech signal and the standard, their parametric descriptions can be normalized to compensate for distortions in the spectrum of the speech signal arising due to differences in the frequency response of the microphone used from the ideal one. For this, after calculating the power spectrum of the speech signal on each segment of the test signal and the reference signal, each component of this spectrum in the USEM unit 20 (FIG. 2) is divided into the corresponding component of the microphone used in the tuning mode of the technical characteristics of the frequency response standard. After this division, the average spectrum of the normalized speech signal no longer contains information about the frequency response of the microphone used and only stores information about the speaker’s personality, which improves the reliability of speaker recognition. This increase is especially significant (recognition error decreases by 30-60%) when using cheap microphones whose frequency response has strong deviations from a flat one (typically up to 20 dB in the speech frequency range).
Для выделения вектора форматных частот при реализации заявляемого устройства использовался способ, обеспечивавший достаточно надежное выделение 3-6 формант речевого сигнала для реальных речевых сигналов. Блок-схема его операций приведена на фиг.10 и 11.To select the vector of format frequencies when implementing the inventive device, a method was used that provided sufficiently reliable selection of 3-6 formants of the speech signal for real speech signals. A block diagram of its operations is shown in figures 10 and 11.
Входной сигнал спектра мощности сигнала на сегменте S(i), i=1...N, покомпонентно умножают на нормализующую функцию спектра мощности сегмента G(i):The input signal of the power spectrum of the signal on the segment S (i), i = 1 ... N, is componentwise multiplied by the normalizing function of the power spectrum of the segment G (i):
S*(i)=S(i)· (G(i).S * (i) = S (i) · (G (i).
ВНФ - вектор нормализующей функции получают путем экспериментального подбора и хранят в устройстве в зафиксированном виде.VNF - the vector of the normalizing function is obtained by experimental selection and stored in the device in a fixed form.
Далее сигнал сглаживают, например, с помощью процедуры скользящего среднего с двумя различными интервалами сглаживания N1 и N2:Further, the signal is smoothed, for example, using the moving average procedure with two different smoothing intervals N 1 and N 2 :
S1(i)=S*(i)◆ (N1); S2(i)=S*(i)◆ (N2).S 1 (i) = S * (i) ◆ (N 1 ); S 2 (i) = S * (i) ◆ (N 2 ).
Здесь знак ◆ обозначает процедуру усреднения данных:Here, the ◆ sign indicates the procedure of averaging data:
Существенно то, что N1 должно быть в несколько раз больше N2. Например, N1=40, a N2=8.It is essential that N 1 should be several times larger than N 2 . For example, N 1 = 40, and N 2 = 8.
Далее выполняют вычитание результатов усреднения одного из другого: S3(i)=S2(i)-S1(i); i=1...N.Next, subtract the results of averaging one of the other: S 3 (i) = S 2 (i) -S 1 (i); i = 1 ... N.
Затем среди всех полученных значений ищется максимум и запоминается:Then, among all the obtained values, the maximum is searched and stored:
МАХ=mах[S3(i)]; i=1...N.MAX = max [S 3 (i)]; i = 1 ... N.
Далее осуществляется поиск первого текущего локального максимума Мс и его расположения Р(Мс) в заданном диапазоне значений текущего индекса i:Next, a search is made for the first current local maximum M s and its location P (M s ) in a given range of values of the current index i:
Mc=mах[S3(i)]; Р(Мс)=аrg mах[S3(i)]; L<i<H.M c = max [S 3 (i)]; P (M s ) = arg max [S 3 (i)]; L <i <H.
ГФД - границы формантных диапазонов задают для каждой форманты в виде двух чисел (верхней и нижней границ допустимости). В начале работы алгоритма текущие границы поиска максимума L и Н устанавливают равными ГФД для первой форманты, затем последовательно изменяются на ГФД для других формант.GFD - the boundaries of the formant ranges are set for each formant in the form of two numbers (upper and lower admissibility limits). At the beginning of the algorithm, the current maximum search limits L and H are set equal to GFD for the first formant, then successively changed to GFD for other formants.
Далее выполняется поиск ближайших слева и справа к найденному Мс минимумов M1 и М2:Next, a search is made closest to the left and right to the found M with the minima of M 1 and M 2 :
M1=min[S3(i)]; L<i<P(Mc) М2=min[S3(i)]; Р(Mc)<i<H.M 1 = min [S 3 (i)]; L <i <P (M c ) M 2 = min [S 3 (i)]; P (M c ) <i <H.
Затем выполняют проверку: превышают ли разности найденного текущего максимума и соседних минимумов, деленные на глобальный максимум МАХ, заданного порога T1.Then they check: whether the differences of the found current maximum and neighboring minima are greater than the global maximum of MAX, given the threshold T 1 .
Если “Нет”, то найденный максимум отбрасывают, левая текущая граница поиска максимумов приравнивается найденному положению текущего максимума, выполняются проверки не превышения левой границы правой границы диапазона и поиск текущего максимума повторяется.If “No”, then the found maximum is discarded, the left current border of the maximum search is equal to the found position of the current maximum, checks are made not to exceed the left border of the right border of the range and the search for the current maximum is repeated.
Если “Да”, то выполняется проверка, превышает ли найденный в данном формантном диапазоне текущий максимум прежнего максимума, ранее найденного в данном формантном диапазоне. Если “Нет”, то поиск нового максимума снова повторяется, а если “Да”, то выполняется проверка, превышает ли разность положения двух последовательно расположенных найденных формантных частот заданный порог. Если “Да”, то положение найденного максимума запоминается как соответствующая компонента вектора частот формант. Если "Нет", то поиск текущего максимума возобновляется.If “Yes”, then a check is performed to see if the current maximum found in the given formant range exceeds the previous maximum previously found in the given formant range. If “No”, then the search for a new maximum is repeated again, and if “Yes”, then a check is made to see if the position difference of the two successively located formant frequencies exceeds a predetermined threshold. If “Yes”, then the position of the found maximum is remembered as the corresponding component of the formant frequency vector. If "No", then the search for the current maximum resumes.
Перед началом нового поиска текущего максимума происходит переприсвоение новых границ поиска часто формант, если диапазон поиска предыдущей форманты уже “пройден”. Кроме того, выполняются проверки: не превышено ли максимальное число формант и были ли в процессе выделения найдены допустимые формантные максимумы вообще.Before starting a new search for the current maximum, reassignment of new search boundaries often takes place for formants, if the search range of the previous formant is already “passed”. In addition, checks are carried out: whether the maximum number of formants is exceeded and whether admissible formant maxima were found at all during the selection process.
ЛитератураLiterature
1. Патент США №6411930, МПК G 10 L 15/08, 25.06. 2002.1. US patent No. 6411930, IPC G 10
2. Патент США №5995927, МПК G 10 L 9/00, 30.11.1999.2. US patent No. 5995927, IPC G 10 L 9/00, 11/30/1999.
3. Патент РФ №2047912, МПК G 10 L 7/06, опубликован 10.11.1995.3. RF patent No. 2047912, IPC G 10 L 7/06, published November 10, 1995.
4. Патент США №5265191, МПК G 10 L 005/00, опубликован 23.11.1993.4. US patent No. 5265191, IPC G 10 L 005/00, published 11/23/1993.
5. Патент РФ №2161826, МПК G 10 L 17/00, опубликован 10.01.2001.5. RF patent No. 2161826, IPC G 10 L 17/00, published January 10, 2001.
6. Патент США №5339385, МПК G 10 L 9/00, опубликован 16.08.1994.6. US Patent No. 5,339,385, IPC G 10 L 9/00, published August 16, 1994.
7. Патент США №6389392, МПК G 10 L 17/00, опубликован 14.05.2002.7. US patent No. 6389392, IPC G 10 L 17/00, published 14.05.2002.
Claims (20)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2002123509/09A RU2230375C2 (en) | 2002-09-03 | 2002-09-03 | Method of identification of announcer and device for its realization |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2002123509/09A RU2230375C2 (en) | 2002-09-03 | 2002-09-03 | Method of identification of announcer and device for its realization |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2002123509A RU2002123509A (en) | 2004-03-20 |
RU2230375C2 true RU2230375C2 (en) | 2004-06-10 |
Family
ID=32846054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2002123509/09A RU2230375C2 (en) | 2002-09-03 | 2002-09-03 | Method of identification of announcer and device for its realization |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2230375C2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011046474A2 (en) | 2009-09-24 | 2011-04-21 | Общество С Ограниченной Ответственностью "Цeнтp Речевых Технологий" | Method for identifying a speaker based on random speech phonograms using formant equalization |
RU2451346C1 (en) * | 2011-04-27 | 2012-05-20 | Сергей Владимирович Дворянкин | Method for contact-difference acoustic personal identification |
RU2530314C1 (en) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Method for hybrid generative-discriminative segmentation of speakers in audio-flow |
RU2704723C2 (en) * | 2018-03-12 | 2019-10-30 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Automatic voice verification device |
EP4002356A4 (en) * | 2019-07-17 | 2023-05-24 | Hosiden Corporation | Microphone unit |
-
2002
- 2002-09-03 RU RU2002123509/09A patent/RU2230375C2/en active
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011046474A2 (en) | 2009-09-24 | 2011-04-21 | Общество С Ограниченной Ответственностью "Цeнтp Речевых Технологий" | Method for identifying a speaker based on random speech phonograms using formant equalization |
WO2011046474A3 (en) * | 2009-09-24 | 2011-06-16 | Общество С Ограниченной Ответственностью "Цeнтp Речевых Технологий" | Method for identifying a speaker based on random speech phonograms using formant equalization |
EA019949B1 (en) * | 2009-09-24 | 2014-07-30 | Общество с ограниченной ответственностью "Центр речевых технологий" | Method for identifying a speaker based on random speech phonograms using formant equalization |
US9047866B2 (en) | 2009-09-24 | 2015-06-02 | Speech Technology Center Limited | System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type |
RU2451346C1 (en) * | 2011-04-27 | 2012-05-20 | Сергей Владимирович Дворянкин | Method for contact-difference acoustic personal identification |
RU2530314C1 (en) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Method for hybrid generative-discriminative segmentation of speakers in audio-flow |
RU2704723C2 (en) * | 2018-03-12 | 2019-10-30 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Automatic voice verification device |
EP4002356A4 (en) * | 2019-07-17 | 2023-05-24 | Hosiden Corporation | Microphone unit |
Also Published As
Publication number | Publication date |
---|---|
RU2002123509A (en) | 2004-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3719798B1 (en) | Voiceprint recognition method and device based on memorability bottleneck feature | |
KR970001165B1 (en) | Recognizer and its operating method of speaker training | |
Prasanna et al. | Extraction of speaker-specific excitation information from linear prediction residual of speech | |
RU2419890C1 (en) | Method of identifying speaker from arbitrary speech phonograms based on formant equalisation | |
EP1083541B1 (en) | A method and apparatus for speech detection | |
Saeidi et al. | Feature extraction using power-law adjusted linear prediction with application to speaker recognition under severe vocal effort mismatch | |
EP0685835B1 (en) | Speech recognition based on HMMs | |
Charisma et al. | Speaker recognition using mel-frequency cepstrum coefficients and sum square error | |
Tripathi et al. | Speaker recognition | |
Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
RU2230375C2 (en) | Method of identification of announcer and device for its realization | |
Maazouzi et al. | MFCC and similarity measurements for speaker identification systems | |
Ranjan | Speaker Recognition and Performance Comparison based on Machine Learning | |
Exter et al. | DNN-Based Automatic Speech Recognition as a Model for Human Phoneme Perception. | |
Kakade et al. | An automatic real time speech-speaker recognition system: a real time approach | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
RU2399102C2 (en) | Method and device for identity verification using voice | |
Savchenko | Estimation of the phonetic speech quality using the information theoretic approach | |
Leuzzi et al. | A Statistical Approach to Speaker Identification in Forensic Phonetics | |
Maurya et al. | Speaker recognition for noisy speech in telephonic channel | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
Nehra et al. | Speaker identification system using CNN approach | |
Suba et al. | Analysing the performance of speaker identification task using different short term and long term features | |
Nath et al. | Feature Selection Method for Speaker Recognition using Neural Network | |
Chmelařová et al. | Speaker Verification Using Autoregressive Spectrum of Speech Signal in Composite Vector Stochastic Processes Model Representation |