RU2230375C2

RU2230375C2 - Method of identification of announcer and device for its realization

Info

Publication number: RU2230375C2
Application number: RU2002123509/09A
Authority: RU
Inventors: П.В. Лабутин (RU); П.В. Лабутин; А.Н. Раев (RU); А.Н. Раев; С.Л. Коваль (RU); С.Л. Коваль
Original assignee: Общество с ограниченной ответственностью "Центр речевых технологий"
Priority date: 2002-09-03
Filing date: 2002-09-03
Publication date: 2004-06-10
Also published as: RU2002123509A

Abstract

FIELD: speech analysis. SUBSTANCE: invention refers specifically to systems limiting unauthorized access to material or information resources based on biometric information on speaker. Technical result of invention consists in usage of combination of segment indicators of vectors of formants and statistic characteristics of speech signal of pronunciation of password as whole in the capacity of parametric description of speech signal and in utilization of nonstandard non-Euclidean measure of proximity when formant vectors of two individual segments are compared with consistent its usage for determination of statistic similarity of formant structures of speech signal of compared pronunciations on basis of search for best approximation. EFFECT: enhanced authenticity of identification of announcers in presence of noise and use of low-quality microphones. 21 cl, 11 dwg

Description

Заявляемые способ и устройство относятся к анализу речи, могут быть использованы, в частности, в различных системах и устройствах для ограничения несанкционированного доступа к материальным или информационным ресурсам на основе биометрической информации о говорящем.The inventive method and device relate to speech analysis, can be used, in particular, in various systems and devices to limit unauthorized access to material or information resources based on biometric information about the speaker.

Известны способы и устройства распознавания дикторов на основе построения и сравнения чисто статистических моделей известных и неизвестных дикторов, например [1]. В известном способе распознавание диктора выполняют при использовании дискриминантных моделей Гауссовых смесей.Known methods and devices for recognizing speakers based on the construction and comparison of purely statistical models of known and unknown speakers, for example [1]. In the known method, speaker recognition is performed using discriminant models of Gaussian mixtures.

Данный способ, как и большинство чисто статистических подходов к распознаванию дикторов, не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (1-3 секунды), а используемые микрофоны имеют низкое качество (высокую вариативность частотного отклика).This method, like most purely statistical approaches to speaker recognition, is not suitable for situations where the used voice messages (passwords) are very short (1-3 seconds) and the microphones used are of poor quality (high frequency response variability).

Известен способ распознавания дикторов на основе чисто стохастического подхода [2]. В данном способе распознавание диктора выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных дикторов.A known method of speaker recognition based on a purely stochastic approach [2]. In this method, speaker recognition is performed by constructing and comparing covariance matrices of feature descriptions of the input speech signal and speech signal standards of known speakers.

Этот известный способ также не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (5 секунд и менее), а также очень чувствителен к пропаданию сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов.This known method is also not suitable for situations where the used voice messages (passwords) are very short (5 seconds or less), and also very sensitive to signal loss in certain parts of the frequency speech range due to ambient noise and low-quality microphones.

Известен способ распознавания изолированных слов речи с адаптацией к диктору [3], основанный на обработке с предискажениями входного речевого сигнала, дискретизации и последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предискажение входного речевого сигнала выполняют во временной области при дифференцировании со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.A known method for the recognition of isolated speech words with adaptation to the speaker [3], based on processing with distortion of the input speech signal, sampling and sequential segmentation of the speech signal, encoding segments with discrete elements, calculating the energy spectrum, measuring formant frequencies and determining amplitudes and energy in different frequency bands of a speech signal, the classification of articulatory events and states, the formation and sorting of word patterns, the calculation of the distances between patterns with s with the implementation of recognizable words, decisions on the recognition or denial of recognition vocabulary words with the addition of standards in the process of adaptation to the speaker. The prediction of the input speech signal is performed in the time domain during differentiation with smoothing, the energy spectrum is quantized depending on the variance of the communication channel noise, the formant frequencies are determined by finding the global maximum of the logarithmic spectrum and subtracting the specified frequency-dependent function from this spectrum, when classifying articulatory events and states determine the proportion of periodic and noise sources of excitation when compared with a threshold of autocorrelation coefficients In the case of rectangular pulses in several frequency bands, the beginning and end of articulatory movements and the corresponding acoustic processes are determined by comparing the likelihood function with a threshold of the autocorrelation coefficients, formant frequencies and energies in the given frequency bands, the speech signal is segmented into the intervals between the beginning and end of acoustic processes corresponding to specific articulatory movements, and sequentially, starting with vowels, with segment recognition produce only if the types of transitions coincide on its left and right borders and end segmentation when recognizing the left and right time segments of the pause between words. The word standards are formed in the form of matrices with binary values of the likelihood of signs, and the rejection of recognition is carried out with the normalized difference of the distance from the unknown implementation to the two nearest standards belonging to different words, less than the established threshold.

Недостатками данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению голосового пароля, так как данный способ не различает дикторов при произнесении ими паролей с совпадающим словесным составом.The disadvantages of this known method of recognizing isolated speech words with adaptation to the speaker is the weak distinguishing power of this method when it is used to recognize speakers by pronouncing a voice password, since this method does not distinguish speakers when they pronounce passwords with the same verbal composition.

Известна система для обеспечения секретности на основе распознавания голоса [4], требующая и от обучающего и от неизвестного диктора обязательного повторного произнесения, по крайней мере, одного из паролей. Система сравнивает параметрические представления повторных произнесений пароля неизвестного и известного диктора и принимает положительное решение о тождестве сравниваемых дикторов только в случае, если каждое произнесение неизвестного диктора достаточно близко произнесениям обучающего диктора, в то же время если их представления достаточно далеки друг от друга.A known system for secrecy based on voice recognition [4], requiring both the teacher and the unknown speaker to re-pronounce at least one of the passwords. The system compares the parametric representations of repeated pronunciations of the password of the unknown and known announcers and makes a positive decision on the identity of the compared announcers only if each utilization of the unknown announcer is close enough to the pronunciations of the teaching announcer, at the same time if their representations are far enough from each other.

Данная известная система достаточно устойчива к использованию магнитофона вместо реального диктора в качестве источника речевого сигнала, в то же время ее недостатком является низкая помехоустойчивость в шумах переменного характера (в транспортном средстве, в условиях шума улицы, производственного помещения).This known system is quite resistant to using a tape recorder instead of a real speaker as a source of a speech signal, at the same time its disadvantage is low noise immunity in noise of a variable nature (in a vehicle, in the conditions of street noise, industrial premises).

Известен способ автоматической идентификации личности по особенностям произношения парольной фразы этой личностью [5], заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах - в области максимумов интенсивности речевого сигнала, а также в начале первой и в конце последней вокализованных зон. Для выделенных временных интервалов определяют параметры речевого сигнала, сравнивают их с эталонами, которые формируют с учетом математических ожиданий и допустимых разбросов этих параметров, для чего в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интервалов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэффициенты корреляции параметров речевого сигнала. На основании полученных параметров речевого сигнала и соответствующих им статистических характеристик принимают решение по идентификации личности.A known method of automatic identification of a person by the features of the pronunciation of a passphrase by this person [5], which consists in the fact that the speech signal is divided into voiced zones, time intervals are allocated in voiced zones - in the region of the maximum intensity of the speech signal, as well as at the beginning of the first and the end last voiced zones. For the selected time intervals, the parameters of the speech signal are determined, compared with standards, which are formed taking into account the mathematical expectations and permissible scatter of these parameters, for which time intervals are allocated at the end of the first, beginning of the last, at the beginning and at the end of other voiced zones, the duration of the time intervals is set a multiple of the period of the fundamental tone of the speech signal, determine the estimates of the correlation coefficients of the parameters of the speech signal, which are included in the number of compared with the standards, when f The formation of the standards additionally takes into account the correlation coefficients of the parameters of the speech signal. Based on the obtained parameters of the speech signal and the corresponding statistical characteristics, a decision is made to identify the person.

Недостатком известного способа идентификации личности является низкая помехоустойчивость метода, так как для его работы требуется выделение во входном речевом сигнале точного положения границ основного тона голоса, что в условиях наличия акустических помех (шум большого офисного помещения, улицы и т.п.) практически невозможно.The disadvantage of this method of identifying a person is the low noise immunity of the method, since it requires highlighting the exact position of the boundaries of the main tone of the voice in the input speech signal, which is almost impossible in the presence of acoustic noise (noise from a large office room, street, etc.).

Известно устройство для верификации диктора на основе измерения расстояния “ближайшего соседа” [6], включающее дисплей, генератор выдачи подсказок по случайному закону, блок распознавания слова, верификатор диктора, клавиатуру и блок первичной обработки сигнала, при этом вход блока первичной обработки сигнала является входом устройства, а его выход соединен с первыми входами распознавателя слов и верификатора дикторов, ко второму входу распознавателя слов подключен первый выход генератора выдачи подсказок, выход которого соединен с дисплеем. Клавиатура подключена к третьему входу распознавателя слов и к третьему входу верификатора дикторов, выход которого является выходом устройства. Верификатор дикторов данного устройства для определения сходства различия произнесения голосовых паролей использует разбиение входного речевого сигнала на отдельные кадры анализа, вычисление непараметрических речевых векторов для каждого кадра анализа и далее определение близости таким образом полученных описаний речевого сигнала сравниваемых произнесений на основе Эвклидова расстояния ближайшего соседа.A device for verifying the speaker based on the measurement of the distance of the “nearest neighbor” [6], including a display, a generator for issuing random prompts, a word recognition unit, a speaker verifier, a keyboard and a primary signal processing unit, while the input of the primary signal processing unit is an input device, and its output is connected to the first inputs of the word recognizer and speaker verifier, the first output of the prompt generator is connected to the second input of the word recognizer, the output of which is connected to we take it. The keyboard is connected to the third input of the word recognizer and to the third input of the speaker verifier, the output of which is the output of the device. The speaker verifier of this device uses the splitting of the input speech signal into separate analysis frames to calculate the similarity of the difference in pronouncing voice passwords, calculating nonparametric speech vectors for each analysis frame, and then determining the proximity of the thus obtained descriptions of the speech signal of the compared pronunciations based on the Euclidean distance of the nearest neighbor.

Недостатком данного устройства являются низкая помехоустойчивость при работе в акустических шумах офисных помещений и улицы в силу использования непараметрических речевых векторов и Эвклидовой метрики при определении степени сходства/отличия произнесений голосовых паролей, а также низкая надежность распознавания (высокий процент ложных отказов) за счет использования переменных по порядку слов голосовых паролей, вызванная неизбежной индивидуальной вариативностью произнесения одних и тех же слов в разном контексте даже одним и тем же диктором.The disadvantage of this device is the low noise immunity when working in the acoustic noise of office premises and the street due to the use of nonparametric speech vectors and the Euclidean metric when determining the degree of similarity / difference in pronunciation of voice passwords, as well as low recognition reliability (high percentage of false failures) due to the use of variables for the word order of voice passwords caused by the inevitable individual variability of pronouncing the same words in a different context, even by one and the same e speaker.

Известен способ распознавания говорящего [7], включающий сравнивание входного речевого сигнала неизвестного диктора с эталонами, представляющими речь заранее известных дикторов, из которых, по меньшей мере, один представлен, по меньшей мере, двумя эталонами. Последовательные сегменты входного сигнала сравнивают с последовательными сегментами эталона, получая меру близости сравниваемых сегментов входного речевого сигнала и эталона. Для каждого эталона заранее известного диктора, имеющего, по крайней мере, два эталона, формируют композитный результат сравнения данного эталона и входного речевого сигнала на основе выбора для каждого сегмента входного речевого сигнала ближайшего по используемой мере близости сегмента сравниваемого эталона. Далее идентифицируют неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и эталонов.A known method for recognizing a speaker [7], including comparing the input speech signal of an unknown speaker with patterns representing speech of previously known speakers, of which at least one is represented by at least two patterns. Serial segments of the input signal are compared with successive segments of the reference, obtaining a measure of the proximity of the compared segments of the input speech signal and the reference. For each standard of a well-known speaker with at least two standards, a composite result of comparing this standard and the input speech signal is formed based on the choice for each segment of the input speech signal of the closest segment of the compared standard in terms of proximity. An unknown speaker is then identified based on the composite results of comparing the input speech signal and the standards.

Известный способ распознавания диктора ограниченно применим на практике, так как обязательное требование наличия для распознаваемого, заранее известного диктора не менее двух эталонов не всегда осуществимо в реальных условиях. Кроме того, данный способ не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, поскольку используемое в способе чисто посегментное параметрическое описание речевых сигналов подвержено сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы метода в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных ближайших сегментов большого числа близких чисто шумовых сегментов, соответствующих сегментам речевых пауз и в эталоне и во входном речевом сигнале.The known method of speaker recognition is limited in practice, since the mandatory requirement for a recognizable, well-known speaker of at least two standards is not always feasible in real conditions. In addition, this method does not provide a high level of speaker recognition reliability when operating in the acoustic noise of real office rooms, the street, or vehicles, since the purely segmented parametric description of speech signals used in the method is strongly influenced by additive acoustic noise and natural speech variability. In addition, the low reliability of the method in noise is due to the fact that the segment of the reference standard closest in the measure of proximity used is searched for each segment of the input speech signal, which leads to the presence among the found nearest segments of a large number of close pure noise segments corresponding to segments of speech pauses and in the reference and in the input speech signal.

Известно устройство для распознавания диктора, совпадающее с заявляемым решением по наибольшему числу существенных признаков и принятое за прототип, описано в [7]. Известное устройство-прототип включает, в частности, источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в обрабатываемом сегменте, вычислителя кепстральных коэффициентов речи и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок нелинейного выравнивания временной оси сравниваемых слов, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство. Источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока нелинейного выравнивания временной оси сравниваемых слов, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока нелинейного выравнивания временной оси сравниваемых слов, выходы блока нелинейного выравнивания временной оси сравниваемых слов соединены со входами блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом.A device for recognizing the speaker, which coincides with the claimed solution for the largest number of essential features and adopted as a prototype, is described in [7]. The known prototype device includes, in particular, a source of a speech signal, a unit for determining a parametric description of a speech signal in the form of a separator of the beginning / end of a speech signal, a segmenter of a speech signal by a sequence of segments, a unit of multiplication by a weighting window, a unit of adding to the signal in a segment of zeros, a calculator Fourier transform, a calculator of the signal power spectrum in the processed segment, a calculator of cepstral speech coefficients and a shaper of parametric descriptions of the input speech about a signal connected in series, a switch, a nonlinear alignment unit for the time axis of the words being compared, a unit for comparing parametric descriptions of the standard and the input speech signal, a decision block for a recognizable speaker, and a storage device. The source of the speech signal is connected to the block for determining the parametric description of the speech signal, the output of which is connected to the input of the switch, the first output of which is connected to the first input of the nonlinear alignment block of the time axis of the compared words, and the second output is connected to the input of the storage device, the output of which is connected to the second input of the block nonlinear alignment of the time axis of the compared words, the outputs of the block of nonlinear alignment of the time axis of the compared words are connected to the inputs of the comparison unit to pairs metric descriptions of the standard and the input speech signal, the output of which is connected to the input of the decision block on the recognizable speaker, the output of which is the output of the device as a whole.

Известное устройство распознавания диктора ограниченно применимо на практике, так как обязательное требование наличия для распознаваемого, заранее известного диктора не менее двух эталонов не всегда реализуемо на практике. Известное устройство для распознавания диктора не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, поскольку используемые в устройстве чисто посегментное, кепстральное временное описание речевых сигналов и нелинейное выравнивание временной оси сравниваемых слов подвержены сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы устройства в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных ближайших сегментов большого числа близких чисто шумовых сегментов, соответствующих речевым паузам и в эталоне и во входном речевом сигнале.The known speaker recognition device is limitedly applicable in practice, since the mandatory requirement for a recognizable, pre-known speaker of at least two standards is not always practicable. The known speaker recognition device does not provide a high level of speaker recognition reliability when operating in the acoustic noise of real office rooms, the street or vehicles, since the purely segmented, cepstral temporal description of speech signals and non-linear alignment of the time axis of the compared words are strongly influenced by additive acoustic noise and natural variability of speech. In addition, the low reliability of the operation of the device in noise is due to the fact that the segment of the reference standard that is closest in terms of proximity used is searched for each segment of the input speech signal, which leads to the presence of a large number of close pure noise segments among the nearest segments found that correspond to speech pauses and reference and in the input speech signal.

Задачей настоящего изобретения являлось создание такого способа распознавания диктора и такого устройства, реализующего этот способ, которые, при сохранении достоинств прототипа, позволили бы повысить надежность распознавания, а также обеспечить высокую помехоустойчивость распознавания при работе в шумах и при использовании низкокачественных микрофонов.The objective of the present invention was to provide such a method for recognizing a speaker and such a device that implements this method, which, while maintaining the advantages of the prototype, would improve the reliability of recognition, as well as provide high noise immunity recognition when working in noise and when using low-quality microphones.

Поставленная задача решается тем, что заявляемый способ распознавания диктора включает сравнение входного речевого сигнала неизвестного диктора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосовых паролей, произносимых заранее известными дикторами, по меньшей мере, один из которых представлен, по меньшей мере, одним эталоном, для чего осуществляют посегментное сравнение параметрических описаний входного речевого сигнала с параметрическими описаниями каждого из выбранных для сравнения эталонов. В заявляемом способе в качестве параметрических описаний используют соответственно векторы частот формант последовательно расположенных во времени сегментов входного речевого сигнала и эталонов с не фиксированным от сегмента к сегменту количеством формант, а также статистические характеристики спектра мощности входного речевого сигнала и упомянутых эталонов, вычисляемые для их используемых сегментов. Для сравнения параметрических описаний входного речевого сигнала и эталона используется определенная мера близости между каждой парой сравниваемых сегментов входного речевого сигнала и эталона. При сравнении параметрических описаний входного речевого сигнала и эталона находят для каждого используемого сегмента входного речевого сигнала ближайший по мере близости сегмент каждого выбранного для сравнения эталона, формируют композитные результаты сравнения входного речевого сигнала и каждого из выбранных для сравнения эталонов, в которые соответственно включают взвешенное среднее по всем используемым сегментам входного речевого сигнала значение мер близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом каждого выбранного для сравнения эталона, и распознают неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и упомянутых эталонов. В качестве меры близости пары сравниваемых сегментов используют взвешенный модуль разности векторов формантных частот, для каждого используемого сегмента входного речевого сигнала ближайший по упомянутой мере близости сегмент выбранного для сравнения эталона определяют только среди сегментов эталона, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента входного речевого сигнала, а в композитный результат сравнения дополнительно включают коэффициент кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и выбранного для сравнения упомянутого эталона.The problem is solved in that the claimed speaker recognition method includes comparing the input speech signal of an unknown speaker with pre-stored patterns representing the voice signal of voice passwords spoken by previously known speakers, at least one of which is represented by at least one pattern, why carry out a step-by-step comparison of the parametric descriptions of the input speech signal with the parametric descriptions of each of the selected standards for comparison. In the claimed method, as the parametric descriptions, the frequency vectors of formants are used, respectively, of the segments of the input speech signal and patterns with the number of formants not fixed from segment to segment, and the statistical characteristics of the power spectrum of the input speech signal and the said patterns calculated for their used segments . To compare the parametric descriptions of the input speech signal and the standard, a certain measure of proximity is used between each pair of compared segments of the input speech signal and the standard. When comparing the parametric descriptions of the input speech signal and the standard, for each used segment of the input speech signal, the nearest closest segment of each selected reference for comparison is found, composite results of comparison of the input speech signal and each of the selected for comparison standards are formed, which respectively include a weighted average over all used segments of the input speech signal the value of the measures of proximity between this used segment of the input speech signal and Iden closest to him segment each selected for comparison reference, and recognize the unknown speaker on the basis of the composite results comparing the input speech signal and said reference. As a measure of proximity, a pair of compared segments uses a weighted module of the difference of the vectors of the formant frequencies, for each used segment of the input speech signal, the closest segment of the reference selected for comparison is determined only among the segments of the reference for which the number of formants in the corresponding segment of the frequency vector the formant is equal to the number formant in the corresponding frequency vector of the formant of the compared segment of the input speech signal, and in the composite comparison result but include cross-correlation coefficient statistical characteristics of the power spectrum of the input speech signal and for comparing said selected reference.

Голосовые пароли заранее известные дикторы могут произносить, по меньшей мере, два раза, при этом перед повторным произнесением пароля диктор произносит речевое высказывание с существенно измененным характером артикуляции.Voice passwords previously known speakers can pronounce at least two times, while before re-pronouncing the password, the announcer delivers a speech statement with a significantly changed nature of articulation.

В качестве используемых сегментов входного речевого сигнала и эталонов могут быть выбраны только сегменты, у которых число формант в соответствующем векторе частот формант составляет 3 и более.As used segments of the input speech signal and patterns, only segments can be selected for which the number of formants in the corresponding frequency vector of formants is 3 or more.

В качестве статистических характеристик спектра мощности входного речевого сигнала и эталонов может быть использован первый статистический момент спектра мощности их используемых сегментов в интервале времени произнесения соответственно входного речевого сигнала и эталонов.As the statistical characteristics of the power spectrum of the input speech signal and patterns, the first statistical moment of the power spectrum of their used segments in the pronunciation time interval of the input speech signal and patterns, respectively, can be used.

Можно дополнительно определять для каждого используемого сегмента, выбранного для сравнения эталона, ближайший по мере близости сегмент входного речевого сигнала, а в композитный результат сравнения можно дополнительно включать взвешенное среднее по всем используемым сегментам каждого эталона значение мер близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом входного речевого сигнала, при этом для каждого используемого сегмента эталона ближайший по упомянутой мере близости сегмент входного речевого сигнала определяют только среди сегментов входного речевого сигнала, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента упомянутого эталона.It is possible to additionally determine for each used segment selected for comparison of the reference, the closest segment of the input speech signal as close as possible, and the composite result of the comparison can additionally include a weighted average of all used segments of each reference value of the proximity measures between this used reference segment and found for it the nearest segment of the input speech signal, while for each used segment of the standard, the closest segment of the input according to the measure of proximity the speech signal is determined only among the segments of the input speech signal, in which the number of formants in the corresponding segment of the frequency vector of the formant is equal to the number of formants in the corresponding frequency vector of the formants of the compared segment of the mentioned standard.

Из композитного результата сравнения входного речевого сигнала и выбранного для сравнения эталона дополнительно можно вычитать взвешенное среднее по всем используемым сегментам этого эталона значение меры близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом этого эталона, не тождественным данному используемому сегменту, а также взвешенное среднее по всем используемым сегментам входного речевого сигнала значение меры близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом входного речевого сигнала, не тождественным данному используемому сегменту.From the composite result of comparing the input speech signal and the standard selected for comparison, we can additionally subtract the weighted average over all used segments of this standard from the measure of proximity between this used segment of the standard and the nearest segment of this standard found for it that is not identical to the used segment, as well as the weighted average for all used segments of the input speech signal, the value of the measure of proximity between this used segment of the input speech signal and the closest segment of the input speech signal found for it that is not identical to the given segment being used.

В заявляемом способе можно предварительно определять и запоминать эталон окружающего шума и эталон амплитудно-частотной характеристики используемого микрофона. При этом эталон окружающего шума определяют путем накопления в течение заданного интервала времени среднего спектра мощности сигнала окружающего шума без присутствия речевого сигнала, а эталон амплитудно-частотной характеристики используемого микрофона определяют путем накопления при непрерывном произнесении в микрофон речи в течение заданного интервала времени среднегеометрического значения спектра мощности данного речевого сигнала и последующего покомпонентного деления полученного среднегеометрического значения спектра мощности на заранее заданный эталонный средний спектр речевого сигнала.In the inventive method, it is possible to preliminarily determine and store the standard of ambient noise and the standard of the amplitude-frequency characteristics of the microphone used. In this case, the ambient noise standard is determined by accumulating the average power spectrum of the ambient noise signal over a predetermined time interval without the presence of a speech signal, and the standard amplitude-frequency characteristic of the microphone used is determined by accumulating the geometric mean power spectrum during continuous preset speech for a specified time interval of a given speech signal and subsequent component-wise division of the obtained mean geometric value of the power spectrum information on a predetermined reference average spectrum of the speech signal.

В качестве используемых сегментов входного речевого сигнала и эталонов можно выбирать сегменты, у которых усредненная по компонентам относительная энергия разности их спектра мощности и эталона окружающего шума превышает заранее заданное пороговое значение.As used segments of the input speech signal and standards, it is possible to choose segments for which the relative energy of the difference between their power spectrum and the ambient noise standard averaged over the components exceeds a predetermined threshold value.

Параметрическое описание каждого сегмента входного речевого сигнала и эталона можно нормализовать путем покомпонентного деления спектра мощности данного сегмента на эталон амплитудно-частотной характеристики микрофона.The parametric description of each segment of the input speech signal and the standard can be normalized by componentwise dividing the power spectrum of this segment by the standard amplitude-frequency characteristics of the microphone.

Суть заявляемого способа заключается в использовании в качестве параметрического описания речевого сигнала сочетания сильно отличающихся по различительным свойствам сегментных признаков векторов формант и статистических характеристик речевого сигнала всего произнесения пароля в целом, а также в использовании нестандартной неевклидовой меры близости при сравнении форматных векторов двух отдельных сегментов с последующим ее применением к определению статистического сходства сегментных формантных структур речевого сигнала сравниваемых произнесений на основе поиска наилучшего приближения. Общеизвестно (см., например, Чистович Л.А. и др. - Физиология речи. Восприятие речи человеком. - Л.: Наука, 1976), что формантное описание речевого сигнала является наиболее помехоустойчивым и информативным при решении задач распознавания речевых образов. До сих пор его реально редко использовали на практике в силу отсутствия способов надежного выделения формант в зашумленном речевом сигнале, вариативности числа формант, выделяемых на отдельном сегменте, нестабильности формантного описания при изменении громкости произнесения и психофизиологического состояния диктора. В заявляемом изобретении впервые предлагается использовать для распознавания дикторов векторы формантных частот с допустимо различным числом выделенных формант на конкретном сегменте. Описанный ниже способ выделения формант обеспечивает их высокую надежность выделения даже в условиях окружающего шума. Предложенная в изобретении метрика сравнения сегментов не привязана к конкретной временной позиции сегмента в высказывании и позволяет найти похожие по реализации сегменты речевого сигнала во всем произнесении, а не только в примерно том же месте относительно начала высказывания и во входном речевом сигнале и в эталоне. Сочетание разнородного описания речевого сигнала (и формантного и статистического) позволяет избежать недостатков использования чисто формантного описания и, в частности, уменьшить ошибки распознавания, связанные с внутренней вариативностью речевого сигнала за счет различной громкости произнесения, изменения эмоционального и физического состояния диктора, Ломбард-эффекта и т.д. В отличие от известных решений в данном способе распознавания и реализующем его устройстве предлагается симметризованная метрика сравнения эталона и входного речевого сигнала на основе посегментного наилучшего приближения с возможным вычитанием из нее объектной дисперсии данной меры близости. Существенным отличием от прототипа является то, что ближайшие к данному сегменту входного речевого сигнала сегменты эталона ищутся не среди всех сегментов сравниваемого эталона, а только среди сегментов, имеющих совпадающее число компонент вектора формантных частот. Дополнительные пункты изобретения предлагают процедуры определения эталонов окружающего шума и АЧХ используемого микрофона, а также процедуры учета при обработке речевого сигнала данных эталонов, которые существенно повышают устойчивость работы метода и устройства распознавания по отношению к искажениям сигнала низкокачественными микрофонами и шумам.The essence of the proposed method consists in using, as a parametric description of a speech signal, combinations of formant vectors and statistical characteristics of the speech signal of the entire password utterance, which differ greatly in the distinguishing properties of the speech vectors, as well as using a non-standard non-Euclidean measure of proximity when comparing format vectors of two separate segments with the subsequent its application to the determination of statistical similarity of segmented formant structures of a speech signal Vai utterances based on the search of the best approximation. It is well known (see, for example, Chistovich L.A. et al. - Physiology of speech. Human perception of speech. - L .: Nauka, 1976) that the formant description of a speech signal is the most noise-resistant and informative in solving speech recognition problems. Until now, it has actually been rarely used in practice due to the lack of ways to reliably isolate formants in a noisy speech signal, the variability of the number of formants allocated on a separate segment, the instability of the formant description when the pronunciation volume and the psychophysiological state of the speaker change. In the claimed invention for the first time it is proposed to use vectors of formant frequencies with an admissible different number of allocated formants on a particular segment for recognition of speakers. The method for isolating formants described below ensures their high reliability of isolation even under ambient noise conditions. The segment comparison metric proposed in the invention is not tied to a specific temporal position of the segment in the utterance and allows one to find segments of the speech signal that are similar in implementation throughout the utterance, and not only in about the same place relative to the beginning of the utterance both in the input speech signal and in the reference. The combination of a diverse description of the speech signal (both formant and statistical) avoids the disadvantages of using a purely formant description and, in particular, reduces recognition errors associated with the internal variability of the speech signal due to different pronunciation volumes, changes in the emotional and physical state of the speaker, the Lombard effect and etc. In contrast to the known solutions, this recognition method and the device that implements it offer a symmetric metric for comparing the standard and the input speech signal based on the segmentwise best approximation with possible subtraction of the object dispersion of this proximity measure from it. A significant difference from the prototype is that the segments of the standard closest to this segment of the input speech signal are not searched among all segments of the compared standard, but only among segments that have the same number of components of the formant frequency vector. Additional points of the invention offer procedures for determining environmental noise standards and the frequency response of the microphone used, as well as procedures for taking into account these standards when processing a speech signal, which significantly increase the stability of the method and recognition device with respect to signal distortion by low-quality microphones and noise.

Поставленная задача в части устройства решается тем, что в устройстве для распознавания диктора, включающем источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен со входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, блок определения параметрического описания речевого сигнала дополнительно содержит блок определения формантного вектора текущего сегмента и первый сумматор-накопитель статистических характеристик входного речевого сигнала, включенные параллельно друг другу между вычислителем спектра мощности сигнала в сегменте и формирователем параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блока определения формантного расстояния от входного речевого сигнала до эталона и блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона, выходы которых соединены соответственно через первый блок умножения и второй блок умножения со вторым сумматором, а выход второго сумматора соединен с входом блока принятия решения о распознаваемом дикторе.The problem is solved in part of the device in that in the device for recognizing the speaker, including the source of the speech signal, a unit for determining a parametric description of the speech signal in the form of a separator of the beginning / end of the speech signal, a segmenter of a speech signal by a sequence of segments, a unit of multiplication by a weighting window, an addition unit to a signal in a segment of zeros, a Fourier transform calculator, a signal power spectrum calculator in a segment, and a parameter generator of parametric descriptions of the input speech signal connected in series, a switch, a unit for comparing parametric descriptions of a standard and an input speech signal, a decision block for a recognizable speaker and a storage device, while the source of a speech signal is connected to a unit for determining a parametric description of a speech signal, the output of which is connected to the input of the switch, the first output which is connected to the first input of the unit for comparing the parametric descriptions of the standard and the input speech signal, and the second output is connected to the input of the storage device, the output of which is connected to the second input of the unit for comparing the parametric descriptions of the standard and the input speech signal, the output of which is connected to the input of the decision block for the recognizable speaker, the output of which is the output of the device as a whole, the unit for determining the parametric description of the speech signal further comprises a unit for determining the formant vector of the current segment and a first adder-accumulator of statistical characteristics of the input speech signal, connected in parallel between each other between the calculator sp krata of the signal power in the segment and the generator of the parametric descriptions of the input speech signal, the unit for comparing the parametric descriptions of the standard and the input speech signal is made in the form of a unit for determining the formant distance from the input speech signal to the standard and a unit for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and reference, the outputs of which are connected respectively through the first block of multiplication and the second block of multiplication with the second adder, and the output of the second mmatora connected to the input of the decision on recognizable speaker.

Блок определения формантного расстояния от входного речевого сигнала до сравниваемого эталона может включать блок задания сравниваемых сегментов входного речевого сигнала, подключенный к блоку выбора сравниваемых сегментов эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно первый, второй и третий блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам эталона соединены соответственно с первыми входами третьего, четвертого и пятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы блоков умножения соединены с третьим сумматором.The unit for determining the formant distance from the input speech signal to the compared standard may include a unit for specifying the compared segments of the input speech signal connected to the block for selecting the compared segments of the standard, the output of which is connected to the input of the determinant block of the proximity measure between the 3-formant vectors of the pair of compared segments, the input of the determinant block proximity measures between 4-formant vectors of a pair of compared segments and the input of the determinant block proximity measures between 5-formant vectors of a pair of compa segments, the outputs of which, through the first, second and third blocks, respectively, search for the smallest proximity measure for a given segment of the input speech signal for all segments of the standard, the adder-accumulator of the average least measures of proximity for all 3-formant segments of the standard, the adder-accumulator of the average least measures of proximity for all 4-formant segments of the standard, the accumulator-accumulator of the average least measures of proximity for all 5-formant segments of the standard are connected respectively to the first inputs of the third, fourth and fifth th multiplication units, the second inputs of which are connected to the mass storage device, and the outputs of the multiplication units are connected to the third adder.

Блок сравнения параметрических описаний эталона и входного речевого сигнала может дополнительно содержать блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала, соединенный через шестой блок умножения со вторым сумматором.The unit for comparing the parametric descriptions of the standard and the input speech signal may further comprise a unit for determining the formant distance from the compared standard to the input speech signal, connected through the sixth multiplication unit to the second adder.

Блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала может включать блок задания сравниваемых сегментов эталона, подключенный к блоку выбора сравниваемых сегментов входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно четвертый, пятый и шестой блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-форматным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам входного речевого сигнала соединены соответственно с первыми входами седьмого, восьмого и девятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с четвертым сумматором.The unit for determining the formant distance from the compared standard to the input speech signal may include a unit for specifying the compared segments of the standard connected to the block for selecting the compared segments of the input speech signal, the output of which is connected to the input of the determinant block of the proximity measure between the 3-formant vectors of the pair of compared segments, the input of the determinant block proximity measures between 4-formant vectors of a pair of compared segments and the input of the determinant block proximity measures between 5-formant vectors of a pair of compa segments, the outputs of which, respectively, through the fourth, fifth and sixth blocks of finding the smallest proximity measure for a given segment of the reference standard for all segments of the input speech signal, the accumulator-accumulator of the average least proximity measures for all 3-format segments of the input speech signal, the accumulator-accumulator of the average smallest proximity measures for all 4-formant segments of the input speech signal, the adder-accumulator of the average smallest proximity measures for all 5-formant segments of the input speech signal are connected respectively respectively, with the first inputs of the seventh, eighth, and ninth multiplication units, the second inputs of which are connected to a weight storage device, and the outputs of the said multiplication units are connected to the fourth adder.

Блок сравнения параметрических описаний входного речевого сигнала и эталона дополнительно может содержать блок определения формантного расстояния от сегментов эталона до эталона в целом и блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом, соединенных через соответственно десятый и одиннадцатый блоки умножения со вторым сумматором.The unit for comparing the parametric descriptions of the input speech signal and the standard may further comprise a unit for determining the formant distance from the segments of the standard to the standard as a whole and a unit for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole, connected via the tenth and eleventh multiplication units to the second by the adder.

Блок определения формантного расстояния от сегментов эталона до эталона в целом может включать соединенные последовательно блок задания сравниваемых сегментов эталона, блок удаления выбранного для сравнения сегмента (блок модификации эталона), блок выбора сравниваемых сегментов модифицированного эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно седьмой, восьмой и девятый блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного эталона соединены соответственно с первыми входами двенадцатого, тринадцатого и четырнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с пятым сумматором.The unit for determining the formant distance from the segments of the standard to the standard as a whole may include a series-connected unit for specifying the compared segments of the standard, a unit for deleting the segment selected for comparison (block for modifying the standard), a unit for selecting the compared segments of the modified standard, the output of which is connected to the input of the determinant of the measure of proximity between 3-formant vectors of the pair of compared segments, the input of the determinant block of the measure of proximity between 4-formant vectors of the pair of compared segments and the input m of the determinant of the measure of proximity between 5-formant vectors of a pair of compared segments, the outputs of which, respectively, are the seventh, eighth and ninth blocks of finding the smallest proximity measure for a given segment of the standard for all segments of the modified standard, the accumulator-accumulator of the average least proximity measures for all 3-formant segments of the modified standard, the adder-accumulator of the average least measures of proximity for all 4-formant segments of the modified standard, the adder-accumulator of the average least measures of bl Soest all the segments 5 formant modified standard are respectively connected to the first inputs of the twelfth, thirteenth and fourteenth multiplication units, the second inputs of which are connected to the memory device of weighting coefficients, and multiplying the outputs of said blocks are connected to a fifth adder.

Блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом может включать соединенные последовательно блок задания сравниваемых сегментов входного речевого сигнала, блок удаления выбранного для сравнения сегмента (блок модификации входного речевого сигнала), блок выбора сравниваемых сегментов модифицированного входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно десятый, одиннадцатый и двенадцатый блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного входного речевого сигнала соединены соответственно с первыми входами пятнадцатого, шестнадцатого и семнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с шестым сумматором.The unit for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole may include a sequentially connected unit for setting the compared segments of the input speech signal, a unit for deleting the segment selected for comparison (block for modifying the input speech signal), a unit for selecting compared segments of the modified input speech signal, the output of which is connected to the input of the block of the determinant of the proximity measure between the 3-formant vectors of a pair of compared segments, the input of the block determinant of the proximity measure between the 4-formant vectors of a pair of compared segments and the input of a block of the determinant of the proximity measure between the 4-formant vectors of a pair of compared segments, the outputs of which, through the tenth, eleventh and twelfth blocks of the search, are the smallest for a given segment of the input speech signal of the proximity measure for all segments of the modified the input speech signal, the adder-drive of the average least measures of proximity for all 3-formant segments of the modified input speech signal, an adder-accumulator of average least closeness measures for all 4-formant segments of a modified input speech signal, an adder-accumulator of average least closeness measures for all 5-formant segments of a modified input speech signal are connected respectively to the first inputs of the fifteenth, sixteenth and seventeenth multiplication blocks, the second inputs which are connected to a mass storage device, and the outputs of said multiplication units are connected to a sixth adder.

Блок определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона может включать первый, второй и третий блоки покомпонентного умножения, которые последовательно соединены соответственно с седьмым, восьмым и девятым сумматорами, выход седьмого сумматора соединен с первым входом делителя, ко второму входу которого через блок умножения и блок извлечения квадратного корня подключены выходы восьмого и девятого сумматоров.The unit for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and the reference may include first, second, and third component-wise multiplication units that are connected in series with the seventh, eighth, and ninth adders, respectively, the output of the seventh adder is connected to the first input of the divider, to the second input whose outputs of the eighth and ninth adders are connected through the multiplication unit and the square root extraction unit.

Устройство для распознавания диктора дополнительно может содержать второй коммутатор, блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона, при этом источник входного речевого сигнала соединен с входом второго коммутатора, один из выходов которого соединен с первым входом блока определения параметрического описания входного речевого сигнала, а второй выход второго коммутатора подключен ко входу блока определения эталона шума и эталона амплитудно-частотной характеристики микрофона, выход которого соединен с входом запоминающего устройства, подключенного ко второму входу блока определения параметрического описания входного речевого сигнала.The speaker recognition device may further comprise a second switch, a unit for determining a noise standard and a standard for amplitude-frequency characteristics of the microphone, while the source of the input speech signal is connected to the input of the second switch, one of the outputs of which is connected to the first input of the unit for determining the parametric description of the input speech signal, and the second output of the second switch is connected to the input of the unit for determining the noise standard and the standard amplitude-frequency characteristics of the microphone, the output of which connected to the input of the storage device connected to the second input of the unit for determining the parametric description of the input speech signal.

Блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона может включать последовательно соединенные блок выделения начала/конца речевого сигнала, сегментатор речевого сигнала на последовательность сегментов, блок умножения на взвешивающее окно, блок добавления к сигналу в сегменте нулей, вычислитель преобразования Фурье, блок вычислителя спектра мощности сигнала в сегменте, а также переключатель режима работы (получения эталона шума или получения эталона АЧХ используемого микрофона), сумматор-накопитель покомпонентного среднего значения последовательности сегментных спектров и блок формирования эталона АЧХ используемого микрофона, включающий последовательно соединенные блок умножителя-накопителя, блок выделения корня n-ой степени из результата работы предыдущего блока, делитель на эталонный средний спектр речевого сигнала и запоминающее устройство хранения эталонного среднего спектра речевого сигнала, при этом выход блока вычислителя спектра мощности сигнала в сегменте соединен с входом переключателя режима, первый выход которого подключен к первому входу сумматора-накопителя покомпонентного среднего значения последовательности сегментных спектров, а второй выход переключателя соединен с первым входом блока формирования эталона АЧХ используемого микрофона, второй выход блока выделения начала/конца речевого сигнала подключен ко второму входу упомянутого сумматора-накопителя и второму входу блока формирования эталона АЧХ используемого микрофона, третий вход которого соединен с запоминающим устройством.The unit for determining the noise standard and the standard amplitude-frequency characteristics of the microphone may include a series-connected unit for selecting the beginning / end of the speech signal, a segmenter of the speech signal for a sequence of segments, a unit for multiplying by a weighting window, a unit for adding to a signal in a segment of zeros, a Fourier transform calculator, and a calculator block the power spectrum of the signal in the segment, as well as a mode switch (to obtain a noise standard or to obtain a frequency response standard of the microphone used), an adder-accumulator l component-wise average value of a sequence of segmented spectra and a block for generating a standard AFC of the microphone used, including a series-connected block of the storage multiplier, a block for extracting the root of the nth degree from the result of the previous block, a divider by the reference average spectrum of the speech signal, and a storage device for storing the reference average spectrum a speech signal, while the output of the block of the spectrum of the signal power spectrum in the segment is connected to the input of the mode switch, the first output of which the second is connected to the first input of the accumulator-accumulator of the component-wise average value of the sequence of segment spectra, and the second output of the switch is connected to the first input of the unit for generating the frequency response standard of the microphone used, the second output of the block for selecting the beginning / end of the speech signal is connected to the second input of the said accumulator-accumulator and the second input block forming the standard frequency response of the microphone used, the third input of which is connected to the storage device.

Устройство для распознавания диктора дополнительно может содержать устройство для ввода идентификатора диктора и устройство выбора эталона, при этом устройство для ввода идентификатора диктора подключено к первому входу устройства выбора эталона, второй вход которого соединен с запоминающим устройством, а выход устройства выбора эталона подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала.The speaker recognition device may further comprise a device for inputting a speaker identifier and a sample selection device, wherein a device for inputting a speaker identifier is connected to the first input of the sample selection device, the second input of which is connected to a storage device, and the output of the sample selection device is connected to the second input of the unit comparing the parametric descriptions of the standard and the input speech signal.

Заявляемый способ распознавания диктора и устройство для его осуществления поясняются чертежами, гдеThe inventive method of speaker recognition and a device for its implementation are illustrated by drawings, where

на фиг.1 схематически изображены основные блоки устройства для распознавания диктора;figure 1 schematically shows the main blocks of the device for speaker recognition;

на фиг.2 приведена схема блока определения параметрического описания речевого сигнала;figure 2 shows a block diagram for determining a parametric description of a speech signal;

на фиг.3 дана схема блока сравнения параметрических описаний эталона и входного речевого сигнала;figure 3 is a diagram of a unit for comparing parametric descriptions of the standard and the input speech signal;

на фиг.4 приведена схема блока определения формантного расстояния от входного речевого сигнала до эталона;figure 4 shows a block diagram for determining the formant distance from the input speech signal to the standard;

на фиг.5 показана схема блока определения формантного расстояния от эталона до входного речевого сигнала;figure 5 shows a block diagram for determining the formant distance from the standard to the input speech signal;

на фиг.6 дана схема блока определения формантного расстояния от сегментов эталона до эталона в целом;Fig.6 is a diagram of a unit for determining the formant distance from the segments of the standard to the standard as a whole;

на фиг.7 показана схема блока определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом;7 shows a block diagram for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole;

на фиг.8 приведена схема блока определения эталона шума и эталона АЧХ используемого микрофона;on Fig shows a block diagram for determining the noise standard and the frequency response standard of the microphone used;

на фиг.9 дана схема блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона (X_i - статистические характеристики спектра мощности входного речевого сигнала; T_i - статистические характеристики спектра мощности эталона; КК - значение функции кросс-корреляции);figure 9 is a diagram of a block for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and the reference (X _i are the statistical characteristics of the power spectrum of the input speech signal; T _i are the statistical characteristics of the power spectrum of the reference; KK is the value of the cross-correlation function) ;

на фиг.10 показана первая часть последовательности операций определения формантного вектора текущего анализируемого сегмента (ВНФ - вектор нормализующей функции спектра мощности, u обозначает операцию сглаживания);figure 10 shows the first part of the process of determining the formant vector of the current analyzed segment (VNF is the vector of the normalizing function of the power spectrum, u denotes the smoothing operation);

на фиг.11 приведена вторая часть последовательности операций определения формантного вектора текущего анализируемого сегмента; где ВЧФ - вектор частотных формант; ГФД - границы формантных диапазонов; L и Н - соответственно нижняя и верхняя граница текущего диапазона поиска формант; L_k и H_k - соответственно нижняя и верхняя граница каждого формантного диапазона для каждой компоненты ВЧФ; T_i - величина порога отбрасывания слабых максимумов, Т₂ - величина заданного порога близости формант; Q - максимально допустимое число формантных компонент.figure 11 shows the second part of the sequence of operations for determining the formant vector of the current analyzed segment; where HFF is a vector of frequency formants; GFD - the boundaries of the formant ranges; L and H are the lower and upper bounds of the current formant search range, respectively; L _k and H _k are the lower and upper bounds of each formant range for each RF component, respectively; T _i is the threshold value of discarding weak maxima, T ₂ is the value of the specified threshold of proximity of formants; Q is the maximum allowable number of formant components.

Устройство, с помощью которого реализуют заявляемый способ распознавания диктора, включает (см. фиг.1) источник речевого сигнала в цифровой форме, например микрофон 1 (М) и аналого-цифровой преобразователь (АЦП) 2, первый коммутатор 3, блок 4 определения параметрического описания речевого сигнала (БОПОРС), второй коммутатор 5, блок 6 сравнения параметрических описаний эталона и входного речевого сигнала (БСПО), блок 7 принятия решения о распознаваемом дикторе (БПР), первый блок 8 запоминающего устройства для хранения эталонов параметрического описания речевого сигнала заранее известных дикторов, векторов нормализующей функции спектра мощности, границ формантных диапазонов и порогов (ЗУЭД). В устройство могут быть дополнительно введены: блок 9 определения эталона шума и эталона амплитудно-частотной характеристики (АЧХ) используемого микрофона (БОЭШМ) и второй блок 10 запоминающего устройства для хранения эталона шума, эталона АЧХ микрофона, порога шума, эталонного спектра речевого сигнала (ЗУЭШМ). В случае использования устройства для верификации диктора в устройство дополнительно вводят устройство 11 для ввода идентификатора диктора (УВИД) и устройство 12 выбора эталона (УВЭ). Микрофон 1 через АЦП 2 соединен с входом первого коммутатора 3, первый выход которого подключен к первому входу БОПОРС 4, а второй выход - к БОЭШМ 9. Выход БОПОРС 4 соединен с входом второго коммутатора 5, первый выход которого подключен к первому входу БСПО 6, а второй выход соединен с входом ЗУЭД 8. Выход БОЭШМ 9 подключен к входу ЗУЭШМ 10, выход которого соединен со вторым входом БОПОРС 4. В случае верификации диктора УВИД 11 подключают к первому входу УВЭ 12, второй вход которого соединяют с выходом ЗУЭД 8, а выход УВЭ 12 подключают ко второму входу БСПО 6, выход которого соединен с входом БПР 7, выход которого является выходом устройства в целом. Если верификацию диктора не проводят, то выход ЗУЭД 8 непосредственно соединяют со вторым входом БСПО 6.The device with which the inventive method of speaker recognition is implemented includes (see FIG. 1) a digital voice source, for example, microphone 1 (M) and analog-to-digital converter (ADC) 2, first switch 3, parametric determination unit 4 speech signal descriptions (BOPORS), second switch 5, unit 6 for comparing the parametric descriptions of the standard and the input speech signal (BSPO), block 7 for deciding on the recognizable speaker (BPR), the first block 8 of the storage device for storing the standards of parametric op the use of a speech signal of previously known speakers, vectors of the normalizing function of the power spectrum, the boundaries of the formant ranges and thresholds (ZUED). The device may additionally include: unit 9 for determining the noise standard and the standard amplitude-frequency characteristic (AFC) of the microphone used (BOESHM) and the second block 10 of a storage device for storing the noise standard, microphone frequency response, noise threshold, reference spectrum of the speech signal (ZESHM ) In the case of using the device for verifying the speaker, the device 11 additionally introduces the device 11 for entering the speaker identifier (UVID) and the device 12 of the selection of the reference (UVE). The microphone 1 through the ADC 2 is connected to the input of the first switch 3, the first output of which is connected to the first input of the BOPORS 4, and the second output to the BOESHM 9. The output of the BOPORS 4 is connected to the input of the second switch 5, the first output of which is connected to the first input of the BSPO 6, and the second output is connected to the input of the ZUED 8. The output of the BOESHM 9 is connected to the input of the ZUEShM 10, the output of which is connected to the second input of the BOPORS 4. In case of verification of the speaker, the UVID 11 is connected to the first input of the UVE 12, the second input of which is connected to the output of the ZUED 8, and UVE output 12 is connected to the second input of the BSPO 6, the output of which is connected to the input of the BPR 7, the output of which is the output of the device as a whole. If the speaker is not verified, then the output of the ZUED 8 is directly connected to the second input of the BSPO 6.

Блок 4 определения параметрического описания речевого сигнала (БОПОРС) включает (см. фиг.2) последовательно соединенные блок выделения 13 начала/конца речевого сигнала (ВНКРС), сегментатор 14 речевого сигнала на последовательность сегментов (СРС), блок 15 умножения на взвешивающее окно (БУВО), блок 16 добавления к сигналу в сегменте нулей (БДН), вычислитель 17 преобразования Фурье (ВПФ) и блок 18 вычислителя спектра мощности сигнала в сегменте (ВСМ). В случае использования эталона шума (ЭШ) и эталона АЧХ микрофона (ЭАЧХ) блок 4 дополнительно включает вычитатель-компаратор 19 (К), определяющий превышение порога шума (ПШ) по отношению к эталону шума (ЭШ), и блок 20 умножения (УСЭМ) спектра мощности текущего сегмента анализа на эталон АЧХ используемого микрофона (ЭАЧХ). Выход ВСМ 18 соединен в этом случае с первым входом УСЭМ 20, выход которого подключен к первому входу К 19. Выходы К 19 подключены соответственно к входу сумматора-накопителя 21 статистических характеристик входного речевого сигнала (C₁) и к первому входу блока 22 определения формантного вектора текущего сегмента (ОФВ), выходы которых соединены соответственно с первым и вторым входами формирователя 23 параметрических описаний входного речевого сигнала (ФПОРС), к третьему входу которого подключен второй выход ВНКРС 13. Второй, третий и четвертый входы ОФВ 22 соединены с выходами ЗУЭД 8, а второй вход УСЭМ 20 и второй и третий входы К 19 подключены к выходам ЗУЭШМ 10. На УСЭМ 20 подают сигнал эталона АЧХ микрофона из ЗУЭШМ 10 (см. фиг.2), а на К 19 подают сигналы эталона шума и порога шума. Если эталоны шума и АЧХ микрофона не используют, то выход ВСМ 18 непосредственно соединяют с первым входом ОФВ 22 и входом C₁ 21 (на фиг.2 эти связи показаны пунктирными линиями). Вход ВНКРС 13 является входом БОПОРС 4, а выход ФПОРС 23 - выходом БОПОРС 4.The unit 4 for determining the parametric description of the speech signal (BOPORS) includes (see FIG. 2) a series-connected unit for allocating 13 beginning / end of the speech signal (SSCC), a segmenter 14 of the speech signal by a sequence of segments (CPC), a block 15 multiplying by a weighting window ( BUVO), block 16 add to the signal in the segment of zeros (BDN), the calculator 17 Fourier transform (VFF) and block 18 of the calculator of the spectrum of the signal power in the segment (BCM). In the case of using a noise standard (ES) and a microphone AFC (AFC) standard, block 4 additionally includes a subtractor-comparator 19 (K) that determines the excess of the noise threshold (PN) with respect to the noise standard (ES), and the multiplication unit 20 (USEM) the power spectrum of the current analysis segment to the standard frequency response of the microphone used (AAC). The output of the BCM 18 is connected in this case with the first input of the SSEM 20, the output of which is connected to the first input K 19. The outputs K 19 are connected respectively to the input of the adder-drive 21 of the statistical characteristics of the input speech signal (C ₁ ) and to the first input of the formant determination unit 22 vectors of the current segment (FEV), the outputs of which are connected respectively to the first and second inputs of the shaper 23 of the parametric descriptions of the input speech signal (FPOPS), the second input of which is connected to the second output of the VNKRS 13. The second, third and fourth inputs FEV 22 odes are connected to the outputs of the ZUED 8, and the second input of the USEM 20 and the second and third inputs of K 19 are connected to the outputs of the ZEShM 10. The USEM 20 receives the signal of the microphone response from the ZUEShM 10 (see Fig. 2), and to K 19 signal noise standard and noise threshold. If the noise and frequency response standards of the microphone are not used, then the output of the HSR 18 is directly connected to the first input of the FEV 22 and the input C ₁ 21 (in Fig. 2 these connections are shown by dashed lines). The input VNKRS 13 is the input of BOPORS 4, and the output FPORS 23 - the output of BOPORS 4.

Блок 6 сравнения параметрических описаний входного речевого сигнала и эталона (БСПО) (см. фиг.3) включает, по меньшей мере, блок 24 определения формантного расстояния от входного речевого сигнала до сравниваемого эталона (БОФР₁), блок 25 определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона (БОФКК), выходы которых соединены соответственно через первый блок 26 умножения (BУ₁) и второй блок 27 умножения (БУ₂) с сумматором 28 (С₂). Дополнительно БСПО 6 может включать блок 29 определения формантного расстояния от сравниваемого эталона до входного речевого сигнала (БОФР₂), соединенный через блок 30 умножения (БУ₆) с сумматором 28. БСПО может также включать блок 31 определения формантного расстояния от сегментов эталона до эталона в целом (БОФР₃) и блок 32 определения формантного расстояния от сегментов входного речевого сигнала до этого речевого сигнала в целом (БОФP₄), которые соединены через соответственно блок 33 умножения (БУ₁₀) и блок 34 умножения (БУ₁₁) с С₂ 28. На входы БОФP₁ 24, БОФКК 25, БОФР₂ 29, БОФР₃ 31 и БОФP₄ 32 подают параметрическое описание входного речевого сигнала (ПОС) из БОПОРС 4 и параметрическое описание эталона (ПОЭ) из ЗУЭД 8. На вторые входы БУ₁ 26, БУ₂ 27, БУ₆ 30, БУ₁₀ 33 и БУ₁₁ 34 подают значения весовых коэффициентов соответственно W₁, W₂, W₃, W₄ и W₅ из блока 35 запоминающего устройства весовых коэффициентов (ЗУВК). Выход С₂ 28 соединен с входом БПР 7.Block 6 comparing the parametric descriptions of the input speech signal and reference (BSPO) (see figure 3) includes at least block 24 determining the formant distance from the input speech signal to the compared reference (BOFR ₁ ), block 25 determining the cross-correlation function statistical characteristics of the power spectrum of the input speech signal and reference (BOFK), the outputs of which are connected respectively through the first block 26 multiplication (BU ₁ ) and the second block 27 multiplication (BU ₂ ) with the adder 28 (C ₂ ). Additionally, BSPO 6 may include a unit 29 for determining the formant distance from the compared standard to the input speech signal (BOFR ₂ ), connected through the multiplication unit 30 (BU ₆ ) to the adder 28. The BSPO may also include a unit 31 for determining the formant distance from the segments of the standard to the reference in as a whole (BOFR ₃ ) and the unit 32 for determining the formant distance from the segments of the input speech signal to this speech signal as a whole (BOFR ₄ ), which are connected through respectively the multiplication unit 33 (BU ₁₀ ) and the multiplication unit 34 (BU ₁₁ ) with C ₂ 28 . To the inputs of B OFP ₁ 24, BOFKK 25, BOFR ₂ 29, BOFR ₃ 31 and BOFR ₄ 32 provide a parametric description of the input speech signal (POS) from BOPORS 4 and a parametric description of the standard (POE) from ZUED 8. At the second inputs BU ₁ 26, BU ₂ 27, control unit ₆ 30, control unit ₁₀ 33 and control unit ₁₁ 34 provide the values of the weighting coefficients W ₁ , W ₂ , W ₃ , W ₄ and W _5, respectively, from the block 35 of the storage device of the weight coefficients (ZUVK). Output C ₂ 28 is connected to the input of the BPR 7.

Блок 24 (см. фиг.4) определения формантного расстояния от входного речевого сигнала до эталона (БОФР₁) включает блок 36 задания сравниваемых сегментов входного речевого сигнала (БЗСС), блок 37 выбора сравниваемых сегментов эталона (БВСЭ), блок 38 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 39 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 40 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 41, 42 и 43 поиска наименьшей для данного, заданного БЗСС 36 сегмента входного речевого сигнала меры близости по всем сегментам эталона, соответственно БПMБ₁, БПМБ₂ и БПМБ₃, сумматор 44 - накопитель средних наименьших мер близости по всем 3-формантным сегментам эталона (СН3ФЭ), сумматор 45 - накопитель средних наименьших мер близости по всем 4-формантным сегментам эталона (СН4ФЭ), сумматор 46 - накопитель средних наименьших мер близости по всем 5-формантным сегментам эталона (СН5ФЭ), три блока 47, 48, 49 умножения, соответственно БУ₃, БУ₄, БУ₅, и сумматор 50 (С₃). Вход БЗСС 36 соединен с выходом БОПОРС 4, а выход подключен к первому входу БВСЭ 37, на второй вход которого подают ПОЭ из ЗУЭД 8 (см. фиг.1). Выход БВСЭ 37 подключен в входам ОМБ3Ф 38, ОМБ4Ф 39 и ОМБ5Ф 40. Выход ОМБ3Ф 38 через БПМБ₁ 41, СН3ФЭ 44 и БУ₆ 47 подключен ко входу С₃ 50, к которому также подключены ОМБ4Ф 39 через БПМБ₂ 42, СН4ФЭ 45 и БУ₇ 48 и ОМБ5Ф 40 через БПМБ₃ 43, СН5ФЭ 46 и БУ₈ 49. На вторые входы БУ₃ 47, БУ₄ 48 и БУ₅ 49 подают значения весовых коэффициентов соответственно W₆, W₇ и W₈ из ЗУВК 35. Выход С₃ 50 соединен с входом БУ₁ 26 (см. фиг.3).Block 24 (see Fig. 4) for determining the formant distance from the input speech signal to the reference (BOFR ₁ ) includes a block 36 for specifying the compared segments of the input speech signal (BSSS), block 37 for selecting the compared segments of the reference (BCE), block 38 of the proximity measure determinant between 3-formant vectors of a pair of compared segments (OMB3F), block 39 of the proximity measure determinant between 4-formant vectors of a pair of compared segments (OMB3F), block 40 of a determinant of the proximity measure between 5-form vectors of a pair of compared segments (OMB5F), three blocks 4 1, 42 and 43 of the search for the smallest for a given BSSS 36 segment of the input speech signal of the proximity measure for all segments of the standard, respectively BPMB ₁ , BPMB ₂ and BPMB ₃ , adder 44 is the drive of the average least measures of proximity for all 3-formant segments of the standard ( CH3FE), adder 45 - accumulator of the smallest mean closeness measures for all 4-formant segments of the standard (CH4FE), adder 46 - accumulator of the mean least closeness measures for all 5-formant segments of the standard (CH5FE), three blocks 47, 48, 49 of multiplication, BU respectively _3, ₄ BU, BU _5, and an adder 50 ( _3). The input of the BZSS 36 is connected to the output of the BOPORS 4, and the output is connected to the first input of the BVSE 37, the second input of which serves POE from ZUED 8 (see figure 1). The output of BVSE 37 is connected to the inputs OMB3F 38, OMB4F 39 and OMB5F 40. The output OMB3F 38 through BPMB ₁ 41, SN3FE 44 and BU ₆ 47 is connected to input C ₃ 50, to which OMB4F 39 is also connected via BPMB ₂ 42, SN4FE 45 and BU ₇ 48 and OMB5F 40 through BPMB ₃ 43, SN5FE 46 and BU ₈ 49. The second inputs of BU ₃ 47, BU ₄ 48 and BU ₅ 49 are fed with the values of the weighting factors W ₆ , W ₇ and W _8, respectively, from the ZUVK 35. Output With ₃ 50 connected to the input of BU ₁ 26 (see figure 3).

Блок 29 (см. фиг.5) определения формантного расстояния от эталона до входного речевого сигнала (БОФР₂) включает блок 51 задания сравниваемых сегментов эталона (БЗСЭ), блок 52 выбора сравниваемых сегментов входного речевого сигнала (БВСС), блок 53 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 54 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 55 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 56, 57 и 58 поиска наименьшей для данного, заданного БЗСЭ 51 сегмента эталона меры близости по всем сегментам входного речевого сигнала, соответственно БПМБ₄, БПМБ₅ и БПМБ₆, сумматор 59 - накопитель средних наименьших мер близости по всем 3-формантным сегментам входного речевого сигнала (СН3ФС), сумматор 60 - накопитель средних наименьших мер близости по всем 4-формантным сегментам входного речевого сигнала (СН4ФС), сумматор 61 - накопитель средних наименьших мер близости по всем 5-формантным сегментам входного речевого сигнала (СН5ФС), три блока 62, 63, 64 умножения, соответственно БУ₇, БУ₈, БУ₉, и сумматор 65 (С₄). Вход БЗСЭ 51 соединен с выходом ЗУЭД 8, а выход подключен к первому входу БВСС 52, на второй вход которого подают ПОС из БОПОРС 4 (см. фиг.1). Выход БВСС 52 подключен в входам ОМБ3Ф 53, ОМБ4Ф 54 и ОМБ5Ф 55. Выход ОМБ3Ф 53 через БПМБ₄ 56, СН3ФС 59 и БУ₉ 62 подключен к входу С₄ 65, к которому также подключены ОМБ4Ф 54 через БПМБ₅ 57, СН4ФС 60 и БУ₁₀ 63 и ОМБ5Ф 55 через БПМБ₆ 58, СН5ФС 61 и БУ₁₁ 64. На вторые входы БУ₇ 62, БУ₈ 63 и БУ₉ 64 подают значения весовых коэффициентов соответственно W₆, W₇ и W₈ из ЗУВК 35 (см. фиг.3).Block 29 (see Fig. 5) for determining the formant distance from the reference to the input speech signal (BOFR ₂ ) includes a block 51 for setting the compared segments of the reference (BSSE), block 52 for selecting the compared segments of the input speech signal (BVSS), block 53 of the determinant of proximity measures between 3-formant vectors of a pair of compared segments (OMB3F), block 54 of proximity measure determinant between 4-formant vectors of a pair of compared segments (OMB3F), block 55 of determinant of proximity measure between 5-form vectors of a pair of compared segments (OMB5F), three blocks 5 6, 57 and 58 of the search for the smallest for a given BZSE 51 segment of the standard of proximity measure for all segments of the input speech signal, respectively BPMB ₄ , BPMB ₅ and BPMB ₆ , adder 59 is the drive of the average least measures of proximity for all 3-formant segments of the input speech the signal (SN3FS), adder 60 - the accumulator of the least average proximity measures for all 4-formant segments of the input speech signal (CH4FS), adder 61 - the accumulator of the least average proximity measures for all 5-formant segments of the input speech signal (SN5FS), three blocks 62 , 63, 6 4 multiplications, respectively BU ₇ , BU ₈ , BU ₉ , and adder 65 (C ₄ ). The input BZSE 51 is connected to the output of the ZUED 8, and the output is connected to the first input of the BVSS 52, the second input of which serves PIC from BOPORS 4 (see figure 1). The output of BVSS 52 is connected to the inputs OMB3F 53, OMB4F 54 and OMB5F 55. The output OMB3F 53 through BPMB ₄ 56, SN3FS 59 and BU ₉ 62 is connected to input C ₄ 65, to which OMB4F 54 is also connected via BPMB ₅ 57, SN4FS 60 and BU ₁₀ 63 and OMB5F 55 through BPMB ₆ 58, SN5FS 61 and BU ₁₁ 64. The second inputs of BU ₇ 62, BU ₈ 63 and BU ₉ 64 feed the values of the weight coefficients W ₆ , W _7, and W _8, respectively, from the ZUVK 35 (see Fig. 3).

Блок 31 (см. фиг.6) определения формантного расстояния от сегментов эталона до эталона в целом (БОФР₃) включает блок 66 задания сравниваемых сегментов эталона (БЗСЭ), блок 67 удаления уже выбранного для сравнения сегмента (БУВС) из набора всех сегментов эталона, блок 68 выбора сравниваемых сегментов модифицированного эталона (БВСМЭ), блок 69 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 70 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 71 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 72, 73 и 74 поиска наименьшей для данного, заданного БЗСЭ 66 сегмента эталона меры близости по всем сегментам модифицированного эталона, соответственно БПМБ₇, БПМБ₈ и БПМБ₉, сумматор 75 - накопитель средних наименьших мер близости по всем 3-формантным используемым сегментам модифицированного эталона (СН3ФЭ), сумматор 76 - накопитель средних наименьших мер близости по всем 4-формантным используемым сегментам модифицированного эталона (СН4ФЭ), сумматор 77 - накопитель средних наименьших мер близости по всем 5-формантным используемым сегментам модифицированного эталона (СН5ФЭ), три блока 78, 79, 80 умножения, соответственно БУ₁₂, БУ₁₃, БУ₁₄, и сумматор 81 (C₅). Вход БЗСЭ 66 соединен с выходом ЗУЭД 8, а выход через БУВС 67 подключен к первому входу БВСМЭ 68, на второй вход которого подают ПОС из ЗУЭД 8 (см. фиг.1). Выход БВСМЭ 68 подключен в входам ОМБ3Ф 69, ОМБ4Ф 70 и ОМБ5Ф 71. Выход ОМБ3Ф 69 через БПМБ₇ 72, СН3ФЭ 75 и БУ₁₂ 78 подключен к входу С₅ 81, к которому также подключены ОМБ4Ф 70 через БПМБ₈ 73, СН4ФЭ 76 и БУ₁₃ 79 и ОМБ5Ф 71 через БПМБ₉ 74, СН5ФЭ 77 и БУ₁₄ 80. На вторые входы БУ₁₂ 78, БУ₁₃ 79 и БУ₁₄ 80 подают значения весовых коэффициентов соответственно W₆, W₇ и W₈ из ЗУВК 35 (см. фиг.3).Block 31 (see Fig. 6) for determining the formant distance from the segments of the standard to the standard as a whole (BOFR ₃ ) includes a block 66 for specifying the compared segments of the standard (BSSE), block 67 for deleting a segment already selected for comparison from the set of all segments of the standard , block 68 of the choice of compared segments of the modified standard (BVSME), block 69 of the determinant of the measure of proximity between 3-formant vectors of a pair of compared segments (OMB3F), block 70 of the determinant of the measure of proximity between 4-formant vectors of a pair of compared segments (OMB4F), block 71 determine As a measure of the proximity between the 5-formant vectors of the pair of compared segments (OMB5F), the three blocks 72, 73 and 74 search for the smallest for a given segment of the reference measure of proximity measure for all segments of the modified standard specified by BSE 66, respectively BPMB ₇ , BPMB ₈ and BPMB ₉ , adder 75 is the accumulator of the average least measures of proximity for all 3-formant used segments of the modified standard (CH3FE), adder 76 is the accumulator of the average least measures of proximity for all 4-formant used segments of the modified standard (CH4FE), adder 77 - a drive of average least measures of proximity for all 5-formant used segments of the modified standard (SN5FE), three multiplication blocks 78, 79, 80, respectively BU ₁₂ , BU ₁₃ , BU ₁₄ , and adder 81 (C ₅ ). The input BZSE 66 is connected to the output of the ZUED 8, and the output through the BUVS 67 is connected to the first input of the BVSME 68, the second input of which serves POS from the ZUED 8 (see figure 1). The output of БВСМЭ 68 is connected to the inputs ОМБ3Ф 69, ОМБ4Ф 70 and ОМБ5Ф 71. The output ОМБ3Ф 69 through БПМБ ₇ 72, СН3ФЭ 75 and БУ ₁₂ 78 is connected to the input С ₅ 81, to which ОМБ4Ф 70 is also connected via БПМБ ₈ 73, СН4ФЭ 76 and BU ₁₃ 79 and OMB5F 71 through BPMB ₉ 74, SN5FE 77 and BU ₁₄ 80. The second inputs of BU ₁₂ 78, BU ₁₃ 79 and BU ₁₄ 80 are supplied with the values of the weight coefficients W ₆ , W ₇ and W _8, respectively, from ZUVK 35 (see Fig. 3).

Блок 32 (см. фиг.7) определения расстояния от сегментов входного речевого сигнала до этого речевого сигнала в целом (БОФР₄) включает блок 82 задания сравниваемых сегментов входного речевого сигнала (БЗСС), блок 83 удаления выбранного для сравнения сегмента (БУВС), блок 84 выбора сравниваемых сегментов модифицированного входного речевого сигнала (БВСМС), блок 85 определителя меры близости между 3-формантными векторами пары сравниваемых сегментов (ОМБ3Ф), блок 86 определителя меры близости между 4-формантными векторами пары сравниваемых сегментов (ОМБ4Ф), блок 87 определителя меры близости между 5-формантными векторами пары сравниваемых сегментов (ОМБ5Ф), три блока 88, 89 и 90 поиска наименьшей для данного, задаваемого БЗСС 82 сегмента входного речевого сигнала меры близости по всем сегментам модифицированного входного речевого сигнала, соответственно БПМБ₁₀, БПМБ₁₁ и БПМБ₁₂, сумматор 91 - накопитель средних наименьших мер близости по всем 3-формантным используемым сегментам модифицированного входного речевого сигнала (СН3ФС), сумматор 92 - накопитель средних наименьших мер близости по всем 4-формантным используемым сегментам модифицированного входного речевого сигнала (СН4ФС), сумматор 93 - накопитель средних наименьших мер близости по всем 5-формантным используемым сегментам модифицированного входного речевого сигнала (СН5ФС), три блока 94, 95, 96 умножения, соответственно БУ₁₅, БУ₁₆, БУ₁₇, и сумматор 97 (С₆). Вход БЗСС 82 соединен с выходом БОПОРС 4, а выход через БУВС 83 подключен к первому входу БВСМС 84, на второй вход которого подают ПОС из БОПОРС 4 (см. фиг.1). Выход БВСМС 84 подключен в входам ОМБ3Ф 85, ОМБ4Ф 86 и ОМБ5Ф 87. Выход ОМБ3Ф 85 через БПМБ₁₀ 88, СН3ФС 91 и БУ₁₅ 94 подключен к входу С₆ 97, к которому также подключены ОМБ4Ф 76 через БПМБ₁₁ 89, СН4ФС 92 и БУ₁₆ 95 и ОМБ5Ф 87 через БПМБ₁₂ 90, СН5ФС 93 и БУ₁₇ 96. На вторые входы БУ₁₅ 94, БУ₁₆ 95 и БУ₁₇ 96 подают значения весовых коэффициентов соответственно W₆, W₇ и W₈ из ЗУВК 35 (см. фиг.3).Block 32 (see Fig. 7) for determining the distance from the segments of the input speech signal to this speech signal as a whole (BOFR ₄ ) includes a block 82 for setting the compared segments of the input speech signal (BSSS), block 83 for deleting the selected segment for comparison (BUVS), block 84 of the selection of the compared segments of the modified input speech signal (BVMSS), block 85 of the determinant of the proximity measure between the 3-formant vectors of a pair of compared segments (OMB3F), block 86 of the determinant of the measure of proximity between the 4-formant vectors of a pair of compared segments ( MB4F), block 87 of the determinant of the proximity measure between the 5-formant vectors of a pair of compared segments (OMB5F), three blocks 88, 89 and 90 of finding the smallest for a given segment of the input speech signal of the proximity measure for all segments of the modified input speech signal specified by the BSSS 82, respectively BPMB ₁₀ , BPMB ₁₁ and BPMB ₁₂ , adder 91 - accumulator of the least average proximity measures for all 3 formant used segments of the modified input speech signal (SN3FS), adder 92 - accumulator of the least average proximity measures for all 4- the formant used segments of the modified input speech signal (CH4FS), adder 93 is the accumulator of the average least measures of proximity for all 5-formant used segments of the modified input speech signal (CH5FS), three multiplication blocks 94, 95, 96, respectively BU ₁₅ , BU ₁₆ , BU ₁₇ , and the adder 97 (C ₆ ). The input of the BZSS 82 is connected to the output of the BOPORS 4, and the output through the BUVS 83 is connected to the first input of the BVSMS 84, the second input of which serves the PIC from BOPORS 4 (see figure 1). The output of BVMSS 84 is connected to the inputs OMB3F 85, OMB4F 86 and OMB5F 87. The output OMB3F 85 through BPMB ₁₀ 88, SN3FS 91 and BU ₁₅ 94 is connected to input C ₆ 97, to which OMB4F 76 is also connected via BPMB ₁₁ 89, SN4FS 92 and BU ₁₆ 95 and OMB5F 87 through BPMB ₁₂ 90, SN5FS 93 and BU ₁₇ 96. The second inputs of BU ₁₅ 94, BU ₁₆ 95 and BU ₁₇ 96 are supplied with the values of the weight coefficients W ₆ , W ₇ and W _8, respectively, from ZUVK 35 (see Fig. 3).

Блок 9 определения эталона шума и эталона амплитудно-частотной характеристики (АЧХ) используемого микрофона (БОЭШМ) включает (см. фиг.8) последовательно соединенные блок выделения 98 начала/конца речевого сигнала (ВНКРС), сегментатор 99 речевого сигнала на последовательность сегментов (СРС), блок 100 умножения на взвешивающее окно (БУВО), блок 101 добавления к сигналу в сегменте нулей (БДН), вычислитель 102 преобразования Фурье, блок 103 вычислителя спектра мощности сигнала в сегменте (ВСМ), а также переключатель режима 104 (получение эталона шума / получение эталона АЧХ микрофона), сумматор 105 - накопитель покомпонентного среднего значения последовательности сегментных спектров (СН) и блок 106 формирования эталона АЧХ используемого микрофона (ФЭМ), включающий последовательно соединенные блок 107 умножителя-накопителя (БУН), блок 108 выделения корня n-ой степени из результата работы БУН и делитель 109 (Д) на эталонный средний спектр речевого сигнала (ЭССС), хранящийся в блоке 110 запоминающего устройства. Выход ВСМ 103 соединен с входом переключателя режима 104, первый выход которого подключен к первому входу СН 105, а второй выход - к первому входу ФЭМ 106. Второй выход ВНКРС 98 соединен со вторым входом СН 105 и вторым входом ФЭМ 106, третий вход которого подключен к блоку 110 запоминающего устройства. С выхода СН 105 поступает эталон шума (ЭШ), а с выхода ФЭМ 106 - эталон амплитудно-частотной характеристики микрофона (ЭАЧХ).The unit 9 for determining the noise standard and the standard amplitude-frequency characteristic (AFC) of the microphone used (BOES) includes (see Fig. 8) a series-connected block for separating 98 the beginning / end of the speech signal (VNKRS), the segmentator 99 of the speech signal to a sequence of segments (CPC ), a weighting window multiplication unit (BUVO) 100, a block for adding to a signal in a segment of zeros (BDN), a Fourier transform calculator 102, a block 103 of a signal power spectrum calculator in a segment (BCM), and a mode switch 104 (obtaining a noise standard) / floor value of the microphone AFC standard), adder 105 is a storage device of the component-wise average value of the sequence of segmented spectra (CH) and the block 106 for generating the standard AFC of the used microphone (FEM), which includes series-connected block 107 of the multiplier-accumulator (BUN), block 108 of root allocation n-th the degree of the result of the BUN and the divider 109 (D) on the reference average spectrum of the speech signal (ESSS) stored in the block 110 of the storage device. The output of the BCM 103 is connected to the input of the mode switch 104, the first output of which is connected to the first input of the CH 105, and the second output is connected to the first input of the FEM 106. The second output of VNKRS 98 is connected to the second input of the CH 105 and the second input of the FEM 106, the third input of which is connected to a storage unit 110. From the output of CH 105, a noise standard (ES) is received, and from the output of the FEM 106, a standard of the amplitude-frequency characteristic of the microphone (AEC) is received.

Блок 25 определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона (БОФКК) (см. фиг.9) включает первый блок 111 покомпонентного умножения (БПУ₁), второй блок 112 покомпонентного умножения (БПУ₂), третий блок 113 покомпонентного умножения (БПУ₃), которые последовательно соединены соответственно с сумматорами С₇ 114, C₈ 115 и С₉ 116, последовательно подключенные блок 117 умножения (БУ₁₈), блок 118 извлечения квадратного корня (БИКК) и делитель 119 (Д₁). Выход С₇ 114 соединен с первым входом Д₁ 119, а выходы C₈ 115 и С₉ 116 подключены ко входам БУ₁₈ 117, выход которого через БИКК 118 соединен с вторым входом Д₁ 119.Block 25 determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and reference (BOFK) (see Fig. 9) includes the first block 111 component-wise multiplication (BPU ₁ ), the second block 112 component-wise multiplication (BPU ₂ ), the third block 113 component-wise multiplication (BPU ₃ ), which are connected in series with the adders C ₇ 114, C ₈ 115 and C ₉ 116 respectively, serially connected multiplication block 117 (BU ₁₈ ), square root block (BIKK) 118 and divider 119 (D ₁ ) . The output C ₇ 114 is connected to the first input D ₁ 119, and the outputs C ₈ 115 and C ₉ 116 are connected to the inputs of the BU ₁₈ 117, the output of which through BIKK 118 is connected to the second input D ₁ 119.

Распознавание диктора по заявляемому способу иллюстрируется на примере работы устройства, реализующего заявляемый способ. Ссылки на блоки устройства даны по фиг.1-11.Recognition of the speaker by the claimed method is illustrated by the example of a device that implements the inventive method. References to the blocks of the device are given in figure 1-11.

Устройство распознавания дикторов может работать в различных режимах: режиме обучения и режиме распознавания. Кроме того, заявляемое устройство может быть использовано для настройки технических параметров.The speaker recognition device can work in various modes: learning mode and recognition mode. In addition, the inventive device can be used to configure technical parameters.

В режиме обучения речевой сигнал голосовых паролей, произносимых заранее известными дикторами, подают на вход устройства, например, с микрофона 1 (или выхода магнитофона) через АЦП 2 и коммутатор 3 на вход БОПОРС 4. Коммутатор 3 переключает устройство в режим работы или обучения (верхняя позиция на фиг.1), или в режим настройки технических параметров (нижняя позиция на фиг.1). В качестве голосовых паролей используют отдельные слова или фразы. Из речевого сигнала произнесенных паролей в БОПОРС 4 формируют параметрические описания, запоминаемые в ЗУЭД 8 в качестве эталонов. При этом коммутатор 5 замыкает вход на второй выход (нижний на фиг.1). На каждое произнесение каждого голосового пароля каждого известного диктора запоминают свой эталон. Число заранее известных дикторов может быть любым: от одного и более. Число использованных голосовых паролей также может быть любым, большим единицы. Для каждого голосового пароля может выполняться несколько его различных произнесений одним и тем же диктором, для каждого из которых формируют отдельный эталон. Эталоны речевого сигнала произнесения голосового пароля запоминают и могут хранить совместно с идентифицирующей данного диктора информацией (например, его именем или PIN-кодом).In the training mode, the voice signal of voice passwords pronounced by previously known speakers is fed to the input of the device, for example, from microphone 1 (or the output of the tape recorder) through the ADC 2 and switch 3 to the input of the BOPORS 4. Switch 3 switches the device to the operating or learning mode (upper position in figure 1), or in the mode of setting technical parameters (lower position in figure 1). As voice passwords, separate words or phrases are used. Parametric descriptions are formed from the speech signal of the spoken passwords in BOPORS 4, which are stored in ZUED 8 as standards. In this case, the switch 5 closes the input to the second output (lower in figure 1). Each pronouncement of each voice password of each well-known speaker remembers his own standard. The number of well-known speakers can be any: from one or more. The number of voice passwords used can also be any large unit. For each voice password, several different pronunciations of it can be performed by the same speaker, for each of which a separate standard is formed. The speech password pronunciation standards are memorized and can be stored together with information identifying the speaker (for example, his name or PIN).

Сохраненные эталоны используют для сравнения с тестом - входным речевым сигналом неизвестного, подлежащего распознаванию диктора. Выбор эталонов для сравнения производят блоком УВЭ 12 или только для заявляемого диктора (режим верификации), или для всех заранее известных дикторов (режим идентификации). В режиме верификации неизвестный диктор через блок УВИД 11 вводит идентификатор того диктора, тождество с которым он хочет подтвердить своим голосовым паролем. Далее блок УВЭ 12 в этом случае выбирает для сравнения только эталон того диктора, тождество с которым заявил неизвестный диктор.The saved standards are used for comparison with the test - the input speech signal of an unknown speaker to be recognized. The selection of standards for comparison is carried out by the UVE block 12 or only for the claimed speaker (verification mode), or for all previously known speakers (identification mode). In verification mode, an unknown speaker through the UVID block 11 enters the identifier of that speaker, the identity with which he wants to confirm with his voice password. Further, the UVE block 12 in this case selects for comparison only the standard of that speaker, the identity of which was announced by an unknown speaker.

С целью повышения надежности распознавания для каждого голосового пароля предлагается иметь несколько эталонов, получаемых при разных произнесениях данного голосового пароля.In order to increase the reliability of recognition for each voice password, it is proposed to have several standards obtained with different pronunciations of this voice password.

Дело в том, что ошибки в распознавании дикторов для произвольного метода распознавания отчасти вызваны тем, что речь любого диктора изменяется от произнесения к произнесению даже для одного и того же голосового пароля. Такая естественная вариативность речи велика при длительном перерыве между произнесениями (несколько дней и более), однако мала при быстром повторении одного и того же голосового пароля во время одной сессии обучения. С целью увеличения вариативности речевого сигнала в разных эталонах одного и того же голосового пароля при их запоминании в рамках одной сессии обучения перед повторным произнесением одного и того же голосового пароля известный диктор произносит речевое высказывание с измененным характером артикуляции. Например, очень высоким или очень низким голосом с имитацией состояния страха или угрозы и т.д. Вид изменения характера артикуляции не существенен. Необходимо только лишь функционирование органов артикуляции речи в ненормативном режиме с ненормативным мышечным усилием и ненормативной конфигурацией вокального тракта. После такого высказывания, как показывает практика, вариативность произнесения пароля уже нормальным голосом возрастает, что приводит к большей вариативности речевого сигнала эталонов и к уменьшению ошибки распознавания диктора при использовании нескольких, вышеуказанным образом полученных эталонов. Например, при применении трех эталонов одного голосового пароля с их произнесением по вышеприведенному методу ошибка пропуска своего диктора уменьшается на 10% по сравнению с использованием обычного повторного произнесения голосовых паролей при получении эталонов.The fact is that errors in speaker recognition for an arbitrary recognition method are partly due to the fact that the speech of any speaker varies from pronunciation to pronunciation even for the same voice password. This natural variation in speech is great with a long break between pronunciations (several days or more), but it is small with a quick repetition of the same voice password during one training session. In order to increase the variability of the speech signal in different standards of the same voice password when they are memorized within the same training session, before the pronouncing of the same voice password again, a well-known speaker makes a speech statement with a changed nature of articulation. For example, in a very high or very low voice imitating a state of fear or threat, etc. The type of change in the nature of articulation is not significant. It is only necessary the functioning of the organs of articulation of speech in an abnormal mode with abnormal muscle effort and abnormal configuration of the vocal tract. After such an utterance, as practice shows, the variability of pronouncing the password in a normal voice increases, which leads to greater variability of the speech signal of the standards and to a decrease in speaker recognition error when using several of the above-obtained standards. For example, when applying three patterns of one voice password with their pronunciation according to the above method, the error of skipping your speaker decreases by 10% compared to using the usual repeated pronunciation of voice passwords when receiving patterns.

В режиме распознавания согласно предлагаемому изобретению входной речевой сигнал через блоки 1, 2, 3 в цифровой форме поступает в БОПОРС 4, формирующий его параметрическое описание. Для речевого сигнала в блок ВНКРС 13 (фиг.2) определяют начало и конец высказывания и временные отметки передают в блок ФПОРС 23. Сам способ определения начала и конца высказывания особой роли не играет и может быть таким, как, например, описано в L.F. Lamel, L.R. Rabiner, A.E. Rosenberg and J.С. Wilpon "An Improved Endpoint Detector for Isolated Word Recognition". - IEEE transactions on Acoustics, Speech and Signal Processing. - Vol. ASSP-29, № 4, pp. 777-785, Aug. 1981 или в J.С. Wilpon, L.F. Lamel, L.R. Rabiner and T. Martin "An Improved Word-Detection Algorithm for Telephone-Quality Speech Incorporating Both Semantic Constraints". - AT&T Bell Laboratories Technical Journal, Vol. 63, № 3, pp.479-497, Mar. 1984. Далее речевой сигнал в сегментаторе речевого сигнала 14 разбивают на последовательность сегментов- отрезков сигнала, следующих друг за другом через фиксированный интервал времени. Длина сегмента особой роли не играет в пределах 20-50 мс со сдвигом от сегмента к сегменту на 2-20 мс. Стандартная длина 256 отсчетов. Далее сигнал на каждом сегменте в БУФО 15 умножают на взвешивающее окно, например окно Хэмминга, с длиной, равной длине сегмента. Далее в БДН 16 с целью увеличения точности вычислений спектра к сигналу добавляют нулевую последовательность, увеличивающую общую длительность сигнала, например, в 2 или 4 раза. Далее в блоке ВПФ 17 производят вычисление преобразования Фурье полученной последовательности значений для всех ее отсчетов. Например, это может быть быстрое преобразование Фурье на 512-1024 отсчетов. Затем в блоке ВСМ 18 вычисляют спектр мощности полученного амплитудного спектра.In the recognition mode according to the invention, the input speech signal through blocks 1, 2, 3 in digital form enters the BOPORS 4, forming its parametric description. For a speech signal, the beginning and the end of the utterance are determined in the VNCCR block 13 (Fig. 2) and the time stamps are transmitted to the FPOPS 23 block. The method of determining the beginning and end of the utterance does not play a special role and can be as, for example, described in L.F. Lamel, L.R. Rabiner, A.E. Rosenberg and J.C. Wilpon "An Improved Endpoint Detector for Isolated Word Recognition". - IEEE transactions on Acoustics, Speech and Signal Processing. - Vol. ASSP-29, No. 4, pp. 777-785, Aug. 1981 or J.C. Wilpon, L.F. Lamel, L.R. Rabiner and T. Martin "An Improved Word-Detection Algorithm for Telephone-Quality Speech Incorporating Both Semantic Constraints". - AT&T Bell Laboratories Technical Journal, Vol. 63, No. 3, pp. 479-497, Mar. 1984. Further, the speech signal in the speech signal segmentator 14 is divided into a sequence of signal segments-segments following each other at a fixed time interval. The segment length does not play a special role within 20-50 ms with a shift from segment to segment by 2-20 ms. The standard length is 256 samples. Next, the signal on each segment in BFFS 15 is multiplied by a weighting window, for example a Hamming window, with a length equal to the length of the segment. Further, in BDN 16, in order to increase the accuracy of spectrum calculations, a zero sequence is added to the signal, increasing the total signal duration, for example, by 2 or 4 times. Next, in the block VPF 17 calculate the Fourier transform of the obtained sequence of values for all its samples. For example, it could be a fast Fourier transform of 512-1024 samples. Then, in the BCM block 18, the power spectrum of the obtained amplitude spectrum is calculated.

Затем в полной версии устройства сигнал поступает на блок УСЭМ 20, где покомпонентно делится на эталон АЧХ используемого микрофона, который был получен в режиме настройки технических характеристик и был запомнен в ЗУЭШМ 10 запоминающего устройства. Такое деление позволяет сделать параметрическое описание обрабатываемого речевого сигнала относительно независимым от АЧХ используемого микрофона и тем самым повысить надежность распознавания.Then, in the full version of the device, the signal enters the USEM 20 unit, where it is divided into component-wise standard frequency response of the microphone used, which was obtained in the settings mode of technical characteristics and was stored in the memory 10 of the storage device. This division allows you to make a parametric description of the processed speech signal is relatively independent of the frequency response of the microphone used and thereby increase the reliability of recognition.

Далее сигнал поступает на компаратор 19. В нем последовательность поступающих сегментов разбивают на две части: на используемые и не используемые для определения параметрического описания сегменты. На компаратор из ЗУЭШМ 10 поступают эталон шума и значение порога шума. Для каждого сегмента в компараторе вычисляют покомпонентную разность спектра мощности сигнала на данном сегменте и эталона шума ЭШ. Далее определяется средняя энергия полученной разности, которую сравнивают с ПШ. Те сегменты, для которых ПШ превышен, считаются “используемыми” и поступают для дальнейшего построения параметрического описания речевого сигнала. Остальные сегменты исключают из дальнейшего использования.Then the signal goes to the comparator 19. In it, the sequence of incoming segments is divided into two parts: segments used and not used to determine the parametric description. A noise standard and a noise threshold value are supplied to the comparator from ZUESHM 10. For each segment in the comparator, the component-wise difference of the signal power spectrum in this segment and the ES noise standard are calculated. Next, the average energy of the obtained difference is determined, which is compared with the PN. Those segments for which the PN is exceeded are considered “used” and are used to further construct a parametric description of the speech signal. The remaining segments are excluded from further use.

Затем для всех используемых сегментов входного речевого сигнала или эталона строят параметрическое описание соответственно теста или эталона, состоящее из двух частей. Первую часть получают в блоке ОФВ 22, она состоит из набора векторов формантных частот, определяемых на используемых сегментах теста или эталона.Then, for all used segments of the input speech signal or standard, a parametric description of a test or standard, consisting of two parts, is constructed. The first part is obtained in the FEV block 22, it consists of a set of vectors of the formant frequencies, determined on the used segments of the test or standard.

Формантная частота речевого сигнала на сегменте анализа является устоявшимся понятием в области обработки речевого сигнала (см., например, Г. Фант. - Акустическая теория речеобразования. - М.: Наука, 1964, стр. 32) и соответствует резонансному пику, наблюдающемуся в спектре мощности речевого звука. Число определенных для данного сегмента частот формант может различаться от 1 до 6-7 в полосе частот речевого сигнала. Таким образом, параметрический вектор, описывающий речевой сигнал на сегменте анализа, согласно заявляемому изобретению, может отличаться по числу его компонент. Для получения параметрических описаний, использованных до сих пор в распознавании дикторов, такие описания не применялись (см., например, D. O'Shaughnessy. - Speech Communications. Human and Machine. - New York: IEEE Press, 2000.) Число компонент характеризующего речь вектора признаков параметрического описания для сегмента речевого сигнала обычно используют одно и то же для всех сегментов. В заявляемом способе это число может различаться - число компонент вектора формантных частот (ВФЧ) может быть различным, обычно от 3 до 5 (или 6). Для стабильности оценок параметров речи предлагается считать используемыми сегментами те сегменты входного речевого сигнала или эталона, на которых число определенных формантных частот 3 и более. Сам прием выделения формант для данного способа распознавания дикторов не существенен. Один из приемов выделения формантных частот, применявшийся при реализации и оценке заявляемого способа, описан ниже. Таким образом, первую часть параметрического описания входного речевого сигнала или эталона составляет набор векторов частот формант на используемых сегментах соответственно входного речевого сигнала или эталона. Каждый вектор состоит из Q=3 и более (до 6-8) частот формант.The formant frequency of the speech signal in the analysis segment is a well-established concept in the field of speech signal processing (see, for example, G. Fant. - Acoustic theory of speech formation. - M .: Nauka, 1964, p. 32) and corresponds to the resonance peak observed in the spectrum power of speech sound. The number of formants defined for a given segment of frequencies can vary from 1 to 6-7 in the frequency band of a speech signal. Thus, the parametric vector describing the speech signal on the analysis segment, according to the claimed invention, may differ in the number of its components. To obtain the parametric descriptions used so far in speaker recognition, such descriptions were not used (see, for example, D. O'Shaughnessy. - Speech Communications. Human and Machine. - New York: IEEE Press, 2000.) The number of components characterizing the speech of the feature vector of the parametric description for the segment of the speech signal usually use the same thing for all segments. In the inventive method, this number may vary - the number of components of the vector of the formant frequencies (HPF) may be different, usually from 3 to 5 (or 6). For stability of estimates of speech parameters, it is proposed to consider as used segments those segments of the input speech signal or reference on which the number of certain formant frequencies is 3 or more. The technique of isolating formants for this method of speaker recognition is not significant. One of the methods for isolating the formant frequencies that was used in the implementation and evaluation of the proposed method is described below. Thus, the first part of the parametric description of the input speech signal or pattern is a set of formant frequency vectors on the segments used, respectively, of the input speech signal or pattern. Each vector consists of Q = 3 and more (up to 6-8) formant frequencies.

Вторую часть параметрического описания входного речевого сигнала или эталона образуют статистические характеристики спектра мощности речевого сигнала, полученные на совокупности используемых сегментов соответственно теста или эталона в C₁ 21. С точки зрения статистики совокупность векторов спектра мощности на всех используемых сегментах речевого сигнала можно рассматривать как многомерную случайную величину, и для описания ее статистических свойств можно использовать общепринятые статистические характеристики, вычисляемые по стандартным общеизвестным процедурам: функцию распределения, математическое ожидание, дисперсию, статистические моменты, характеристические функции (см., например, В.Н. Лавренчик. - Постановка физического эксперимента и статистическая обработка его результатов. - М.: Энергоатомиздат, 1986, глава 2 “Числовые характеристики случайных величин”, стр. 54-76).The second part of the parametric description of the input speech signal or standard is formed by the statistical characteristics of the power spectrum of the speech signal obtained on the set of used segments of the test or standard, respectively, in C ₁ 21. From the point of view of statistics, the set of vectors of the power spectrum on all used segments of the speech signal can be considered as multidimensional random value, and to describe its statistical properties, one can use generally accepted statistical characteristics calculated according to standard well-known procedures: distribution function, mathematical expectation, variance, statistical moments, characteristic functions (see, for example, VN Lavrenchik. - Setting up a physical experiment and statistical processing of its results. - M .: Energoatomizdat, 1986, chapter 2 “ Numerical characteristics of random variables ”, pp. 54-76).

Из всей совокупности возможных к применению статистических характеристик спектра мощности входного речевого сигнала или эталона в качестве такой характеристики предлагается использовать, в частности, первый статистический момент спектра мощности (см., например, В.Н. Лавренчик. - Постановка физического эксперимента и статистическая обработка его результатов. - М.: Энергоатомиздат, 1986, глава 2 “Числовые характеристики случайных величин”, стр. 67). Пусть Xi - компоненты спектра мощности речевого сигнала, i=1,..., N. Тогда его первый спектральный момент SM1 находится по формулеOf the totality of the statistical characteristics of the power spectrum of the input speech signal or reference that can be applied, it is proposed to use, in particular, the first statistical moment of the power spectrum (see, for example, V.N. Lavrenchik. - Setting up a physical experiment and its statistical processing as such a characteristic) Results - M .: Energoatomizdat, 1986, Chapter 2, “Numerical Characteristics of Random Variables,” p. 67). Let Xi be the components of the power spectrum of the speech signal, i = 1, ..., N. Then its first spectral moment SM1 is found by the formula

Как показывают практические измерения, применение только одной данной статистической характеристики речевого сигнала совместно с ВФЧ позволило получить достаточно высокий и стабильный процент распознавания дикторов на представительном речевом материале. Отличие заявляемого способа распознавания дикторов от других известных способов состоит, в частности, в том, что в качестве параметрического описания сравниваемых входного речевого сигнала и эталона используют и разноразмерные признаки отдельных сегментов (формантные векторы) и признаки всего произнесения пароля в целом (статистические характеристики). Использование столь разнородных описаний речевого сигнала позволяет учесть вариативность речевых параметров за счет разнообразных причин и добиться высокой надежности распознавания дикторов.As practical measurements show, the use of only one given statistical characteristic of the speech signal together with the HPF allowed to obtain a sufficiently high and stable percentage of speaker recognition on representative speech material. The difference between the proposed method for recognizing speakers from other known methods consists, in particular, in that, as a parametric description of the compared input speech signal and reference, different-sized signs of individual segments (formant vectors) and signs of the entire pronunciation of the password as a whole (statistical characteristics) are used. The use of such heterogeneous descriptions of the speech signal allows one to take into account the variability of speech parameters due to various reasons and to achieve high reliability of speaker recognition.

В блоке ФПОРС 23 происходит формирование параметрического описания речевого сигнала, состоящего из статистических характеристик, получаемых в C₁ 21, вычисление которых для данного высказывания прекращается согласно сигналу из блока ВНКРС 13 и из набора ВФЧ для используемых сегментов на протяжении высказывания от его начала до конца.In the block FPORS 23, a parametric description of the speech signal is formed, which consists of statistical characteristics obtained in C ₁ 21, the calculation of which for this statement is stopped according to the signal from the VNKRS block 13 and from the set of HPFs for the segments used throughout the statement from its beginning to the end.

В режиме распознавания коммутатор 5 замыкает вход на первый выход (верхний на фиг.1). БСПО 6 формирует композитный результат сравнения входного речевого сигнала неизвестного диктора и каждого поступающего из ЗУЭД 8 эталона, сравнивая между собой параметрические описания входного речевого сигнала неизвестного диктора и речевого сигнала сравниваемого эталона. Сравнение параметрических описаний выполняют раздельно для набора формантных векторов и для статистических характеристик. Наборы формантных векторов сравнивают в БОФр₁ 24, БОФР₂ 29, БОФР₃ 31, БОФР₄ 32 следующим образом. Сначала сравнивают между собой ВФЧ всех используемых сегментов сравниваемых речевых образов. Для определения степени сходства между собой ВФЧ сравниваемых сегментов речевого сигнала вводится мера близости, которая задается в виде взвешенной суммы модулей разности частот соответствующих по номеру частот формант:In recognition mode, the switch 5 closes the input to the first output (top in figure 1). BSPO 6 generates a composite result of comparing the input speech signal of an unknown speaker and each reference coming from the ZUED 8, comparing the parametric descriptions of the input speech signal of an unknown speaker and the speech signal of the compared reference. Comparison of parametric descriptions is performed separately for a set of formant vectors and for statistical characteristics. Sets of formant vectors are compared in BOFR ₁ 24, BOFR ₂ 29, BOFR ₃ 31, BOFR ₄ 32 as follows. First, the HPF of all used segments of the compared speech images are compared. To determine the degree of similarity between the HPFs of the compared segments of the speech signal, a proximity measure is introduced, which is set in the form of a weighted sum of modules of the frequency difference corresponding to the formant frequency number:

где ρ (Si,Tj) - мера близости двух сравниваемых сегментов речевого сигнала Si и Tj,where ρ (Si, Tj) is a measure of the proximity of two compared segments of the speech signal Si and Tj,

Wk - весовые коэффициенты для оптимизации вклада каждой формантной частоты в меру близости,Wk - weighting coefficients for optimizing the contribution of each formant frequency to a measure of proximity,

Fk(Si) и Fk(Tj) - соответственно формантные частоты для к-ой компоненты векторов формантных частот первого сравниваемого сегмента Si и второго сравниваемого сегмента Tj.Fk (Si) and Fk (Tj) are respectively the formant frequencies for the k-th component of the formant frequency vectors of the first compared segment Si and the second compared segment Tj.

Число частот формант в сравниваемых сегментах - М - должно в них совпадать. Для векторов формантных частот с разным числом компонент мера близости не определена, такие сегменты в заявляемом методе считаются несопоставимыми. М должно быть равно 3 и более.The number of formant frequencies in the compared segments — M — must coincide in them. For vectors of formant frequencies with different numbers of components, the measure of proximity is not defined, such segments in the inventive method are considered incomparable. M must be equal to 3 or more.

Для сравнения входного речевого сигнала и эталона согласно в БОФР₁ 24 для каждого используемого сегмента входного речевого сигнала по формуле (2) вычисляют меры близости с каждым используемым сегментом выбранного для сравнения эталона и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСС 36 задает текущий сегмент входного речевого сигнала, БВСЭ 37 последовательно перебирает используемые сегменты сравниваемого эталона. В зависимости от числа формант в заданном сегменте входного речевого сигнала в блоках 38, 39 или 40 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ₁ 41, БПМБ₂ 42 или БПМБ₃ 43 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФЭ 44, СН4ФЭ 45 или СН5ФЭ 46 суммируются и делятся на число соответственно 3-, 4- или 5-формантных используемых сегментов входного речевого сигнала. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты соответственно в БУ₃ 47, БУ₄ 48, БУ₅ 49 умножаются на весовые коэффициенты и суммируются в С₃ 50, давая в итоге на выходе БОФР 24 d(S,Tm) - формантное расстояние от тестового входного речевого сигнала S до эталона Тm. Здесь индекс m означает, что выбран для сравнения конкретный m-й эталон из всего набора хранящихся эталонов.To compare the input speech signal and the reference in accordance with BOFR ₁ 24 for each used segment of the input speech signal, the proximity measures are calculated with each used segment of the selected reference for comparison and the least modulo is searched among all the calculated proximity measures. BZSS 36 sets the current segment of the input speech signal, BVSE 37 sequentially iterates over the used segments of the compared standard. Depending on the number of formants in a given segment of the input speech signal in blocks 38, 39 or 40, a measure of proximity between the given and selected segments for comparison is determined. Further, in BPMB ₁ 41, BPMB ₂ 42 or BPMB ₃ 43, respectively, the smallest measure of proximity to a given segment is determined among all calculated proximity measures. All the least proximity measures found in this way, respectively, in the blocks SN3FE 44, CH4FE 45, or SN5FE 46 are summed up and divided by the number of 3-, 4-, or 5-formant segments of the input speech signal used, respectively. Further, the results found for 3, 4, and 5 formants in the RFF, respectively, in BU ₃ 47, BU ₄ 48, BU ₅ 49 are multiplied by weighting factors and summed in C ₃ 50, giving the output of the BOFR 24 d (S, Tm) - formant distance from the test input speech signal S to the standard Tm. Here, the index m means that the particular mth standard from the entire set of stored standards is selected for comparison.

Кроме формантного расстояния d(S,Тm) от входного речевого сигнала S до эталона Тm можно в БОФР₂ 29 определять d(Tm,S) - расстояние от эталона Тm до входного речевого сигнала S. Для его вычисления для каждого используемого сегмента выбранного для сравнения эталона по формуле (2) вычисляются меры близости с каждым используемым сегментом входного речевого сигнала и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСЭ 51 задает текущий сегмент сравниваемого эталона, БВСС 52 последовательно перебирает используемые сегменты входного речевого сигнала. В зависимости от числа формант в заданном сегменте сравниваемого эталона в блоках ОМБЗФ 53, ОМБ4Ф 54 или ОМБ5Ф 55 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ₄ 56, БПМБ₅ 57 или БПМБ₆ 58 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФС 59, СН4ФС 60 или СН5ФС 61 суммируются и делятся на число используемых соответственно 3-, 4- или 5-формантных сегментов эталона. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты умножаются в БУ₇ 62, БУ₈ 63, БУ₉ 64 на весовые коэффициенты и суммируются в С₄ 65, давая в итоге на выходе БОФР₂ 29 d(Tm,S) - формантное расстояние от эталона Тm до тестового входного речевого сигнала S. Здесь индекс m означает, что выбран для сравнения конкретный m-й эталон из всего набора хранящихся эталонов. Целесообразность использования такого расстояния связана с тем, что вышеописанным образом определенное расстояние между тестовым входным речевым сигналом и эталоном не обладает свойством математической симметричности для случая, когда статистика распределения формантных частот в сравниваемых произнесениях существенно различается. Для улучшения надежности распознавания и “симметризации” расстояния между тестовым входным речевым сигналом и эталоном и предлагается использовать в композитном результате сравнения тестового входного речевого сигнала и эталона также расстояние от эталона до входного речевого сигнала и от входного речевого сигнала до эталона.In addition to the formant distance d (S, Тm) from the input speech signal S to the standard Тm, it is possible to determine d (Tm, S) - the distance from the standard Тm to the input speech signal S. in BOFR ₂ 29. To calculate it for each used segment, selected for comparison the standard by formula (2), proximity measures are calculated with each used segment of the input speech signal, and among all the counted proximity measures, the least modulo is searched. BZSE 51 sets the current segment of the compared standard, BVSS 52 sequentially iterates over the used segments of the input speech signal. Depending on the number of formants in a given segment of the compared standard in blocks OMBZF 53, OMB4F 54 or OMB5F 55, a measure of proximity between the specified and selected for comparison segments is determined. Next, in BPMB ₄ 56, BPMB ₅ 57, or BPMB ₆ 58, respectively, the smallest measure of proximity to a given segment is determined among all calculated proximity measures. All the least closeness measures found in this way, respectively, in the blocks CH3FS 59, CH4FS 60 or CH5FS 61 are summed up and divided by the number of used 3-, 4- or 5-formant segments of the standard, respectively. Further, the results found for 3, 4, and 5 formants in the HFF are multiplied by results in BU ₇ 62, BU ₈ 63, BU ₉ 64 by weight coefficients and summed into C ₄ 65, giving the output of the BOFR ₂ 29 d (Tm, S) - the formant distance from the standard Тm to the test input speech signal S. Here, the index m means that a specific m-th standard is selected for comparison from the entire set of stored standards. The expediency of using such a distance is due to the fact that, in the manner described above, a certain distance between the test input speech signal and the reference does not have the property of mathematical symmetry for the case when the distribution statistics of formant frequencies in the compared pronunciations significantly differs. To improve the reliability of recognition and “symmetrization” of the distance between the test input speech signal and the standard, it is also proposed to use the distance from the reference to the input speech signal and from the input speech signal to the reference in the composite result of comparing the test input speech signal and the standard.

Из композитного результата сравнения кроме d(S,Tm) и d(Tm,S) можно вычитать еще два члена: d(S,S) и d(Tm,Tm) - форматное расстояние от входного речевого сигнала до самого себя и формантное расстояние от сравниваемого эталона Tm до самого себя, то есть эталона Тm. Вычисление этих расстояний со знаком “минус” (то есть инвертированных) производится соответственно БОФР₃ 31 и БОФР₄ 32. При определении d(Tm,Tm) для каждого используемого сегмента выбранного для сравнения эталона по формуле (2) вычисляются меры близости с каждым используемым сегментом этого же эталона, кроме того, сегмента, который в данный момент уже выбран, и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСЭ 66 задает текущий сегмент сравниваемого эталона, БУВС 67 модифицирует эталон, удаляя из него уже заданный сегмент, БВСМЭ 68 последовательно перебирает используемые сегменты эталона. В зависимости от числа формант в заданном сегменте эталона в блоках ОМБ3Ф 69, ОМБ4Ф 70 или ОМБ5Ф 71 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ₇ 72, БПМБ₈ 73 или БПМБ₉ 74 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФЭ 75, СН4ФЭ 76 или СН5ФЭ 77 суммируются и делятся на число соответственно 3-, 4- или 5-формантных используемых сегментов эталона. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты соответственно в БУ₁₂ 78, БУ₁₃ 79 и БУ₁₄ 80 умножаются на -1 и весовые коэффициенты и суммируются в C₅ 81, давая в итоге на выходе БОФР₃ 31 d(Tm,Tm) - инвертированное формантное расстояние от эталона Tm до эталона Тm. Далее оно умножается на -1 и поступает на умножитель БУ₁₀ 33.Apart from d (S, Tm) and d (Tm, S), two more terms can be subtracted from the composite comparison result: d (S, S) and d (Tm, Tm) —the formatted distance from the input speech signal to itself and the formant distance from the reference standard Tm to itself, that is, the standard Tm. Calculation of these distances with a minus sign (that is, inverted) is carried out respectively by BOFR ₃ 31 and BOFR ₄ 32. When determining d (Tm, Tm) for each used segment of the standard selected for comparison by formula (2), proximity measures with each used are calculated the segment of the same standard, in addition, the segment that is currently selected, and among all the counted proximity measures, the least modulo is searched. BZSE 66 sets the current segment of the compared standard, BUVS 67 modifies the standard, removing the already defined segment from it, BVSME 68 sequentially iterates over the used segments of the standard. Depending on the number of formants in a given segment of the standard in blocks OMB3F 69, OMB4F 70 or OMB5F 71, a measure of proximity between the specified and selected for comparison segments is determined. Further, in BPMB ₇ 72, BPMB ₈ 73, or BPMB ₉ 74, respectively, the smallest measure of proximity to a given segment is determined among all calculated proximity measures. All the least proximity measures found in this way, respectively, in the blocks CH3FE 75, CH4FE 76, or CH5FE 77 are summed up and divided by the number of 3-, 4-, or 5-formant reference segments used, respectively. Further, the results found for 3, 4, and 5 formants in the RFF, respectively, in BU ₁₂ 78, BU ₁₃ 79, and BU ₁₄ 80 are multiplied by -1 and weight coefficients and summed in C ₅ 81, resulting in the output of BOFR ₃ 31 d (Tm , Tm) is the inverted formant distance from the standard Tm to the standard Tm. Then it is multiplied by -1 and fed to the multiplier BU ₁₀ 33.

При определении d(S,S) - расстояния от тестового входного сигнала S до самого себя, то есть до входного сигнала S, для каждого используемого сегмента тестового входного сигнала по формуле (2) вычисляются меры близости с каждым используемым сегментом этого входного речевого сигнала, кроме того, сегмента, который в данный момент уже выбран, и среди всех сосчитанных мер близости ищется наименьшая по модулю. БЗСС 82 задает текущий сегмент входного речевого сигнала, БУВС 83 модифицирует этот сигнал, удаляя из него уже заданный сегмент, БВСМС 84 последовательно перебирает используемые сегменты тестового входного речевого сигнала. В зависимости от числа формант в заданном сегменте входного речевого сигнала в блоках ОМБ3Ф 85, ОМБ4Ф 86 или ОМБ5Ф 87 определяется мера близости между заданным и выбранным для сравнения сегментами. Далее в соответственно БПМБ₁₀ 88, БПМБ₁₁ 89 или БПМБ₁₂ 90 определяется наименьшая мера близости к заданному сегменту среди всех вычисленных мер близости. Все найденные таким образом наименьшие меры близости соответственно в блоках СН3ФС 91, СН4ФС 92 или СН5ФС 93 суммируются и делятся на число соответственно 3-, 4- или 5-формантных используемых сегментов входного речевого сигнала. Далее найденные для 3, 4 и 5 формант в ВЧФ результаты соответственно в БУ₁₅ 94, БУ₁₆ 95 и БУ₁₇ 96 умножаются на -1 и весовые коэффициенты и суммируются в С₆ 97, давая в итоге на выходе блока 32 d(S,S) - инвертированное формантное расстояние от входного речевого сигнала S до входного речевого сигнала S. Оба последних расстояния являются оценками степени естественного разброса векторов частот формант для тестового входного речевого сигнала и эталона. Их вычитание (сложение инвертированных расстояний) из композитного результата сравнения входного речевого сигнала и эталона позволяет лучше учесть внутреннюю вариативность речевых параметров и добиться повышения надежности распознавания дикторов, особенно для длительных перерывов между сессиями обучения и распознавания (месяц и более).When determining d (S, S) - the distance from the test input signal S to itself, that is, to the input signal S, for each used segment of the test input signal using formula (2), proximity measures are calculated with each used segment of this input speech signal, in addition, the segment that is currently selected, and among all the counted proximity measures, the least modulo is searched. BZSS 82 sets the current segment of the input speech signal, BUWS 83 modifies this signal, removing the already defined segment from it, BVMSS 84 sequentially iterates over the used segments of the test input speech signal. Depending on the number of formants in a given segment of the input speech signal in blocks ОМБ3Ф 85, ОМБ4Ф 86 or ОМБ5Ф 87, a measure of proximity between a given and selected for comparison segments is determined. Further, in BPMB ₁₀ 88, BPMB ₁₁ 89 or BPMB ₁₂ 90, respectively, the smallest measure of proximity to a given segment is determined among all calculated proximity measures. All the least proximity measures found in this way, respectively, in the blocks CH3FS 91, CH4FS 92, or CH5FS 93 are summed up and divided by the number of 3-, 4-, or 5-formant segments of the input speech signal used, respectively. Further, the results found for 3, 4, and 5 formants in the RFF, respectively, in BU ₁₅ 94, BU ₁₆ 95, and BU ₁₇ 96 are multiplied by -1 and weight coefficients and summed in C ₆ 97, resulting in an output of block 32 d (S, S) is the inverted formant distance from the input speech signal S to the input speech signal S. Both of the latter distances are estimates of the degree of natural spread of the formant frequency vectors for the test input speech signal and reference. Subtracting them (summing the inverted distances) from the composite result of comparing the input speech signal and the standard makes it possible to better take into account the internal variability of speech parameters and to increase the reliability of speaker recognition, especially for long breaks between training and recognition sessions (a month or more).

Кроме формантных расстояний между параметрическими описаниями сравниваемого эталона и входного речевого сигнала БОФКК 25 определяет меру близости между входящими в параметрическое описание статистическими характеристиками спектра мощности входного речевого сигнала и сравниваемого эталона. Для этого вычисляется коэффициент нормированной кросс-корреляции между входящими в параметрическое описание входного речевого сигнала и эталона статистическими характеристиками спектра мощности входного речевого сигнала X_i, i=1,..., L, и эталона Y_i, i=1,..., L. Коэффициент кросс-корреляции ККК получают путем суммирования результатов покомпонентного умножения X_i· Y_i по всем компонентам статистических характеристик и последующего деления этой суммы на квадратный корень из произведения сумм квадратов всех компонент X_i и Y_i:In addition to the formant distances between the parametric descriptions of the compared standard and the input speech signal, BOFKK 25 determines the measure of proximity between the statistical characteristics of the power spectrum of the input speech signal and the compared standard included in the parametric description. For this, the coefficient of normalized cross-correlation between the statistical characteristics of the power spectrum of the input speech signal X _i , i = 1, ..., L, and the standard Y _i , i = 1, ..., included in the parametric description of the input speech signal and the standard is calculated. , L. The KKK cross-correlation coefficient is obtained by summing the results of componentwise multiplication of X _i · Y _i for all components of the statistical characteristics and then dividing this sum by the square root of the product of the sums of squares of all components X _i and Y _i :

БОФКК 25 реализует вычисление коэффициента кросс-корреляции между статистическими характеристиками входного речевого сигнала и эталона согласно формуле (3) через блоки 111-119, как показано на фиг.9.BOFCC 25 implements the calculation of the cross-correlation coefficient between the statistical characteristics of the input speech signal and the standard according to formula (3) through blocks 111-119, as shown in Fig.9.

Композитный результат сравнения входного речевого сигнала и выбранного для сравнения эталона CR(S,Tm) получается из рассмотренных выше формантных расстояний и коэффициента кросс-корреляции в виде взвешенной суммы. Композитный результат выглядит следующим образом:The composite result of comparing the input speech signal and the CR (S, Tm) standard selected for comparison is obtained from the formant distances and the cross-correlation coefficient discussed above in the form of a weighted sum. The composite result is as follows:

В композитный результат сравнения в заявляемом способе обязательно должны входить только первый и последний члены уравнения:The composite result of the comparison in the claimed method must include only the first and last members of the equation:

Дополнительно могут входить первый, второй и пятый члены уравнения (3):Additionally, the first, second, and fifth terms of equation (3) can be included:

Вычисление по формуле (3) обеспечивает наивысшую надежность распознавания дикторов, хотя для ряда приложений и вычислительно более простые выражения (4) и (5) обеспечивают достаточный уровень надежности распознавания дикторов.The calculation by formula (3) provides the highest reliability of speaker recognition, although for a number of applications and computationally simpler expressions (4) and (5) provide a sufficient level of speaker recognition reliability.

Реализуя формулы (3)-(6) в БСПО 6, результаты на выходе БОФР₁ 24, БОФР₂ 29, БОФР₃ 31, БОФР₄ 32, БОФКК 25 умножаются на весовые коэффициенты соответственно в умножителях БУ₁ 26, БУ₆ 30, БУ₁₀ 33, БУ₁₁ 34, БУ₂ 27 и суммируются в С₂ 28, давая в итоге композитный результат сравнения входного речевого сигнала и выбранного для сравнения эталона.Realizing formulas (3) - (6) in BSOF 6, the results at the output of BOFR ₁ 24, BOFR ₂ 29, BOFR ₃ 31, BOFR ₄ 32, BOFKK 25 are multiplied by weighting factors, respectively, in the multipliers BU ₁ 26, BU ₆ 30, BU ₁₀ 33, BU ₁₁ 34, BU ₂ 27 and are summarized in C ₂ 28, resulting in a composite result of comparing the input speech signal and the standard selected for comparison.

При идентификации дикторов входной речевой сигнал теста, то есть произнесения голосового пароля неизвестным, подлежащим распознаванию диктором, подается на вход устройства и последовательно сравнивается с эталонами всех заранее известных дикторов, эталоны которых хранятся в ЗУЭД 8. В процессе сравнения входного речевого сигнала и каждого выбранного для сравнения эталона определяют композитный результат их сравнения в виде скалярного числа. Среди всех композитных результатов сравнения входного речевого сигнала с выбранными эталонами в БПР 7 выбирается наименьший результат, который сравнивается с заранее заданным порогом принятия решения, получаемым в процессе статистической обработки результатов распознавания на обучающей базе данных. Если порог не превышен, то неизвестный диктор считается распознанным как диктор, для эталона которого получился наименьший результат сравнения. В противном случае диктор считается неизвестным.When the speakers are identified, the input test speech signal, that is, the voice password is pronounced by an unknown speaker to be recognized, is fed to the device input and sequentially compared with the standards of all previously known speakers, the standards of which are stored in ZUED 8. In the process of comparing the input speech signal and each one selected for benchmark comparisons determine the composite result of their comparison in the form of a scalar number. Among all the composite results of comparing the input speech signal with the selected standards in BDP 7, the smallest result is selected, which is compared with a predetermined decision threshold obtained during the statistical processing of recognition results on a training database. If the threshold is not exceeded, then the unknown speaker is considered recognized as a speaker, for the standard of which the smallest comparison result was obtained. Otherwise, the announcer is considered unknown.

Выбор порога производится из соображений обеспечения необходимого уровня ошибок первого и второго рода (не распознание тождественного диктора и распознание ложного диктора, как известного). Основной характеристикой системы распознавания считается порог, при котором получается равный уровень ошибок обоего рода. Для заявляемого способа распознавания дикторов на базе данных из 100 различных дикторов при 15 тестовых попытках на каждого диктора на 5 различных голосовых паролях получен результат 1,2% равных ошибок распознавания. Для оценок использовалась общедоступная база голосовых паролей (100 дикторов, 5 паролей, 15 произнесений каждого пароля): ELRA-S0050 Russian speech database (STC), 1998, EUROPEAN LANGUAGE RESOURCES ASSOCIATION, ELRA/ELDA 55-57 rue Brillat Savarin, 75013 PARIS, http://www.icp.grenet.fr/ELRA/home.html.The threshold is selected for reasons of ensuring the necessary level of errors of the first and second kind (not recognition of an identical speaker and recognition of a false speaker, as is known). The main characteristic of the recognition system is the threshold at which an equal level of errors of both kinds is obtained. For the proposed method of speaker recognition based on a database of 100 different speakers with 15 test attempts for each speaker on 5 different voice passwords, the result is 1.2% equal recognition errors. For evaluations, a public voice password database was used (100 speakers, 5 passwords, 15 pronunciations of each password): ELRA-S0050 Russian speech database (STC), 1998, EUROPEAN LANGUAGE RESOURCES ASSOCIATION, ELRA / ELDA 55-57 rue Brillat Savarin, 75013 PARIS, http://www.icp.grenet.fr/ELRA/home.html.

Тестовая версия программы, реализующей заявляемый способ распознавания, доступна на Интернет-сайте заявителя: http://www.speechpro.com.A test version of the program that implements the claimed recognition method is available on the applicant's website: http://www.speechpro.com.

В заявляемом способе распознавания диктора перед сессиями обучения и распознавания можно провести сессию оценки технических характеристик используемого устройства, переключив его в режим настройки технических параметров с помощью коммутатора 3 (фиг.1). Во время работы в этом режиме для получения эталона шума переключают коммутатор 104 (фиг.8) в режим вычисления эталона шума и обеспечивают поступление на вход устройства только сигнала окружающего шума без присутствия полезного сигнала произнесения голосового пароля в течение фиксированного, заранее определенного интервала времени. Длина интервала существенной роли не играет, типично он выбирается в пределах 30-60 секунд. Звуковой сигнал окружающего шума, соответствующий типичной акустической обстановке в месте размещения микрофона, например, может поступать с используемого микрофона 1 на вход БОЭШМ 9. Для этого сигнала в блоке ВНКРС 98 (фиг.8) выделяются моменты начала и конца поступления шума в устройство и временные отметки передаются в С 105. Блок ВНКРС 98 может быть аналогичен блоку ВНКРС 13 в блоке 4 (фиг.2). Далее звуковой сигнал в СРС 99 разбивают на последовательность сегментов - отрезков сигнала, следующих друг за другом через фиксированный интервал времени аналогично СРС 14 блока 4 Далее сигнал на каждом сегменте в БУВО 100 умножается на взвешивающее окно аналогично БУВО 15. Затем аналогично работе БДН 16 в БДН 101 к сигналу добавляется нулевая последовательность. Далее в ВПФ 102 аналогично блоку ВПФ 17 производится вычисление преобразования Фурье полученной последовательности значений для всех ее отсчетов. Затем в ВСМ 103 вычисляется спектр мощности полученного амплитудного спектра. Далее сигнал через коммутатор 104 поступает в блок сумматора-накопителя 105, где производится вычисление среднего спектра мощности по всем сегментам звукового сигнала за время поступления сигнала окружающего шума (между отметками начала и конца звучания шумового сигнала, поступающими из блока 98). Полученный таким образом эталон окружающего шума, представляющий собой оценку среднего спектра окружающего шума, запоминают в ЗУЭШМ 10 и далее используют для отбрасывания части непредставительных сегментов входного речевого сигнала теста и эталона. При этом используемыми сегментами речевого сигнала могут являться только те сегменты, для которых усредненная по компонентам относительная энергия разности их спектра мощности и соответствующих компонент эталона окружающего шума, вычисляемая в К 19 (фиг.2), не превышает заранее заданного порога, например 10%. Таким образом, из рассмотрения исключаются слабые по энергии, не содержащие достоверной информации о дикторе сегменты речевого сигнала. Оптимальный порог отбрасывания сегментов находится экспериментально во время проверки работы способа на большой выборке реальных произнесений голосовых паролей.In the inventive method of speaker recognition before training and recognition sessions, you can conduct a session to evaluate the technical characteristics of the device used, switching it to the setting mode of technical parameters using switch 3 (figure 1). During operation in this mode, to obtain a noise standard, the switch 104 (Fig. 8) is switched to the noise standard calculation mode and provides only the ambient noise signal to the device input without the presence of a useful voice password pronunciation signal for a fixed, predetermined time interval. The length of the interval does not play a significant role, typically it is selected within 30-60 seconds. The sound signal of ambient noise corresponding to a typical acoustic situation at the microphone’s location, for example, can come from the used microphone 1 to the input of the BOESHM 9. For this signal, the moments of the beginning and end of the noise entering the device and time the marks are transferred to C 105. The block VNKRS 98 may be similar to the block VNKRS 13 in block 4 (figure 2). Next, the audio signal in CPC 99 is divided into a sequence of segments - signal segments following each other at a fixed time interval similar to CPC 14 of block 4. Next, the signal on each segment in BUVO 100 is multiplied by a weighting window similar to BUVO 15. Then, similar to the operation of BDN 16 in BDN 101 a zero sequence is added to the signal. Further, in the VPF 102, similarly to the VPF block 17, the Fourier transform of the obtained sequence of values is calculated for all its samples. Then, in the BCM 103, the power spectrum of the obtained amplitude spectrum is calculated. Next, the signal through the switch 104 enters the block of the adder-drive 105, where the average power spectrum is calculated for all segments of the sound signal during the time the ambient noise signal arrives (between the start and end marks of the noise signal coming from block 98). The ambient noise standard thus obtained, which is an estimate of the average spectrum of ambient noise, is stored in the ZEShM 10 and then used to discard part of the non-representative segments of the input speech signal of the test and standard. In this case, the segments of the speech signal used can be only those segments for which the relative energy of the difference between their power spectrum and the corresponding components of the ambient noise standard, calculated in K 19 (figure 2), does not exceed a predetermined threshold, for example, 10%. Thus, weak energy segments that do not contain reliable information about the speaker segments of the speech signal are excluded from consideration. The optimal threshold for dropping segments is experimentally found while checking the operation of the method on a large sample of real pronunciations of voice passwords.

Кроме того, во время работы устройства в режиме настройки технических характеристик может определяться и амплитудно-частотная характеристика (АЧХ) используемого микрофона. Во время работы в этом режиме для получения ЭАЧХ переключают коммутатор 104 (фиг.8) в режим вычисления эталона АЧХ микрофона и обеспечивают поступление на вход устройства речевого сигнала в течение заранее заданного фиксированного интервала времени. Например, заранее известный диктор до начала сессии обучения непрерывно говорит в используемый микрофон 1 минуту. Длина интервала существенной роли не играет, типично он выбирается в пределах 30-90 секунд.In addition, during operation of the device in the setting mode of technical characteristics, the amplitude-frequency characteristic (AFC) of the microphone used can also be determined. During operation in this mode, in order to obtain the frequency response, the switch 104 (Fig. 8) is switched to the calculation mode of the microphone frequency response standard and the speech signal is received at the device input for a predetermined fixed time interval. For example, a well-known speaker announces continuously 1 minute into the microphone in use before the training session begins. The length of the interval does not play a significant role, typically it is selected within 30-90 seconds.

Речевой сигнал, например, может поступать с используемого микрофона 1 на вход БОЭШМ 9. Для этого сигнала в блоке ВНКРС 98 (фиг.8) выделяются моменты начала и конца поступления речевого сигнала в устройство и временные отметки передаются в блок ФЭМ 106. Блок ВНКРС 98 может быть аналогичен блоку ВНКРС 13 в блоке 4 (фиг.2). Далее речевой сигнал в СРС 99 разбивают на последовательность сегментов-отрезков сигнала, следующих друг за другом через фиксированный интервал времени аналогично СРС 14 блока 4. Далее сигнал на каждом сегменте в БУВО 100 умножается на взвешивающее окно аналогично БУВО 15. Затем аналогично работе БДН 16 в БДН 101 к сигналу добавляется нулевая последовательность. Далее в ВПФ 102 аналогично блоку ВПФ 17 производится вычисление преобразования Фурье полученной последовательности значений для всех ее отсчетов. Затем в ВСМ 103 вычисляется спектр мощности полученного амплитудного спектра. Далее сигнал через коммутатор 104 поступает в блок ФЭМ 106. Здесь для каждой компоненты спектра мощности речевого сигнала определяется ее среднегеометрическое значение для всех сегментов сигнала за время его произнесения в рамках данной сессии. Например, для i-ой компоненты N сегментов это значение вычисляется как корень 1/N степени из произведения друг на друга N i-ых компонент каждого сегмента речевого сигнала. БУН 107 производит накопление покомпонентных произведений спектра мощности речевого сигнала на всем его протяжении между метками начала и конца произнесения из блока 98. Далее в блоке 108 из полученных произведений извлекается соответствующий корень (например, путем перехода к логарифму обрабатываемого числа, делением логарифма на N и вычислением экспоненциальной функции от результата). Затем в Д 109 полученное среднегеометрическое значение каждой спектральной компоненты делят на значение соответствующей спектральной компоненты среднего спектра эталонного речевого сигнала, получаемого из ЗУ 110, а получаемые значения запоминают в ЗУЭШМ 10 в виде эталона АЧХ используемого микрофона. Данный средний спектр эталонного речевого сигнала получают путем измерения среднего спектра речи на большом количестве дикторов и при использовании прецизионного измерительного микрофона и хранят в виде фиксированного набора чисел.A speech signal, for example, can come from the microphone 1 used to the input of the BOESHM 9. For this signal, the moments of the beginning and end of the speech signal entering the device are highlighted in the VNKRS 98 block (Fig. 8) and the time stamps are transmitted to the FEM 106 block. may be similar to the block VNKRS 13 in block 4 (figure 2). Next, the speech signal in CPC 99 is divided into a sequence of signal segments-segments following each other at a fixed time interval similar to CPC 14 of block 4. Next, the signal on each segment in BUVO 100 is multiplied by a weighting window similar to BUVO 15. Then, similar to the operation of BDN 16 in BDN 101 a zero sequence is added to the signal. Further, in the VPF 102, similarly to the VPF block 17, the Fourier transform of the obtained sequence of values is calculated for all its samples. Then, in the BCM 103, the power spectrum of the obtained amplitude spectrum is calculated. Next, the signal through the switch 104 enters the FEM block 106. Here, for each component of the power spectrum of the speech signal, its geometric mean value is determined for all segments of the signal during its pronunciation within this session. For example, for the i-th component of N segments, this value is calculated as the root of 1 / N degree from the product of N i-th components of each segment of the speech signal. BUN 107 accumulates component-wise products of the power spectrum of a speech signal along its entire length between the start and end marks of pronunciation from block 98. Then, in block 108, the corresponding root is extracted from the obtained products (for example, by going to the logarithm of the processed number, dividing the logarithm by N, and calculating exponential function of the result). Then, in D 109, the obtained geometric mean value of each spectral component is divided by the value of the corresponding spectral component of the average spectrum of the reference speech signal obtained from the memory 110, and the obtained values are stored in the memory 10 in the form of the frequency response standard of the microphone used. This average spectrum of the reference speech signal is obtained by measuring the average spectrum of speech on a large number of speakers and using a precision measuring microphone and stored in the form of a fixed set of numbers.

Перед сравнением входного речевого сигнала и эталона их параметрические описания можно нормализовать с целью компенсации искажений спектра речевого сигнала, возникающих за счет отличий АЧХ используемого микрофона от идеальной. Для этого после вычисления спектра мощности речевого сигнала на каждом сегменте речевого сигнала теста и эталона каждую компоненту этого спектра в блоке УСЭМ 20 (фиг.2) делят на соответствующую компоненту запомненного в режиме настройки технических характеристик эталона АЧХ используемого микрофона. После такого деления средний спектр нормализованного речевого сигнала уже не содержит информации об АЧХ используемого микрофона и сохраняет информацию только об индивидуальности диктора, что позволяет повысить надежность распознавания диктора. Такое повышение особенно существенно (ошибка распознавания уменьшается на 30-60%) при применении дешевых микрофонов, АЧХ которых имеет сильные отклонения от плоской (типично до 20 дБ в речевом диапазоне частот).Before comparing the input speech signal and the standard, their parametric descriptions can be normalized to compensate for distortions in the spectrum of the speech signal arising due to differences in the frequency response of the microphone used from the ideal one. For this, after calculating the power spectrum of the speech signal on each segment of the test signal and the reference signal, each component of this spectrum in the USEM unit 20 (FIG. 2) is divided into the corresponding component of the microphone used in the tuning mode of the technical characteristics of the frequency response standard. After this division, the average spectrum of the normalized speech signal no longer contains information about the frequency response of the microphone used and only stores information about the speaker’s personality, which improves the reliability of speaker recognition. This increase is especially significant (recognition error decreases by 30-60%) when using cheap microphones whose frequency response has strong deviations from a flat one (typically up to 20 dB in the speech frequency range).

Для выделения вектора форматных частот при реализации заявляемого устройства использовался способ, обеспечивавший достаточно надежное выделение 3-6 формант речевого сигнала для реальных речевых сигналов. Блок-схема его операций приведена на фиг.10 и 11.To select the vector of format frequencies when implementing the inventive device, a method was used that provided sufficiently reliable selection of 3-6 formants of the speech signal for real speech signals. A block diagram of its operations is shown in figures 10 and 11.

Входной сигнал спектра мощности сигнала на сегменте S(i), i=1...N, покомпонентно умножают на нормализующую функцию спектра мощности сегмента G(i):The input signal of the power spectrum of the signal on the segment S (i), i = 1 ... N, is componentwise multiplied by the normalizing function of the power spectrum of the segment G (i):

S*(i)=S(i)· (G(i).S * (i) = S (i) · (G (i).

ВНФ - вектор нормализующей функции получают путем экспериментального подбора и хранят в устройстве в зафиксированном виде.VNF - the vector of the normalizing function is obtained by experimental selection and stored in the device in a fixed form.

Далее сигнал сглаживают, например, с помощью процедуры скользящего среднего с двумя различными интервалами сглаживания N₁ и N₂:Further, the signal is smoothed, for example, using the moving average procedure with two different smoothing intervals N ₁ and N ₂ :

S₁(i)=S*(i)◆ (N₁); S₂(i)=S*(i)◆ (N₂).S ₁ (i) = S * (i) ◆ (N ₁ ); S ₂ (i) = S * (i) ◆ (N ₂ ).

Здесь знак ◆ обозначает процедуру усреднения данных:Here, the ◆ sign indicates the procedure of averaging data:

Существенно то, что N₁ должно быть в несколько раз больше N₂. Например, N₁=40, a N₂=8.It is essential that N ₁ should be several times larger than N ₂ . For example, N ₁ = 40, and N ₂ = 8.

Далее выполняют вычитание результатов усреднения одного из другого: S₃(i)=S₂(i)-S₁(i); i=1...N.Next, subtract the results of averaging one of the other: S ₃ (i) = S ₂ (i) -S ₁ (i); i = 1 ... N.

Затем среди всех полученных значений ищется максимум и запоминается:Then, among all the obtained values, the maximum is searched and stored:

МАХ=mах[S₃(i)]; i=1...N.MAX = max [S ₃ (i)]; i = 1 ... N.

Далее осуществляется поиск первого текущего локального максимума М_с и его расположения Р(М_с) в заданном диапазоне значений текущего индекса i:Next, a search is made for the first current local maximum M _s and its location P (M _s ) in a given range of values of the current index i:

M_c=mах[S₃(i)]; Р(М_с)=аrg mах[S₃(i)]; L<i<H.M _c = max [S ₃ (i)]; P (M _s ) = arg max [S ₃ (i)]; L <i <H.

ГФД - границы формантных диапазонов задают для каждой форманты в виде двух чисел (верхней и нижней границ допустимости). В начале работы алгоритма текущие границы поиска максимума L и Н устанавливают равными ГФД для первой форманты, затем последовательно изменяются на ГФД для других формант.GFD - the boundaries of the formant ranges are set for each formant in the form of two numbers (upper and lower admissibility limits). At the beginning of the algorithm, the current maximum search limits L and H are set equal to GFD for the first formant, then successively changed to GFD for other formants.

Далее выполняется поиск ближайших слева и справа к найденному М_с минимумов M₁ и М₂:Next, a search is made closest to the left and right to the found M _{with the} minima of M ₁ and M ₂ :

M₁=min[S₃(i)]; L<i<P(M_c) М₂=min[S₃(i)]; Р(M_c)<i<H.M ₁ = min [S ₃ (i)]; L <i <P (M _c ) M ₂ = min [S ₃ (i)]; P (M _c ) <i <H.

Затем выполняют проверку: превышают ли разности найденного текущего максимума и соседних минимумов, деленные на глобальный максимум МАХ, заданного порога T₁.Then they check: whether the differences of the found current maximum and neighboring minima are greater than the global maximum of MAX, given the threshold T ₁ .

Если “Нет”, то найденный максимум отбрасывают, левая текущая граница поиска максимумов приравнивается найденному положению текущего максимума, выполняются проверки не превышения левой границы правой границы диапазона и поиск текущего максимума повторяется.If “No”, then the found maximum is discarded, the left current border of the maximum search is equal to the found position of the current maximum, checks are made not to exceed the left border of the right border of the range and the search for the current maximum is repeated.

Если “Да”, то выполняется проверка, превышает ли найденный в данном формантном диапазоне текущий максимум прежнего максимума, ранее найденного в данном формантном диапазоне. Если “Нет”, то поиск нового максимума снова повторяется, а если “Да”, то выполняется проверка, превышает ли разность положения двух последовательно расположенных найденных формантных частот заданный порог. Если “Да”, то положение найденного максимума запоминается как соответствующая компонента вектора частот формант. Если "Нет", то поиск текущего максимума возобновляется.If “Yes”, then a check is performed to see if the current maximum found in the given formant range exceeds the previous maximum previously found in the given formant range. If “No”, then the search for a new maximum is repeated again, and if “Yes”, then a check is made to see if the position difference of the two successively located formant frequencies exceeds a predetermined threshold. If “Yes”, then the position of the found maximum is remembered as the corresponding component of the formant frequency vector. If "No", then the search for the current maximum resumes.

Перед началом нового поиска текущего максимума происходит переприсвоение новых границ поиска часто формант, если диапазон поиска предыдущей форманты уже “пройден”. Кроме того, выполняются проверки: не превышено ли максимальное число формант и были ли в процессе выделения найдены допустимые формантные максимумы вообще.Before starting a new search for the current maximum, reassignment of new search boundaries often takes place for formants, if the search range of the previous formant is already “passed”. In addition, checks are carried out: whether the maximum number of formants is exceeded and whether admissible formant maxima were found at all during the selection process.

ЛитератураLiterature

1. Патент США №6411930, МПК G 10 L 15/08, 25.06. 2002.1. US patent No. 6411930, IPC G 10 L 15/08, 25.06. 2002.

2. Патент США №5995927, МПК G 10 L 9/00, 30.11.1999.2. US patent No. 5995927, IPC G 10 L 9/00, 11/30/1999.

3. Патент РФ №2047912, МПК G 10 L 7/06, опубликован 10.11.1995.3. RF patent No. 2047912, IPC G 10 L 7/06, published November 10, 1995.

4. Патент США №5265191, МПК G 10 L 005/00, опубликован 23.11.1993.4. US patent No. 5265191, IPC G 10 L 005/00, published 11/23/1993.

5. Патент РФ №2161826, МПК G 10 L 17/00, опубликован 10.01.2001.5. RF patent No. 2161826, IPC G 10 L 17/00, published January 10, 2001.

6. Патент США №5339385, МПК G 10 L 9/00, опубликован 16.08.1994.6. US Patent No. 5,339,385, IPC G 10 L 9/00, published August 16, 1994.

7. Патент США №6389392, МПК G 10 L 17/00, опубликован 14.05.2002.7. US patent No. 6389392, IPC G 10 L 17/00, published 14.05.2002.

Claims

1. Способ распознавания диктора, включающий посегментное сравнение входного речевого сигнала диктора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосовых паролей, произносимых заранее известными дикторами, по меньшей мере один из которых представлен по меньшей мере одним упомянутым эталоном, для чего осуществляют сравнение параметрических описаний последовательных сегментов входного речевого сигнала с параметрическими описаниями последовательных сегментов каждого из выбранных для сравнения упомянутых эталонов на основе определенной меры близости между каждой парой сравниваемых сегментов, при этом находят для каждого используемого сегмента входного речевого сигнала ближайший по упомянутой мере близости используемый сегмент каждого выбранного для сравнения упомянутого эталона, формируют композитные результаты сравнения входного речевого сигнала и каждого из выбранных для сравнения упомянутых эталонов, в которые соответственно включают взвешенное среднее по всем используемым сегментам входного речевого сигнала значение мер близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим используемым сегментом каждого выбранного для сравнения упомянутого эталона, и распознают диктора на основе композитных результатов сравнения входного речевого сигнала и упомянутых эталонов, отличающийся тем, что в качестве упомянутых параметрических описаний используют соответственно векторы частот формант сегментов входного речевого сигнала и упомянутых эталонов с не фиксированным от сегмента к сегменту количеством формант, а также статистические характеристики спектра мощности входного речевого сигнала и упомянутых эталонов, вычисляемые для их используемых сегментов, в качестве меры близости пары сравниваемых сегментов используют взвешенный модуль разности векторов формантных частот, для каждого используемого сегмента входного речевого сигнала ближайший по упомянутой мере близости сегмент выбранного для сравнения эталона определяют только среди сегментов эталона, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента входного речевого сигнала, а в упомянутый композитный результат сравнения дополнительно включают коэффициент кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и выбранного для сравнения упомянутого эталона.1. A method for recognizing a speaker, including a step-by-step comparison of an input speech signal of a speaker with pre-stored patterns representing a voice signal of voice passwords spoken by previously known speakers, at least one of which is represented by at least one of said patterns, for which a comparison of parametric descriptions is performed successive segments of the input speech signal with parametric descriptions of successive segments of each of the selected mentioned for comparison standards on the basis of a certain measure of proximity between each pair of compared segments, while for each used segment of the input speech signal, the closest used segment of each segment of the mentioned reference selected for comparison is found, composite results of comparison of the input speech signal and each of the mentioned for comparison are formed standards, which respectively include a weighted average over all used segments of the input speech signal the distance between the given used segment of the input speech signal and the nearest used segment found for each selected reference for comparison, and speakers are recognized based on the composite results of the comparison of the input speech signal and the said standards, characterized in that the frequency vectors are used as the mentioned parametric descriptions formant of segments of the input speech signal and the said standards with not fixed from segment to segment the number of formants, and so e statistical characteristics of the power spectrum of the input speech signal and the mentioned standards, calculated for their used segments, as a measure of proximity of a pair of compared segments, use a weighted module of the difference of the formant frequency vectors, for each used segment of the input speech signal, the segment of the standard selected for comparison determined only among the segments of the standard, in which the number of formants in the corresponding segment of the frequency vector of the formants is equal to the number of forms nt in vector corresponding formant frequencies a comparable segment of the input speech signal and to said composite comparison result further comprises cross-correlation coefficient statistical characteristics of the power spectrum of the input speech signal and for comparing said selected reference.

2. Способ по п.1, отличающийся тем, что упомянутые голосовые пароли заранее известные дикторы произносят по меньшей мере два раза, при этом перед повторным произнесением упомянутого пароля диктор произносит речевое высказывание с существенно измененным характером артикуляции.2. The method according to claim 1, characterized in that said voice passwords are spoken by well-known speakers at least twice, while before re-pronouncing said password, the speaker makes a speech saying with a significantly changed nature of articulation.

3. Способ по п.1, отличающийся тем, что в качестве упомянутых используемых сегментов входного речевого сигнала и упомянутых эталонов выбирают только сегменты, у которых число формант в соответствующем векторе частот формант составляет 3 и более.3. The method according to claim 1, characterized in that as the used segments of the input speech signal and the said standards are selected only segments in which the number of formants in the corresponding frequency vector of the formant is 3 or more.

4. Способ по п.1, отличающийся тем, что в качестве упомянутых статистических характеристик спектра мощности входного речевого сигнала и упомянутых эталонов используют первый статистический момент спектра мощности их используемых сегментов в интервале времени произнесения соответственно входного речевого сигнала и упомянутых эталонов.4. The method according to claim 1, characterized in that as the mentioned statistical characteristics of the power spectrum of the input speech signal and the said standards use the first statistical moment of the power spectrum of their used segments in the time interval of pronouncing, respectively, the input speech signal and the said standards.

5. Способ по п.1, отличающийся тем, что дополнительно определяют для каждого используемого сегмента выбранного для сравнения упомянутого эталона ближайший по упомянутой мере близости используемый сегмент входного речевого сигнала, а в упомянутый композитный результат сравнения дополнительно включают взвешенное среднее по всем используемым сегментам каждого упомянутого эталона значение мер близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом входного речевого сигнала, при этом для каждого используемого сегмента упомянутого эталона ближайший по упомянутой мере близости сегмент входного речевого сигнала определяют только среди сегментов входного речевого сигнала, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента упомянутого эталона.5. The method according to claim 1, characterized in that it additionally determines for each used segment of the selected reference standard the closest used by the proximity measure the input speech signal segment, and the weighted average of all used segments of each mentioned section is additionally included in the said composite comparison result standard value of measures of proximity between a given used segment of the standard and the nearest segment of the input speech signal found for it, while for each The used segment of the said pattern, the nearest input speech signal segment according to the proximity measure is determined only among the segments of the input speech signal, in which the number of formants in the corresponding segment of the frequency vector of formants is equal to the number of formants in the corresponding frequency vector of formants of the compared segment of the mentioned pattern.

6. Способ по п.5, отличающийся тем, что из упомянутого композитного результата сравнения входного речевого сигнала и выбранного для сравнения упомянутого эталона дополнительно вычитают взвешенное среднее по всем используемым сегментам этого эталона значение меры близости между данным используемым сегментом эталона и найденным для него ближайшим используемым сегментом этого эталона, не тождественным данному используемому сегменту, а также взвешенное среднее по всем используемым сегментам входного речевого сигнала значение меры близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим используемым сегментом входного речевого сигнала, не тождественным данному используемому сегменту.6. The method according to claim 5, characterized in that from the said composite result of comparing the input speech signal and the reference selected for comparison, the weighted average value of the measure of proximity between this used segment of the standard and the nearest used one found for it is additionally subtracted a segment of this standard that is not identical to the given used segment, as well as a weighted average over all used segments of the input speech signal, the measure value is close between the given used segment of the input speech signal and the nearest used segment of the input speech signal found for it, which is not identical to the given used segment.

7. Способ по любому из пп.1-6, отличающийся тем, что предварительно определяют и запоминают эталон окружающего шума и эталон амплитудно-частотной характеристики используемого микрофона, при этом эталон окружающего шума определяют путем накопления в течение заданного интервала времени среднего спектра мощности сигнала окружающего шума без присутствия речевого сигнала, а эталон амплитудно-частотной характеристики используемого микрофона определяют путем накопления при непрерывном произнесении в микрофон речи в течение заданного интервала времени среднегеометрического значения спектра мощности данного речевого сигнала и последующего покомпонентного деления полученного спектра мощности на заранее заданный эталонный средний спектр речевого сигнала.7. The method according to any one of claims 1 to 6, characterized in that the ambient noise standard and the amplitude-frequency standard of the microphone used are pre-determined and stored, while the ambient noise standard is determined by accumulating the average signal power spectrum of the ambient signal over a specified time interval noise without the presence of a speech signal, and the standard amplitude-frequency characteristics of the microphone used is determined by the accumulation of continuous speech in the microphone during a given inter ala time the geometric mean of the power spectrum of the speech signal and the subsequent component-wise division of the power spectrum obtained by a predetermined reference average spectrum of the speech signal.

8. Способ по п.7, отличающийся тем, что в качестве упомянутых используемых сегментов входного речевого сигнала и упомянутых эталонов выбирают сегменты, у которых усредненная по компонентам относительная энергия разности их спектра мощности и упомянутого эталона окружающего шума превышает заранее заданное пороговое значение.8. The method according to claim 7, characterized in that as the used segments of the input speech signal and the said standards, segments are selected in which the relative energy of the difference between their power spectrum and said standard of ambient noise, averaged over the components, exceeds a predetermined threshold value.

9. Способ по п.7, отличающийся тем, что параметрическое описание каждого упомянутого сегмента входного речевого сигнала и упомянутого эталона нормализуют путем покомпонентного деления спектра мощности данного сегмента на эталон амплитудно-частотной характеристики упомянутого микрофона.9. The method according to claim 7, characterized in that the parametric description of each said segment of the input speech signal and said standard is normalized by component-wise dividing the power spectrum of this segment by the standard of the amplitude-frequency characteristic of the said microphone.

10. Устройство для распознавания диктора, включающее источник речевого сигнала, блок определения параметрического описания речевого сигнала, в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен со входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, отличающееся тем, что блок определения параметрического описания речевого сигнала дополнительно содержит первый сумматор-накопитель статистических характеристик входного речевого сигнала и блок определения формантного вектора текущего сегмента, входы которых соединены с выходом блока вычислителя спектра мощности сигнала в сегменте, а выходы подключены к входам формирователя параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блока определения формантного расстояния от входного речевого сигнала до эталона и блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона, входы которых являются входом блока сравнения параметрических описаний эталона и входного речевого сигнала, а выходы которых соединены соответственно через первый блок умножения и второй блок умножения с входом второго сумматора, а выход второго сумматора соединен с входом блока принятия решения о распознаваемом дикторе.10. A device for recognizing a speaker, including a source of a speech signal, a unit for determining a parametric description of a speech signal, in the form of a separator of the beginning / end of a speech signal, a segmenter of a speech signal by a sequence of segments, a unit of multiplication by a weighting window, a block of adding to a signal in a segment of zeros, a computer Fourier transform, a calculator of the power spectrum of a signal in a segment and a shaper of parametric descriptions of the input speech signal connected in series, a switch, a comp of parametric descriptions of the reference and the input speech signal, a decision block on the recognizable speaker and a storage device, while the source of the speech signal is connected to the block for determining the parametric description of the speech signal, the output of which is connected to the input of the switch, the first output of which is connected to the first input of the unit for comparison of parametric descriptions of the standard and the input speech signal, and the second output is connected to the input of the storage device, the output of which is connected to the second input of the block is compared I parametric descriptions of the standard and the input speech signal, the output of which is connected to the input of the decision block on the recognizable speaker, the output of which is the output of the device as a whole, characterized in that the unit for determining the parametric description of the speech signal further comprises a first adder-accumulator of statistical characteristics of the input speech signal and a unit for determining the formant vector of the current segment, the inputs of which are connected to the output of the block of the calculator of the signal power spectrum in the segment, and the outputs are connected to the inputs of the generator of parametric descriptions of the input speech signal, the unit for comparing the parametric descriptions of the standard and the input speech signal is made in the form of a unit for determining the formant distance from the input speech signal to the standard and a unit for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and standard, the inputs of which are the input of the unit for comparing the parametric descriptions of the standard and the input speech signal, and the outputs of which are connected respectively etstvenno via a first multiplier and a second multiplier to the input of the second adder and an output of the second adder is connected to the input of a decision on speaker recognizable.

11. Устройство по п.10, отличающееся тем, что блок определения формантного расстояния от входного речевого сигнала до эталона включает блок задания сравниваемых сегментов входного речевого сигнала, подключенный к блоку выбора сравниваемых сегментов эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно первый, второй и третий блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем используемым сегментам эталона, соответственно сумматор-накопитель средних наименьших мер близости по всем используемым 3-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем используемым 4-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем используемым 5-формантным сегментам эталона соединены соответственно с первыми входами третьего, четвертого и пятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с третьим сумматором.11. The device according to claim 10, characterized in that the unit for determining the formant distance from the input speech signal to the standard includes a unit for specifying the compared segments of the input speech signal connected to the unit for selecting the compared segments of the standard, the output of which is connected to the input of the unit for determining the proximity measure between 3 -formant vectors of the pair of compared segments, the input of the block of the determinant of the measure of proximity between the 4-formant vectors of the pair of compared segments and the input of the block of the determinant of the measure of proximity between the 5-form and vectors of a pair of segments to be compared, the outputs of which, respectively, the first, second, and third blocks search for the smallest proximity measure for a given segment of the input speech signal for all used segments of the standard, respectively, the accumulator-accumulator of the average least measures of proximity for all used 3-formant segments of the standard, the adder - accumulator of average least closeness measures for all used 4-formant segments of the standard, adder-accumulator of average least closeness measures for all used 5-formant m segments of the standard are connected respectively to the first inputs of the third, fourth and fifth blocks of multiplication, the second inputs of which are connected to the storage device of the weight coefficients, and the outputs of the said blocks of multiplication are connected to the third adder.

12. Устройство по п.10, отличающееся тем, что блок сравнения параметрических описаний эталона и входного речевого сигнала дополнительно содержит блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала, соединенный через шестой блок умножения с вторым сумматором.12. The device according to claim 10, characterized in that the unit for comparing the parametric descriptions of the standard and the input speech signal further comprises a unit for determining the formant distance from the compared standard to the input speech signal, connected through the sixth multiplication unit to the second adder.

13. Устройство по п.12, отличающееся тем, что блок определения формантного расстояния от эталона до входного речевого сигнала включает блок задания сравниваемых сегментов эталона, подключенный к блоку выбора сравниваемых сегментов входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно четвертый, пятый и шестой блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам входного речевого сигнала, соответственно сумматор-акопитель средних наименьших мер близости по всем используемым 3-формантным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем используемым 4-формантным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем используемым 5-формантным сегментам входного речевого сигнала соединены соответственно с первыми входами седьмого, восьмого и девятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с четвертым сумматором.13. The device according to p. 12, characterized in that the unit for determining the formant distance from the standard to the input speech signal includes a unit for specifying the compared segments of the standard connected to the block for selecting the compared segments of the input speech signal, the output of which is connected to the input of the unit for determining the proximity measure between 3 -formant vectors of the pair of compared segments, the input of the block of the determinant of the measure of proximity between the 4-formant vectors of the pair of compared segments and the input of the block of the determinant of the measure of proximity between the 5-form and vectors of a pair of segments to be compared, the outputs of which, respectively, in the fourth, fifth and sixth blocks of the search for the smallest proximity measure for a given segment of the reference standard for all segments of the input speech signal, respectively, the accumulator-accumulator of the average least proximity measures for all used 3-formant segments of the input speech signal, adder-accumulator of average least measures of proximity for all used 4-formant segments of the input speech signal, adder-accumulator of average least measures of proximity for all the 5-formant segments of the input speech signal used are connected respectively to the first inputs of the seventh, eighth and ninth multiplication units, the second inputs of which are connected to a weight storage device, and the outputs of the said multiplication units are connected to the fourth adder.

14. Устройство по п.10, отличающееся тем, что блок сравнения параметрических описаний эталона и входного речевого сигнала дополнительно содержит блок определения формантного расстояния от сегментов эталона до эталона в целом и блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом, соединенные через соответственно десятый и одиннадцатый блоки умножения со вторым сумматором.14. The device according to claim 10, characterized in that the unit for comparing the parametric descriptions of the standard and the input speech signal further comprises a unit for determining the formant distance from the segments of the standard to the standard as a whole and a unit for determining the formant distance from the segments of the input speech signal to the whole speech signal connected through the tenth and eleventh multiplication blocks, respectively, with a second adder.

15. Устройство по п.14, отличающееся тем, что блок определения формантного расстояния от сегментов эталона до эталона в целом включает соединенные последовательно блок задания сравниваемых сегментов эталона, блок удаления уже выбранного для сравнения сегмента из параметрического описания эталона, блок выбора сравниваемых сегментов модифицированного эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно седьмой, восьмой и девятый блоки поиска наименьшей для заданного сегмента эталона меры близости по всем используемым сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем используемым 3-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем используемым 4-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем используемым 5-формантным сегментам модифицированного эталона соединены соответственно с первыми входами двенадцатого, тринадцатого и четырнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с пятым сумматором.15. The device according to p. 14, characterized in that the unit for determining the formant distance from the segments of the standard to the standard as a whole includes a sequential unit for specifying the compared segments of the standard, a unit for deleting a segment already selected for comparison from the parametric description of the standard, a unit for selecting compared segments of the modified standard whose output is connected to the input of the block of the determinant of the measure of proximity between the 3-formant vectors of the pair of compared segments, the input of the block of the determinant of the measure of proximity between the 4-formants vectors of the pair of compared segments and the input of the determinant block of the measure of proximity between the 5-formant vectors of the pair of compared segments, the outputs of which are, respectively, the seventh, eighth and ninth blocks of finding the smallest for a given segment of the standard measure of proximity for all used segments of the modified standard, the accumulator-accumulator of the average smallest proximity measures for all used 3-formant segments of the modified standard, the accumulator-accumulator of the average smallest proximity measures for all used 4-forms antenna segments of the modified standard, the adder-accumulator of the average least measures of proximity for all used 5-formant segments of the modified standard are connected respectively to the first inputs of the twelfth, thirteenth and fourteenth multiplication blocks, the second inputs of which are connected to the storage device of the weight coefficients, and the outputs of the said multiplication blocks are connected with the fifth adder.

16. Устройство по п.14, отличающееся тем, что блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом включает соединенные последовательно блок задания сравниваемых сегментов входного речевого сигнала, блок удаления уже выбранного для сравнения сегмента из параметрического описания входного речевого сигнала, блок выбора сравниваемых сегментов модифицированного входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно десятый, одиннадцатый и двенадцатый блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного входного речевого сигнала соединены соответственно с первыми входами пятнадцатого, шестнадцатого и семнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с шестым сумматором.16. The device according to 14, characterized in that the unit for determining the formant distance from the segments of the input speech signal to the input speech signal as a whole includes a series-connected unit for specifying the compared segments of the input speech signal, a block for deleting a segment already selected for comparison from the parametric description of the input speech a signal, a block for selecting compared segments of the modified input speech signal, the output of which is connected to the input of the block of the determinant of the proximity measure between 3-formant vectors the tori of a pair of compared segments, the input of the determinant block of the measure of proximity between the 4-formant vectors of the pair of compared segments and the input of the determinant of the measure of proximity between the 5-formant vectors of the pair of the compared segments, the outputs of which, through the tenth, eleventh and twelfth search blocks, are the smallest for a given input speech segment proximity measures signal for all segments of the modified input speech signal, accumulator-accumulator of the average least proximity measures for all 3-formant segment there the modified input speech signal, the adder-accumulator of the average least measures of proximity for all 4-formant segments of the modified input speech signal, the adder-accumulator of the average least measures of proximity for all 5-formant segments of the modified input speech signal are connected respectively to the first inputs of the fifteenth, sixteenth and seventeenth multiplication blocks, the second inputs of which are connected to a mass storage device, and the outputs of said multiplication blocks are connected Helen with a sixth adder.

17. Устройство по п.10, отличающееся тем, что блок определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона включает первый, второй и третий блоки покомпонентного умножения, которые последовательно соединены соответственно с седьмым, восьмым и девятым сумматорами, выход седьмого сумматора соединен с первым входом делителя, ко второму входу которого через блок умножения и блок извлечения квадратного корня подключены выходы восьмого и девятого сумматоров.17. The device according to claim 10, characterized in that the unit for determining the cross-correlation function of the statistical characteristics of the power spectrum of the input speech signal and reference includes first, second and third component-wise multiplication units that are connected in series with the seventh, eighth and ninth adders, respectively, output the seventh adder is connected to the first input of the divider, to the second input of which the outputs of the eighth and ninth adders are connected through the multiplication unit and the square root extraction unit.

18. Устройство по п.10, отличающееся тем, что оно дополнительно содержит второй коммутатор, блок определения эталона шума и эталона амплитудно-частотной характеристики используемого микрофона, при этом источник входного речевого сигнала соединен с входом второго коммутатора, один из выходов которого соединен с первым входом блока определения параметрического описания входного речевого сигнала, а второй выход второго коммутатора подключен к входу блока определения эталона шума и эталона амплитудно-частотной характеристики микрофона, выход которого соединен с входом запоминающего устройства, подключенного ко второму входу блока определения параметрического описания входного речевого сигнала.18. The device according to claim 10, characterized in that it further comprises a second switch, a unit for determining a noise standard and a standard amplitude-frequency characteristic of the microphone used, while the source of the input speech signal is connected to the input of the second switch, one of the outputs of which is connected to the first the input of the unit for determining the parametric description of the input speech signal, and the second output of the second switch is connected to the input of the unit for determining the noise standard and the amplitude-frequency characteristic of the microphone, you the course of which is connected to the input of the storage device connected to the second input of the unit for determining the parametric description of the input speech signal.

19. Устройство по п.18, отличающееся тем, что блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона включает последовательно соединенные блок выделения начала/конца речевого сигнала, сегментатор речевого сигнала на последовательность сегментов, блок умножения на взвешивающее окно, блок добавления к сигналу в сегменте нулей, вычислитель преобразования Фурье, блок вычислителя спектра мощности сигнала в сегменте, а также переключатель режима, сумматор-накопитель покомпонентного среднего значения последовательности сегментных спектров и блок формирования эталона АЧХ микрофона, включающий последовательно соединенные блок умножителя-накопителя, блок выделения корня n-й степени из накопленного сигнала, делитель на эталонный средний спектр речевого сигнала и запоминающее устройство, при этом выход блока вычислителя спектра мощности сигнала в сегменте соединен с входом переключателя режима, первый выход которого подключен к первому входу сумматора-накопителя покомпонентного среднего значения последовательности сегментных спектров, а второй выход переключателя соединен с первым входом блока формирования эталона АЧХ микрофона, второй выход блока выделения начала/конца речевого сигнала подключен к второму входу упомянутого сумматора-накопителя и второму входу блока формирования эталона АЧХ микрофона, третий вход которого соединен с запоминающим устройством.19. The device according to p. 18, characterized in that the unit for determining the noise standard and the standard amplitude-frequency characteristics of the microphone includes serially connected block selection of the beginning / end of the speech signal, the segmenter of the speech signal by a sequence of segments, the unit of multiplication by the weighting window, the unit of adding to the signal in the segment of zeros, the Fourier transform calculator, the block of the spectrum of the signal power spectrum in the segment, as well as the mode switch, the accumulator-accumulator of the component-wise average value of the sequence segment spectra and the microphone frequency response standard forming unit, which includes a series-connected multiplier-storage unit, an nth degree root extraction unit from the accumulated signal, a divider into the reference average spectrum of the speech signal and a storage device, while the output of the signal power spectrum calculator unit in the segment connected to the input of the mode switch, the first output of which is connected to the first input of the accumulator-accumulator of the component-wise average value of the sequence of segment spectra, and the second The switch output is connected to the first input of the microphone frequency response standard formation unit, the second output of the speech signal start / end selection unit is connected to the second input of the storage adder and the second input of the microphone frequency response standard formation unit, the third input of which is connected to the storage device.

20. Устройство по п.10, отличающееся тем, что оно дополнительно содержит устройство для ввода идентификатора диктора и устройство выбора эталона, при этом устройство для ввода идентификатора диктора подключено к первому входу устройства выбора эталона, второй вход которого соединен с запоминающим устройством, а выход устройства выбора эталона подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала.20. The device according to claim 10, characterized in that it further comprises a device for entering a speaker identifier and a device for selecting a reference, the device for entering a speaker ID is connected to the first input of the device for selecting a reference, the second input of which is connected to a storage device, and the output a device for selecting a reference is connected to the second input of the unit for comparing the parametric descriptions of the reference and the input speech signal.