RU2582050C1 - Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus - Google Patents

Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus Download PDF

Info

Publication number
RU2582050C1
RU2582050C1 RU2015102879/14A RU2015102879A RU2582050C1 RU 2582050 C1 RU2582050 C1 RU 2582050C1 RU 2015102879/14 A RU2015102879/14 A RU 2015102879/14A RU 2015102879 A RU2015102879 A RU 2015102879A RU 2582050 C1 RU2582050 C1 RU 2582050C1
Authority
RU
Russia
Prior art keywords
speech
phoneme
organs
unstable operation
signals
Prior art date
Application number
RU2015102879/14A
Other languages
Russian (ru)
Inventor
Александр Юрьевич Тычков
Алан Казанферович Алимурадов
Петр Павлович Чураков
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет")
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет") filed Critical Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет")
Priority to RU2015102879/14A priority Critical patent/RU2582050C1/en
Application granted granted Critical
Publication of RU2582050C1 publication Critical patent/RU2582050C1/en

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

FIELD: medicine.
SUBSTANCE: invention refers to medicine, namely to biometrical identification and diagnosis of organs of speech apparatus. Method for adaptive processing of speech signals in conditions of unstable operation speech apparatus consists in that speech signals are recorded, segmentation of speech signals, calculating the value of energy information area, calculated value is compared with threshold is diagnostic conclusion on stage of unstable operation of organs of speech apparatus. In addition to empirical mode decomposition is phoneme speech signal and constructing spectrum Hilbert phoneme speech signal.
EFFECT: higher precision of speech signals in conditions of unstable operation of organs of speech apparatus.
1 cl, 1 tbl, 9 dwg

Description

Эффективность автоматического анализа речевых сигналов в системах биометрической идентификации и диагностики органов речевого аппарата определяется точностью измерения его амплитудных и временных, частотных и энергетических параметров, достоверностью обнаружения и распознавания его отдельных элементов. В свою очередь, основной причиной погрешностей измерений и ошибок обнаружения (распознавания) элементов речевых сигналов являются помехи, различные по своему происхождению, интенсивности, спектральным и статистическим характеристикам, взаимодействию с полезным сигналом.The effectiveness of automatic analysis of speech signals in systems of biometric identification and diagnosis of organs of the speech apparatus is determined by the accuracy of measuring its amplitude and time, frequency and energy parameters, the reliability of detection and recognition of its individual elements. In turn, the main cause of measurement errors and detection errors (recognition) of the elements of speech signals are interference, different in origin, intensity, spectral and statistical characteristics, interaction with a useful signal.

Одной из наиболее сложных задач эффективного обнаружения и распознавания параметров речевых сигналов в системах биометрической идентификации и диагностики органов речевого аппарата является задача подавления физиологических помех, вызванных нестабильной работой речевого аппарата, при наличии заболеваний в работе систем органов речевого аппарата, таких как ларингит, синусит, фарингит и др. Патологические отклонения в работе систем речевого аппарата могут свести на нет даже самые сложные и изощренные алгоритмы распознавания речевых сигналов в системах биометрический идентификации личности и привести к сбою работы государственной системы безопасности.One of the most difficult tasks of effective detection and recognition of speech signal parameters in systems of biometric identification and diagnosis of organs of the vocal apparatus is the task of suppressing physiological disturbances caused by unstable operation of the vocal apparatus in the presence of diseases in the operation of the organs of the vocal apparatus, such as laryngitis, sinusitis, pharyngitis and other pathological deviations in the operation of the speech apparatus systems can negate even the most complex and sophisticated speech recognition algorithms signals in biometric identification systems and lead to a malfunction of the state security system.

Как отмечается в [1], речевой сигнал представляет собой звуковую волну, образуемую артикуляционным отделом речевого аппарата. Речевой сигнал является акустическим сигналом, нелинейным и нестационарным, распространяющимся в пространстве с частотой 70-7000 Гц.As noted in [1], the speech signal is a sound wave formed by the articulation department of the speech apparatus. The speech signal is an acoustic signal, non-linear and non-stationary, propagating in space with a frequency of 70-7000 Hz.

На этапе формирования звуков и регистрации их различными каналами связи участвуют три основных отдела органов речевого аппарата: 1) легкие, бронхи и трахея; 2) голосовой аппарат гортани; 3) полость рта, глотки носа и околоносовых пазух.At the stage of forming sounds and recording them through various communication channels, three main departments of the organs of the speech apparatus participate: 1) lungs, bronchi and trachea; 2) the vocal apparatus of the larynx; 3) the oral cavity, pharynx of the nose and paranasal sinuses.

Определение нестабильной работы всех отделов органов дыхания является актуальной задачей, для решения большого круга проблем в области диагностики заболеваний и биометрической идентификации личности.Determining the unstable operation of all departments of the respiratory system is an urgent task to solve a wide range of problems in the field of diagnosis of diseases and biometric identification of a person.

Рассмотрим подробнее известные способы обработки речевых сигналов в условиях нестабильной работы речевого аппарата.Let us consider in more detail the known methods of processing speech signals in conditions of unstable operation of the speech apparatus.

Известен способ «Система для анализа и формирования изображения шума дыхательных путей» (аналог) [2], позволяющий регистрировать и анализировать акустические шумы тела пациента, и используется для диагностики нарушения дыхательных путей.The known method "System for analysis and imaging of airway noise" (analogue) [2], which allows to record and analyze the acoustic noise of the patient’s body, and is used to diagnose respiratory tract disorders.

Анализ известного способа-аналога [2] показал, что его работа заключается в регистрации акустического шума дыхательных путей путем наложении акустических датчиков на тело пациента, вычислении средней акустической энергии сигнала на каждом промежутке времени, отображении значений акустической энергии на двумерном изображении грудной клетки (первый отдел органов речевого аппарата), выводе диагностического заключения о стадии нестабильной работы первого отдела органов дыхания. Структурная схема известного способа приведена на фиг. 1.Analysis of the known analogue method [2] showed that its work consists in recording acoustic noise of the respiratory tract by applying acoustic sensors to the patient’s body, calculating the average acoustic energy of the signal at each time interval, displaying the values of acoustic energy in a two-dimensional image of the chest (first section organs of the speech apparatus), the conclusion of a diagnostic conclusion about the stage of unstable operation of the first section of the respiratory system. A block diagram of a known method is shown in FIG. one.

Недостатками данного способа являются:The disadvantages of this method are:

1. Возможность регистрации, кроме акустических шумов, шумов связанных с физиологической активностью других органов и систем организма: сердечно-сосудистой системы, желудочно-кишечного тракта и др., что может привести к искажению результатов измерения и точности постановки диагностического заключения.1. The ability to register, in addition to acoustic noise, noise associated with the physiological activity of other organs and systems of the body: the cardiovascular system, the gastrointestinal tract, etc., which can lead to distortion of the measurement results and the accuracy of the diagnostic conclusion.

2. Диагностика только заболеваний первого отдела органов речевого аппарата, что ограничивает его использование широким кругом потребителей для диагностических целей и в системах биометрической идентификации.2. Diagnosis of only diseases of the first part of the organs of the speech apparatus, which limits its use to a wide range of consumers for diagnostic purposes and in biometric identification systems.

3. Наложение на тело пациента множества акустических датчиков, приводящее к дискомфорту пациента и возникновению дополнительных помех и шумов, связанных с движением пациента и уменьшением сопротивления кожа-электрод.3. The application of a multitude of acoustic sensors to the patient’s body, leading to patient discomfort and the appearance of additional noise and noise associated with the patient’s movement and a decrease in skin-electrode resistance.

4. Невозможность использования данной технологии при разработке портативных устройств, используемых в диагностических целях в домашних условиях и в офисах для систем безопасности.4. The inability to use this technology in the development of portable devices used for diagnostic purposes at home and in offices for security systems.

Известен другой способ исследования функционального состояния органов речевого аппарата на примере голосовых складок «Способ исследования функционального состояния голосовых складок» (прототип) [3].There is another way to study the functional state of the organs of the vocal apparatus on the example of the vocal folds "Method for the study of the functional state of the vocal folds" (prototype) [3].

Анализ известного способа-прототипа [3] показал, что его работа заключается в регистрации речевых сигналов, сегментации речевых сигналов, вейвлет-преобразовании речевых сигналов, построении вейвлет-поверхности участка речевого сигнала, определении информативной области вейвлет-поверхности, вычислении значения энергии информативной области, сравнении вычисленного значения с пороговым, выводе диагностического заключения о стадии нестабильной работы голосовых складок (второго отдела органов речевого аппарата). Структурная схема известного способа приведена на фиг. 2.Analysis of the known prototype method [3] showed that its work consists in recording speech signals, segmenting speech signals, wavelet transforming speech signals, building a wavelet surface of a portion of the speech signal, determining the informative region of the wavelet surface, calculating the energy value of the informative region, comparing the calculated value with the threshold, the conclusion of the diagnostic conclusion about the stage of unstable operation of the vocal folds (the second part of the organs of the speech apparatus). A block diagram of a known method is shown in FIG. 2.

Недостатками данного способа являются:The disadvantages of this method are:

1. Недостаточно высокая эффективность вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата, обусловленная невозможностью адаптации вейвлет-функции к структуре и локальным особенностям зарегистрированного речевого сигнала.1. The insufficiently high efficiency of the conclusion of the diagnostic conclusion about the stage of unstable operation of the organs of the speech apparatus, due to the inability to adapt the wavelet function to the structure and local features of the recorded speech signal.

2. Диагностика только заболеваний второго отдела органов речевого аппарата, что так же, как и в первом способе, ограничивает его использование для диагностики биометрической идентификации.2. Diagnosis of only diseases of the second part of the organs of the speech apparatus, which, like in the first method, limits its use for the diagnosis of biometric identification.

Изобретения направлено на повышение точности обработки речевых сигналов в условиях нестабильной работы органов речевого аппарата.The invention is aimed at improving the accuracy of processing speech signals in conditions of unstable operation of the organs of the speech apparatus.

Это достигается тем, что в способе адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата, заключающемся в регистрации речевых сигналов, сегментации речевых сигналов, вычислении значения энергии информативной области, сравнении вычисленного значения с пороговым, выводе диагностического заключения о стадии нестабильной работы органов речевого аппарата, дополнительно осуществляют декомпозицию на эмпирические моды фонемы речевого сигнала, построение спектра Гильберта фонемы речевого сигнала. Структурная схема предлагаемого способа приведена на фиг. 3.This is achieved by the fact that in the method of adaptive processing of speech signals in conditions of unstable operation of the speech apparatus, which consists in recording speech signals, segmenting speech signals, calculating the energy value of an informative region, comparing the calculated value with a threshold, and outputting a diagnostic conclusion about the stage of unstable operation of organs of the speech apparatus additionally carry out decomposition into empirical modes of the phoneme of the speech signal, the construction of the Hilbert spectrum of the phoneme of the speech signal. The structural diagram of the proposed method is shown in FIG. 3.

Суть предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата заключается в том, что определение нестабильности (отклонения) состояния органов речевого аппарата на речевом сигнале осуществляется за счет выделения информативных областей сигнала (фонем), образованных различными отделами органов речевого аппарата, построения спектра Гильберта фонемы речевого сигнала и вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата путем вычисления разности значений энергии фонемы речевого сигнала с пороговым, характеризующим стадию развития нестабильности (отклонения) в работе органов речевого аппарата.The essence of the proposed method for adaptive processing of speech signals in conditions of unstable operation of the speech apparatus is that the determination of the instability (deviation) of the state of the organs of the speech apparatus on the speech signal is carried out by highlighting the informative areas of the signal (phonemes) formed by various departments of the organs of the speech apparatus, building a spectrum Hilbert phonemes of the speech signal and the conclusion of the diagnostic conclusion about the stage of unstable operation of the organs of the speech apparatus by calculating the separation and phonemes of the speech signal energy values with a threshold, characterized by the steps of instability (deviation) in the organs of speech apparatus.

Главной отличительной особенностью предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата от известного способа является обработка отдельных слов, фраз и выражений, образованных определенными органами речевого аппарата, и адаптивное вычисление значений энергии исследуемых фонем с использованием декомпозиции на эмпирические моды и спектра Гильберта.The main distinguishing feature of the proposed method for adaptive processing of speech signals in conditions of unstable operation of the speech apparatus from the known method is the processing of individual words, phrases and expressions formed by certain organs of the speech apparatus, and the adaptive calculation of the energy values of the studied phonemes using decomposition into empirical modes and the Hilbert spectrum.

Рассмотрим особенности реализации предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата. Первый этап («Регистрация речевых сигналов») аналогичен этапу известного способа [2], заключающегося в регистрации речевого сигнала с помощью акустического приемника и аналогово-цифровом преобразовании речевого сигнала. Пример зарегистрированного и оцифрованного речевого сигнала - звука «а» - приведен на фиг. 4.Consider the features of the implementation of the proposed method for adaptive processing of speech signals in conditions of unstable operation of the speech apparatus. The first stage ("Registration of speech signals") is similar to the step of the known method [2], which consists in recording a speech signal using an acoustic receiver and analog-to-digital conversion of the speech signal. An example of a recorded and digitized speech signal - sound “a” - is shown in FIG. four.

В отличие от известного способа на этапе регистрации речевых сигналов предлагается регистрировать речевые сигналы конкретных фраз и выражений, состоящих из звуков, сформированных определенными органами речевого аппарата. Для этого авторами способа ранее разработана в виде таблиц реляционной СУБД Microsoft Office Access (см. фиг. 5) и запатентована база эталонных слов, фраз и выражений [4]. Использование верифицированной базы речевых сигналов позволит эффектней диагностировать нестабильность речевого аппарата путем систематизации заболеваний органов речевого аппарата по группам звуков сформированных определенными органами речевого аппарата.In contrast to the known method, at the stage of recording speech signals, it is proposed to register speech signals of specific phrases and expressions consisting of sounds formed by certain organs of the speech apparatus. For this, the authors of the method previously developed in the form of tables of relational DBMS Microsoft Office Access (see Fig. 5) and patented the base of reference words, phrases and expressions [4]. The use of a verified base of speech signals will make it possible to more effectively diagnose instability of the speech apparatus by systematizing diseases of the organs of the speech apparatus according to groups of sounds formed by certain organs of the speech apparatus.

Второй этап «Сегментация речевых сигналов» заключается в следующем. В зависимости от вида речевого сигнала их длительность может варьироваться от 5 до 500 мс. Фонемы речевых сигналов различных тональных и сонорных звуков в среднем имеют длительность от 10 до 25 мс. Для автоматизации последующих этапов способа предлагается ограничивать длительность речевых сигналов длительностью фонем до одной фиксированной величины, равной 20 мс. Унификация речевого сигнала до фонем различной длительности с помощью сегментации в равные отрезки позволяет улучшить обработку на последующем этапе обработки речевых сигналов.The second stage of "segmentation of speech signals" is as follows. Depending on the type of speech signal, their duration can vary from 5 to 500 ms. Phonemes of speech signals of various tonal and sonor sounds on average have a duration of 10 to 25 ms. To automate the subsequent steps of the method, it is proposed to limit the duration of speech signals by the duration of phonemes to one fixed value equal to 20 ms. The unification of the speech signal to phonemes of various durations by means of segmentation into equal segments allows to improve the processing at the next stage of the processing of speech signals.

Третий этап «Декомпозиция на эмпирические моды фонемы речевого сигнала» заключается в разложении фонемы речевого сигнала на частотные составляющие с помощью адаптивной технологии, способной подстроиться к исследуемого сигналу без искажения его свойств.The third stage, “Decomposition into empirical modes of the phoneme of the speech signal,” consists in decomposing the phoneme of the speech signal into frequency components using adaptive technology that can adapt to the signal under study without distorting its properties.

Схема декомпозиция на эмпирические моды фонемы речевого сигнала приведена на фиг. 6 и включает в себя следующие этапы:The decomposition diagram into empirical modes of the phoneme of the speech signal is shown in FIG. 6 and includes the following steps:

1. Определение локальных экстремумов (максимумов и минимумов) фонемы речевого сигнала f j(t i):1. The definition of local extremes (maximums and minimums) of the phoneme of the speech signal f j ( t i ):

- значение i-го отсчета f j(t i) является локальным максимумом, если выполняется условие

Figure 00000001
;- the value of the i-th frame f j (t i) is a local maximum, if the condition
Figure 00000001
;

- значение i-го отсчета f j(t i) является локальным минимумом, если выполняется условие

Figure 00000002
.- the value of the i-th sample f j ( t i ) is a local minimum, if the condition
Figure 00000002
.

2. Определение верхней e j (t i ) и нижней g j (t i ) огибающих фонемы речевого сигнала с помощью кубической сплайн-интерполяции [5] по найденным локальным экстремумам f j (t i ):2. Determination of the upper e j (t i ) and lower g j (t i ) envelopes of the phoneme of the speech signal using cubic spline interpolation [5] based on the found local extrema f j (t i ) :

Figure 00000003
,
Figure 00000003
,

Figure 00000004
,
Figure 00000004
,

где а в, b в, с в, d в - коэффициенты для каждого значения i-го отсчета верхней огибающей фонемы речевого сигнала; а н, b н, с н, d н - коэффициенты для каждого значения i-го отсчета верхних огибающих фонемы речевого сигналаwhere a in , b in , c in , d in - coefficients for each value of the i-th sample of the upper envelope of the phoneme of the speech signal; a n , b n , c n , d n - coefficients for each value of the i-th sample of the upper envelopes of the phoneme of the speech signal

3. Вычисление среднего значения огибающих фонемы речевого сигнала в соответствии с выражением:3. The calculation of the average envelope of the phoneme of the speech signal in accordance with the expression:

Figure 00000005
,
Figure 00000005
,

где h j(t i) - среднее значение огибающих фонемы речевого сигнала;where h j ( t i ) is the average value of the envelopes of the phoneme of the speech signal;

e j(t i) и g j(t i) - верхняя и нижняя огибающая исходных фонемы речевого сигнала соответственно. e j ( t i ) and g j ( t i ) are the upper and lower envelopes of the original phonemes of the speech signal, respectively.

4. Вычисление остатка фонемы речевого сигнала по формуле:4. The calculation of the remainder of the phoneme of the speech signal according to the formula:

Figure 00000006
,
Figure 00000006
,

где s j(t i) - остаток частотных составляющих речевого сигнала.where s j ( t i ) is the remainder of the frequency components of the speech signal.

5. Вычисление значения критерия останова. В качестве критерия останова декомпозиции используется значение нормализованной квадратичной разности, определяемое как [6]:5. The calculation of the value of the stopping criterion. As a criterion for stopping decomposition, the value of the normalized quadratic difference, defined as [6], is used:

Figure 00000007
.
Figure 00000007
.

6. Проверка условия останова. На этом этапе осуществляется сравнение значения остатка речевого сигнала со значением нормализованной квадратичной разности. Если:6. Checking the shutdown condition. At this stage, the value of the remainder of the speech signal is compared with the value of the normalized quadratic difference. If:

- SD>s j(t i), то переходят к выполнению действия 1;- SD > s j ( t i ), then proceed to step 1;

- SD<s j(ti) и h j(t i)>s j(t i), то переходят к выполнению следующего действия.- SD < s j (t i ) and h j ( t i )> s j ( t i ), then proceed to the next step.

7. Вывод частотных составляющих фонемы речевого сигнала. На этом этапе осуществляется вывод эмпирических мод m k(t i) и остатка s j(t i) фонемы речевого сигнала. На фиг. 7 приведены моды фонемы речевого сигнала.7. The output of the frequency components of the phoneme of the speech signal. At this stage, the empirical modes m k ( t i ) and the remainder s j ( t i ) of the phoneme of the speech signal are output. In FIG. 7 shows the phoneme mode of the speech signal.

После того как получены частотные составляющие фонемы речевого сигнала с помощью декомпозиции на эмпирические моды, выполняется построение спектра Гильберта.After the frequency components of the phoneme of the speech signal are obtained using decomposition into empirical modes, the Hilbert spectrum is constructed.

Схема следующего этапа «Преобразование и Построение спектра Гильберта фонемы речевого сигнала» приведена на фиг. 8 и включает в себя следующие подэтапы [6, 7].:The diagram of the next stage, “Conversion and Construction of the Hilbert Spectrum of the Phoneme of the Voice Signal,” is shown in FIG. 8 and includes the following sub-stages [6, 7]:

1. Получение сопряженного по Гильберту фонемы речевого сигнала:1. Getting a Hilbert-conjugated phoneme speech signal:

Figure 00000008
,
Figure 00000008
,

где m k(t i) - эмпирическая мода, подвергнутая преобразованию Гильберта;where m k ( t i ) is the empirical mode subjected to the Hilbert transform;

M k(t i) - сопряженный по Гильберту фонемы речевого сигнала, соответствующий моде m k(t i); M k ( t i ) is the Hilbert-conjugated phoneme of the speech signal corresponding to the mode m k ( t i );

k - номер моды; k is the fashion number;

τ - независимая переменная. τ is an independent variable.

2. Определение аналитического (комплексного) значения для каждой моды фонемы речевого сигнала:2. Determination of the analytical (complex) value for each mode of the phoneme of the speech signal:

Figure 00000009
,
Figure 00000009
,

где

Figure 00000010
- мнимая единица.Where
Figure 00000010
- imaginary unit.

3. Определение значения мгновенной амплитуды для каждой моды фонемы речевого сигнала:3. The determination of the instantaneous amplitude for each mode of the phoneme of the speech signal:

Figure 00000011
Figure 00000011

4. Определение значения мгновенной частоты для каждой моды фонемы речевого сигнала:4. The determination of the instantaneous frequency for each mode of the phoneme of the speech signal:

Figure 00000012
.
Figure 00000012
.

5. Представление фонемы речевого сигнала в виде спектра Гильберта. В каждой эмпирической моде сигнал в виде поверхности в системе координат амплитуда-частота-время может быть выражен следующим образом [7, 8]:5. Representation of the phoneme of the speech signal in the form of a Hilbert spectrum. In each empirical mode, a signal in the form of a surface in the coordinate system amplitude-frequency-time can be expressed as follows [7, 8]:

Figure 00000013
,
Figure 00000013
,

Визуальное представление спектра Гильберта характеризует распределение мгновенной энергии фонемы речевого сигнала в каждой точке частотно-временной плоскости и, по мнению авторов, открывает возможность выделения новых диагностических признаков в речевых сигналах.The visual representation of the Hilbert spectrum characterizes the distribution of the instantaneous energy of the phoneme of the speech signal at each point in the time-frequency plane and, according to the authors, opens up the possibility of highlighting new diagnostic features in speech signals.

На фиг. 9 приведен спектр Гильберта речевого сигнала (звук «а») рассчитанный по выражению (10) согласно алгоритму построения спектра Гильберта (см. фиг. 8).In FIG. Figure 9 shows the Hilbert spectrum of a speech signal (sound "a") calculated by expression (10) according to the algorithm for constructing the Hilbert spectrum (see Fig. 8).

Следующий пятый этап «Вычисление значения энергии информативной области» осуществляется согласно следующему выражению:The next fifth stage "Calculation of the energy value of the informative area" is carried out according to the following expression:

Figure 00000014
,
Figure 00000014
,

где t 1 - отсчет, принятый за середину фонемы;where t 1 is the count taken as the middle of the phoneme;

t k - отсчет, принятый за начало фонемы. t k is the count taken as the beginning of the phoneme.

Рассчитанные средние значения энергии

Figure 00000015
спектра Гильберта фонемы по формуле (10) позволяют получить функцию распределения
Figure 00000016
среднего значения энергии по частоте:The calculated average values of energy
Figure 00000015
The Hilbert spectrum of the phoneme by formula (10) allows us to obtain the distribution function
Figure 00000016
average energy frequency:

Figure 00000017
,
Figure 00000017
,

где t - const.where t is const.

Результатом расчета выражения (12) является функция распределения

Figure 00000018
, характеризующая усредненное значение энергии информативно области (фонемы) спектра Гильберта.The result of calculating expression (12) is the distribution function
Figure 00000018
, characterizing the average value of the energy of the informative region (phoneme) of the Hilbert spectrum.

Следующий этап «Сравнение вычисленного значения энергии с пороговым» заключается в сравнении вычисленной средней энергии фонемы

Figure 00000018
с пороговыми значениями, вычисленные априорно на большой выборке данных. Пороговое значение энергии характеризует уровень и вид нестабильности (отклонения) работы речевого аппарата. По результатам проведенных исследований выявлено, что в зависимости от произносимого контрольного слова, фразы или предложения, состоящего из фонем, образованных определенным отделом органов речевого аппарата, наблюдается прямая зависимость с уровнем энергии спектра Гильберта. Результаты проведенных исследований проведены в табл. 1.The next stage “Comparison of the calculated energy value with the threshold” is to compare the calculated average energy of the phoneme
Figure 00000018
with threshold values calculated a priori on a large data sample. The threshold energy value characterizes the level and type of instability (deviation) of the speech apparatus. According to the results of the studies, it was revealed that, depending on the spoken control word, phrase or sentence, consisting of phonemes formed by a certain department of the organs of the speech apparatus, a direct relationship with the energy level of the Hilbert spectrum is observed. The results of the studies carried out in table. one.

Figure 00000019
Figure 00000019

Заключительный этап «Вывод диагностического заключения о стадии нестабильной работы органов речевого аппарата» заключается в постановки заключения, основанного на результатах предыдущего этапа способа.The final stage "Conclusion of a diagnostic conclusion about the stage of unstable operation of the organs of the speech apparatus" consists in making a conclusion based on the results of the previous stage of the method.

Приведенное описание способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата показывает, что предлагаемый способ позволяет устранить недостатки известного способа «Способ исследования функционального состояния голосовых складок», а именно повысить эффективность вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата за счет используемого адаптивного подхода обработки фонем речевого сигнала, способного приспособиться к индивидуальным особенностям и параметрам потребителя; диагностировать широкий спектр заболеваний всех трех отделов органов речевого аппарата.The above description of the method of adaptive processing of speech signals in conditions of unstable operation of the speech apparatus shows that the proposed method allows to eliminate the disadvantages of the known method "Method for the study of the functional state of the vocal folds", namely to increase the efficiency of the output of the diagnostic conclusion about the stage of unstable operation of the organs of the speech apparatus due to the adaptive approach to processing phonemes of a speech signal that can adapt to individual characteristics and pairs consumer meter; diagnose a wide range of diseases of all three departments of the organs of the speech apparatus.

Другим преимуществом предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата является визуальное представление спектра Гильберта речевого сигнала, что позволяет выявить новые диагностические признаки в речевых сигналах для диагностических систем и биометрической идентификации личности.Another advantage of the proposed method for adaptive processing of speech signals in conditions of unstable operation of the speech apparatus is a visual representation of the Hilbert spectrum of the speech signal, which allows you to identify new diagnostic features in speech signals for diagnostic systems and biometric identification of the person.

Эффективная обработка речевых сигналов ведет к увеличению достоверных заключений и, следовательно, к повышению эффективности диагностики и лечения заболеваний органов речевого аппарата и идентификация личности в системах биометрической защиты.Effective processing of speech signals leads to an increase in reliable conclusions and, consequently, to an increase in the efficiency of diagnosis and treatment of diseases of the organs of the speech apparatus and personal identification in biometric protection systems.

Источники информацииInformation sources

1. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь. 1987 г., 103 с.1. Mikhailov V.G., Zlatoustova L.V. Measurement of speech parameters. - M .: Radio and communication. 1987, 103 p.

2. Кушнир И., Ботбол М. Патент РФ, Система для анализа и формирования изображения шума дыхательных путей - №2314751; заявл. 10.03.2005; опубл. 20.01.2008.2. Kushnir I., Botball M. RF patent, System for analysis and imaging of airway noise - No. 2314751; declared 03/10/2005; publ. 01/20/2008.

3. Плешков И.В., Филист С.А., Краснова Н.В., Блинков Ю.А. Патент РФ, Способ исследования функционального состояния голосовых складок - №2313280; заявл. 16.05.2006; опубл. 27.12.2007.3. Pleshkov I.V., Filist S.A., Krasnova N.V., Blinkov Yu.A. RF patent, Method for studying the functional state of vocal folds - No. 2313280; declared 05/16/2006; publ. 12/27/2007.

4. Тычков А.Ю., Алимурадов А.К., Квитка Ю.С., Ярославцева Д.А. Свидетельства о государственной регистрации программ для ЭВМ. Верифицированная база речевых сигналов - №2013621156; заявл. 13.09.2013; опубл. 06.11.2013.4. Tychkov A.Yu., Alimuradov AK, Kvitka Yu.S., Yaroslavtseva D.A. Certificate of state registration of computer programs. Verified base of speech signals - No. 2013621156; declared 09/13/2013; publ. 11/06/2013.

5. Корнейчук, Н.П. Сплайны в теории приближения. - М.: Наука, Главная редакция физико-математической литературы, 1984 - 352 с.5. Korneychuk, N.P. Splines in approximation theory. - M.: Nauka, Main Edition of Physics and Mathematics, 1984 - 352 p.

6. Huang, N.E., Attoh-Okine Nii О. The Hilbert-Huang transform in engineering - Taylor and Francis, 2005 - 95 p.6. Huang, N.E., Attoh-Okine Nii O. The Hilbert-Huang transform in engineering - Taylor and Francis, 2005 - 95 p.

7. Sharpley R.C., Vatchev V.D. Analysis of the intrinsic mode functions. Department of Mathematics University of South Carolina, 2004 - 31 p.7. Sharpley R.C., Vatchev V.D. Analysis of the intrinsic mode functions. Department of Mathematics University of South Carolina, 2004 - 31 p.

8. Huang N.E., Shen S.S. The Hilbert-Huang transform and its applications - World Scientific Publication, 2005 - 323 p.8. Huang N.E., Shen S.S. The Hilbert-Huang transform and its applications - World Scientific Publication, 2005 - 323 p.

Claims (1)

Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата, заключающийся в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисление значения энергии информативной области, сравнение вычисленного значения с пороговым, вывод диагностического заключения о стадии нестабильной работы органов речевого аппарата, отличающийся тем, что осуществляют дополнительно декомпозицию на эмпирические моды фонемы речевого сигнала, построение спектра Гильберта фонемы речевого сигнала. The method of adaptive processing of speech signals in conditions of unstable operation of the speech apparatus, which consists in registering speech signals, segmenting speech signals, calculating the energy value of the informative area, comparing the calculated value with a threshold, outputting a diagnostic conclusion about the stage of unstable operation of the organs of the speech apparatus, different the fact that they additionally decompose into empirical modes of the phoneme of the speech signal, construct the Hilbert spectrum of the phoneme of the speech system drove.
RU2015102879/14A 2015-01-28 2015-01-28 Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus RU2582050C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015102879/14A RU2582050C1 (en) 2015-01-28 2015-01-28 Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015102879/14A RU2582050C1 (en) 2015-01-28 2015-01-28 Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus

Publications (1)

Publication Number Publication Date
RU2582050C1 true RU2582050C1 (en) 2016-04-20

Family

ID=56195141

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015102879/14A RU2582050C1 (en) 2015-01-28 2015-01-28 Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus

Country Status (1)

Country Link
RU (1) RU2582050C1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2313280C1 (en) * 2006-05-16 2007-12-27 Государственное образовательное учреждение высшего профессионального образования "Курский государственный технический университет" Method for studying vocal cords functional state
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
RU2013119828A (en) * 2013-04-29 2014-11-10 Общество С Ограниченной Ответственностью "Эм Ди Войс" METHOD FOR DETERMINING THE RISK OF DEVELOPMENT OF INDIVIDUAL DISEASES BY ITS VOICE AND HARDWARE AND SOFTWARE COMPLEX FOR IMPLEMENTING THE METHOD

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2313280C1 (en) * 2006-05-16 2007-12-27 Государственное образовательное учреждение высшего профессионального образования "Курский государственный технический университет" Method for studying vocal cords functional state
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
RU2013119828A (en) * 2013-04-29 2014-11-10 Общество С Ограниченной Ответственностью "Эм Ди Войс" METHOD FOR DETERMINING THE RISK OF DEVELOPMENT OF INDIVIDUAL DISEASES BY ITS VOICE AND HARDWARE AND SOFTWARE COMPLEX FOR IMPLEMENTING THE METHOD

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D.Michaelis et al. Glottal-to-noise excitation ratio-a new measure for describing pathological voices, ACUSTICA, v.83, 1997, pp.700-706. *

Similar Documents

Publication Publication Date Title
Amrulloh et al. Automatic cough segmentation from non-contact sound recordings in pediatric wards
CN110353685B (en) Method and apparatus for processing patient sounds
Hsu et al. Benchmarking of eight recurrent neural network variants for breath phase and adventitious sound detection on a self-developed open-access lung sound database—HF_Lung_V1
He et al. Study of empirical mode decomposition and spectral analysis for stress and emotion classification in natural speech
Fu et al. Heart sound diagnosis based on DTW and MFCC
Lin et al. Automatic wheezing detection using speech recognition technique
US10032462B2 (en) Method and system for suppressing noise in speech signals in hearing aids and speech communication devices
Swarnkar et al. Neural network based algorithm for automatic identification of cough sounds
Zhang et al. A novel wheeze detection method for wearable monitoring systems
IL311770A (en) Diagnosis of medical conditions using voice recordings and auscultation
Chien et al. Wheeze detection using cepstral analysis in gaussian mixture models
Kuortti et al. Post-processing speech recordings during MRI
RU2582050C1 (en) Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus
Faustino Crackle and wheeze detection in lung sound signals using convolutional neural networks
Sengupta et al. Optimization of cepstral features for robust lung sound classification
Zhu et al. Multimodal speech recognition with ultrasonic sensors
Jayadi et al. Embedded Flu Detection System based Cough Sound using MFCC and kNN Algorithm
Wang et al. Feature extraction based on mel-scaled wavelet transform for heart sound analysis
Singh et al. IIIT-S CSSD: A cough speech sounds database
Altan et al. A review on respiratory sound analysis using machine learning
Wang et al. Spectral-temporal receptive fields and MFCC balanced feature extraction for noisy speech recognition
Johari et al. Distinctive features for normal and crackles respiratory sounds using cepstral coefficients
Gore et al. Disease detection using voice analysis
Nallanthighal et al. COVID-19 detection based on respiratory sensing from speech
Johari et al. Distinctive Features for Classification of Respiratory Sounds Between Normal and Crackles Using Cepstral Coefficients

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20170129