RU2520420C2 - Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала - Google Patents

Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала Download PDF

Info

Publication number
RU2520420C2
RU2520420C2 RU2012141463/08A RU2012141463A RU2520420C2 RU 2520420 C2 RU2520420 C2 RU 2520420C2 RU 2012141463/08 A RU2012141463/08 A RU 2012141463/08A RU 2012141463 A RU2012141463 A RU 2012141463A RU 2520420 C2 RU2520420 C2 RU 2520420C2
Authority
RU
Russia
Prior art keywords
speech
channel
signal
attenuation
speech channel
Prior art date
Application number
RU2012141463/08A
Other languages
English (en)
Other versions
RU2012141463A (ru
Inventor
Ханнес МЮШ
Original Assignee
Долби Лабораторис Лайсэнзин Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лабораторис Лайсэнзин Корпорейшн filed Critical Долби Лабораторис Лайсэнзин Корпорейшн
Publication of RU2012141463A publication Critical patent/RU2012141463A/ru
Application granted granted Critical
Publication of RU2520420C2 publication Critical patent/RU2520420C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к средствам фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал. Технический результат заключается в повышении разборчивости речи, определяемой сигналом. Определяют по меньшей мере одно значение управления ослаблением, служащее признаком меры сходства между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определяемым неречевым каналом. Ослабляют неречевой канал в ответ по меньшей мере на одно значение управления ослаблением. Масштабируют необработанный сигнал управления ослаблением (например, сигнал управления усилением с подавлением слабого сигнала более сильным) для неречевого канала в ответ по меньшей мере на одно значение управления ослаблением. 10 н.з. и 56 з.п. ф-лы, 7 ил.

Description

Перекрестная ссылка на родственные заявки
Данная заявка заявляет приоритет предварительной заявки на патент США № 61/311437, поданной 8 марта 2010 г., которая полностью включена в настоящий документ посредством ссылки.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ
1. Область технического применения
Изобретение относится к системам и способам улучшения разборчивости человеческой речи (например, диалога), определенной многоканальным звуковым сигналом. В некоторых вариантах осуществления изобретение представляет собой способ и систему для фильтрации звукового сигнала, содержащего речевой канал и неречевой канал, с целью улучшения разборчивости речи, определенной сигналом, путем определения по меньшей мере одного значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным неречевым каналом, и ослабления неречевого канала в ответ на значение управления ослаблением.
2. Предпосылки изобретения
Повсюду в данном раскрытии, включая формулу изобретения, термин «речь» употребляется в широком смысле для обозначения человеческой речи. Поэтому «речь», определенная звуковым сигналом, представляет собой звуковое содержание сигнала, которое воспринимается как человеческая речь (например, диалог, монолог, пение или другая человеческая речь) при воспроизведении сигнала громкоговорителем (или другим звукоизлучающим преобразователем). Согласно типичным вариантам осуществления изобретения, слышимость речи, определенной звуковым сигналом, улучшается относительно другого звукового содержания (например, инструментальной музыки или неречевых звуковых эффектов), определенного сигналом, что, таким образом, улучшает разборчивость (например, ясность или легкость понимания) речи.
Повсюду в данном раскрытии, включая формулу изобретения, выражение «усиливающее речь содержание» канала или многоканального звукового сигнала представляет содержание (определенное каналом), которое усиливает разборчивость или другое воспринимаемое качество речевого содержания, определенное другим каналом (например, речевым каналом) сигнала.
Типичные варианты осуществления изобретения предполагают, что большая часть речи, определенная многоканальным входным звуковым сигналом, определяется центральным каналом этого сигнала. Это предположение находится в соответствии с общепринятым условием при получении окружающего звука, согласно которому большая часть речи обычно помещается только в один канал (центральный канал), и большая часть музыки, звукового сопровождения и звуковых эффектов обычно микшируется во все каналы (например, в левый, правый, левый окружающий и правый окружающий также хорошо, как и в центральный канал).
Поэтому центральный канал многоканального звукового сигнала в данном раскрытии иногда будет именоваться «речевым» каналом, а все остальные каналы сигнала (например, левый, правый, левый окружающий и правый окружающий) в данном описании иногда будут именоваться «неречевыми» каналами. Аналогично, «центральный» канал, генерируемый путем суммирования левого и правого каналов стереофонического сигнала, речь которого панорамируется по центру, в данном раскрытии иногда будет именоваться «речевым» каналом, а «побочный» канал, генерируемый путем вычитания такого центрального канала из левого (или правого) канала стереофонического сигнала, в данном раскрытии иногда будет именоваться «неречевым» каналом.
Повсюду в данном раскрытии, включая формулу изобретения, выражение выполнения операции «на» сигналах или данных (например, фильтрация, масштабирование, или преобразование сигналов или данных) употребляется в широком смысле для обозначения выполнения операции непосредственно на сигналах или данных или на обработанных версиях сигналов или данных (например, на версиях сигналов, которые перед выполнением на них указанной операции были подвергнуты предварительной фильтрации).
Повсюду в данном раскрытии, включая формулу изобретения, выражение «система» употребляется в широком смысле для обозначения устройства, системы или подсистемы. Например, подсистема, которая реализует декодер, может именоваться системой декодера, и система, содержащая такую подсистему (например, система, которая генерирует Х выходных сигналов в ответ на ряд входных сигналов, в которой подсистема генерирует М входных сигналов, и остальные Х-М входные сигналы принимаются из внешнего источника), также может именоваться системой декодера.
Повсюду в данном раскрытии, включая формулу изобретения, выражение «соотношение» первой величины («А») ко второй величине («В») употребляется в широком смысле для обозначения A/B, или B/A, или соотношения масштабированной, или смещенной, версии одной из величин, А или В, и масштабированной, или смещенной, версии другой величины, А или В (например, (A+x)/(B+y), где x и y - значения смещения).
Повсюду в данном раскрытии, включая формулу изобретения, выражение «воспроизведение» сигналов звукоизлучающими преобразователями (например, динамиками) обозначает вызов преобразователей для генерирования звука в ответ на сигналы, включая выполнение любого требуемого усиления и/или другой обработки сигналов.
Когда речь слышится в присутствии конкурирующих звуков (так, как при слушании друга сквозь шум толпы в ресторане), часть акустических свойств, которые передают фонематическое содержание речи (реплик), маскируется конкурирующими звуками и больше не является доступной слушателю для декодирования сообщения. По мере того как уровень конкурирующего звука увеличивается относительно уровня речи, сокращается количество реплик, которые принимаются верно, и восприятие речи постепенно становится все более затруднительным до тех пор, пока, при некотором уровне конкурирующего звука, процесс восприятия речи не прекратится. И хотя данная зависимость сохраняет силу для всех слушателей, уровень конкурирующего звука, который является допустимым для любого уровня речи, неодинаков для всех слушателей. Некоторые слушатели, например те, у которых потеря слуха по причине старения (пресбиакузиса), или те, которые слушают язык, приобретенный ими после полового созревания, менее способны к тому, чтобы переносить конкурирующие звуки, чем слушатели с хорошим слухом или слушатели, использующие их родной язык.
Тот факт, что слушатели отличаются своей способностью понимать речь в присутствии конкурирующих звуков, имеет последствия для уровня, на котором звуковое сопровождение и музыкальный фон в новостях или развлекательном звуковом материале смешивается с речью. Слушатели с потерей слуха, или слушатели, использующие иностранный язык, часто предпочитают менее высокий относительный уровень неречевого звукового материала, чем тот уровень, который предусматривается информационным наполнителем.
Для приспособления к этим специальным потребностям известно применение ослабления (подавления слабого сигнала более сильным) к неречевым каналам многоканального звукового сигнала, и применение меньшего ослабления (или отсутствие его применения) к речевому каналу сигнала для того, чтобы улучшить разборчивость речи, определяемой сигналом.
Например, международная заявка PCT, номер публикации WO №2010/011377, именующая автором изобретения Hannes Muesch и переданная Dolby Laboratories Licensing Corporation (опубликована 28 января 2010 г.), раскрывает то, что неречевые каналы (например, левый и правый каналы) многоканального звукового сигнала могут маскировать речь в речевом канале сигнала (например, в центральном канале) до точки, в которой требуемый уровень разборчивости речи больше не является удовлетворительным. WO №2010/011377 описывает, как определить функцию ослабления, предназначенную для ее применения схемой подавления слабого сигнала более сильным к неречевым каналам в попытке демаскировать речь в речевом канале, сохраняя при этом максимальную возможную часть замысла информационного наполнителя. Технология, описанная в WO №2010/011377, основывается на допущении, что содержание неречевого канала никогда не улучшает разборчивость (или другое воспринимаемое качество) речевого содержания, определенного речевым каналом.
Настоящее изобретение частично основывается на признании того, что, несмотря на то, что данное допущение верно для подавляющей части многоканального звукового содержания, оно действительно не всегда. Автор изобретения признал, что, когда по меньшей мере один неречевой канал многоканального звукового сигнала не содержит содержание, которое улучшает разборчивость (или другое воспринимаемое качество) речевого содержания, определяемого речевым каналом сигнала, фильтрация сигнала по способу согласно WO №2010/011377 может отрицательно повлиять на развлекательные впечатления лица, прослушивающего воспроизводимый фильтрованный сигнал. Согласно типичным вариантам осуществления настоящего изобретения, в те моменты времени, когда содержание не согласуется с допущением, лежащим в основе способа согласно WO №2010/011377, применение способа, описанного в WO №2010/011377, приостанавливается или модифицируется.
Существует потребность в способе и системе для фильтрации многоканального звукового сигнала с целью улучшения разборчивости речи в общем случае, когда по меньшей мере один неречевой канал звукового сигнала содержит содержание, которое улучшает разборчивость речевого содержания в речевом канале звукового сигнала.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В первом классе вариантов осуществления изобретение представляет собой способ фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определенной сигналом. Способ предусматривает следующие этапы: (a) определение по меньшей мере одного значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенный речевым каналом, и относящимся к речи содержанием, определенным по меньшей мере одним неречевым каналом многоканального звукового сигнала; и (b) ослабление по меньшей мере одного неречевого канала многоканального звукового сигнала в ответ по меньшей мере на одно значение управления ослаблением. Как правило, этап ослабления содержит масштабирование необработанного сигнала управления ослаблением (например, сигнала управления усилением с подавлением слабого сигнала более сильным) для неречевого канала в ответ по меньшей мере на одно значение управления ослаблением. Предпочтительно, неречевой канал ослабляется так, чтобы улучшить разборчивость речи, определенной речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного неречевым каналом. В некоторых вариантах осуществления изобретения каждое значение управления ослаблением, определенное на этапе (а), служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным одним неречевым каналом звукового сигнала, и этап (b) предусматривает этап ослабления указанного неречевого канала в ответ на каждое указанное значение управления ослаблением. В некоторых других вариантах осуществления изобретения этап (а) предусматривает этап получения производного неречевого канала из по меньшей мере одного неречевого канала звукового сигнала, и по меньшей мере одно значение управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным производным неречевым каналом. Например, производный неречевой канал может быть сгенерирован путем суммирования, или иного микширования или сочетания по меньшей мере двух неречевых каналов звукового сигнала. Определение каждого значения управления ослаблением из единственного производного неречевого канала может снижать стоимость и сложность реализации некоторых вариантов осуществления изобретения в отношении стоимости и сложности определения различных подмножеств множества значений коэффициента ослабления из других неречевых каналов. В тех вариантах осуществления изобретения, где входной звуковой сигнал содержит по меньшей мере два неречевых канала, этап (b) может предусматривать этап ослабления подмножества неречевых каналов (например, каждого из неречевых каналов, из которых был получен производный неречевой канал) или всех неречевых каналов в ответ по меньшей мере на одно значение управления ослаблением (например, в ответ на единственную последовательность значений управления ослаблением).
В некоторых вариантах осуществления изобретения в первом классе этап (а) предусматривает этап генерирования сигнала управления ослаблением, служащего признаком последовательности значений управления ослаблением, где каждое из значений управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным по меньшей мере одним неречевым каналом, в разное время (например, в другом промежутке времени), и этап (b) предусматривает следующие этапы: масштабирование сигнала управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал управления ослаблением с целью генерирования масштабированного сигнала управления усилением, и применение масштабированного сигнала управления усилением для ослабления по меньшей мере одного неречевого канала (например, передачу масштабированного сигнала управления усилением в схему подавления слабого сигнала более сильным с целью управления ослаблением схемой подавления слабого сигнала более сильным по меньшей мере одного неречевого канала). Например, в некоторых таких вариантах осуществления изобретения этап (а) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств (служащей признаком относящегося к речи содержания, определенного речевым каналом) со второй последовательностью относящихся к речи характерных свойств (служащей признаком относящегося к речи содержания, определенного по меньшей мере одним неречевым каналом) с целью генерирования сигнала управления ослаблением, и каждое из значений управления ослаблением, указываемых сигналом управления ослаблением, служит признаком меры сходства между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств в разное время (например, в другом промежутке времени). В некоторых вариантах осуществления изобретения каждое значение управления ослаблением представляет собой значение управления усилением.
В некоторых вариантах осуществления изобретения в первом классе каждое значение управления ослаблением монотонно относится к вероятности того, что по меньшей мере один неречевой канал звукового сигнала служит признаком усиливающего речь содержания, которое улучшает разборчивость (или другое воспринимаемое качество) речевого содержания, определенного речевым каналом. В некоторых других вариантах осуществления изобретения в первом классе каждое значение управления ослаблением монотонно относится к ожидаемому усиливающему речь значению по меньшей мере одного неречевого канала (например, по мере вероятности того, что по меньшей мере один неречевой канал служит признаком усиливающего речь содержания, умноженного на меру улучшения воспринимаемого качества, которое усиливающее речь содержание, определенное по меньшей мере одним неречевым каналом, могло бы обеспечивать для речевого содержания, определенного многоканальным сигналом). Например, когда этап (а) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного по меньшей мере одним неречевым каналом, первая последовательность относящихся к речи характерных свойств может представлять собой последовательность значений вероятности речи, каждое из которых указывает в разное время (например, в другом промежутке времени) вероятность того, что речевой канал служит признаком речи (а не иного, чем речь звукового содержания), и вторая последовательность относящихся к речи характерных свойств также может представлять собой последовательность значений вероятности речи, каждое из которых указывает в разное время (например, в другом промежутке времени) вероятность того, что неречевой канал служит признаком речи. Известны различные способы автоматического генерирования из звукового сигнала указанных последовательностей значений вероятности речи. Например, один из таких способов описан авторами Robinson и Vinton в препринте "Automated Speech/Other Discrimination for Loudness Monitoring" (Audio Engineering Society, Preprint number 6437 of Convention 118, май 2005 года).
В альтернативном варианте предполагается, что последовательности значений вероятности речи могут создаваться вручную (например, информационным наполнителем) и передаваться конечному пользователю параллельно с многоканальным звуковым сигналом.
Во втором классе вариантов осуществления изобретения, где многоканальный звуковой сигнал содержит речевой канал и по меньшей мере два неречевых канала, которые содержат первый неречевой канал и второй неречевой канал, способ изобретения включает следующие этапы: (а) определение по меньшей мере одного первого значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и вторым относящимся к речи содержанием, определенным первым неречевым каналом (например, определение, которое заключается в сравнении первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком второго относящегося к речи содержания); и (b) определение по меньшей мере одного второго значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и третьим относящимся к речи содержанием, определенным вторым неречевым каналом (определение, которое заключается в сравнении третьей последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, с четвертой последовательностью относящихся к речи характерных свойств, служащей признаком третьего относящегося к речи содержания, где третья последовательность относящихся к речи характерных свойств может быть идентична первой последовательности относящихся к речи характерных свойств из этапа (а)). Как правило, способ предусматривает этап ослабления первого неречевого канала (например, масштабируемого ослабления первого неречевого канала) в ответ по меньшей мере на одно первое значение управления ослаблением и ослабления второго неречевого канала (например, масштабируемого ослабления второго неречевого канала) в ответ по меньшей мере на одно второе значение управления ослаблением. Предпочтительно, каждый неречевой канал ослабляется так, чтобы улучшить разборчивость речи, определенной речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного тем или иным неречевым каналом.
В некоторых вариантах осуществления изобретения во втором классе:
по меньшей мере одно первое значение управления ослаблением, определенное на этапе (а), представляет собой последовательность значений управления ослаблением, и каждое из значений управления ослаблением представляет собой значение управления усилением, предназначенное для масштабирования величины усиления, применяемого к первому неречевому каналу схемой подавления слабого сигнала более сильным с тем, чтобы улучшить разборчивость речи, определенной речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного первым неречевым каналом; и
по меньшей мере одно второе значение управления ослаблением, определенное на этапе (b), представляет собой последовательность вторых значений управления ослаблением, и каждое из вторых значений управления ослаблением представляет собой значение управления усилением, предназначенное для масштабирования величины усиления, применяемого ко второму неречевому каналу схемой подавления слабого сигнала более сильным с тем, чтобы улучшить разборчивость речи, определенной речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного вторым неречевым каналом.
В третьем классе вариантов осуществления изобретение представляет собой способ фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определенной сигналом. Способ предусматривает следующие этапы: (а) сравнение характеристики речевого канала и характеристики неречевого канала с целью генерирования по меньшей мере одного значения коэффициента ослабления, предназначенного для управления ослаблением неречевого канала относительно речевого канала; и (b) корректировка по меньшей мере одного значения коэффициента ослабления в ответ по меньшей мере на одно значение вероятности усиления речи с целью генерирования по меньшей мере одного скорректированного значения коэффициента ослабления, предназначенного для управления ослаблением неречевого канала относительно речевого канала. Как правило, этап корректировки представляет собой (или содержит) масштабирование каждого указанного значения коэффициента ослабления в ответ на одно указанное значение вероятности усиления речи с целью генерирования указанного скорректированного значения коэффициента ослабления. Как правило, каждое значение вероятности усиления речи служит признаком (например, монотонно относится к) вероятности того, что неречевой канал (или неречевой канал, полученный из неречевого канала или из множества неречевых каналов входного звукового сигнала) служит признаком усиливающего речь содержания (содержания, которое улучшает разборчивость или другое воспринимаемое качество речевого содержания, определенного речевым каналом). В некоторых вариантах осуществления изобретения значение вероятности усиления речи служит признаком ожидаемого усиливающего речь значения для неречевого канала (например, мерой вероятности того, что неречевой канал служит признаком усиливающего речь содержания, умноженного на меру улучшения воспринимаемого качества, которое усиливающее речь содержание неречевого канала могло бы обеспечивать для речевого содержания, определенного многоканальным звуковым сигналом). В некоторых вариантах осуществления изобретения в третьем классе по меньшей мере одно значение вероятности усиления речи представляет собой последовательность сравнительных значений (например, значений разности), определенных по способу, который предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного неречевым каналом, и каждое из сравнительных значений является мерой сходства между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств в разное время (например, в другом промежутке времени). В типичных вариантах осуществления изобретения в третьем классе способ также включает этап ослабления неречевого канала в ответ по меньшей мере на одно скорректированное значение коэффициента ослабления. Этап (b) может содержать масштабирование по меньшей мере одного значения коэффициента ослабления (которое, как правило, является, или определяется, сигналом управления усилением с подавлением слабого сигнала более сильным или другого необработанного сигнала управления ослаблением) в ответ по меньшей мере на одно значение вероятности усиления речи.
В некоторых вариантах осуществления изобретения в третьем классе каждое значение коэффициента ослабления, генерируемое на этапе (а), представляет собой первый множитель, служащий признаком величины коэффициента ослабления неречевого канала, необходимой для ограничения соотношения мощности сигнала в неречевом канале и мощности сигнала в речевом канале так, чтобы оно не превышало предварительно определенное пороговое значение, масштабированное посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи. Как правило, этап корректировки в этих вариантах осуществления изобретения представляет собой (или содержит) масштабирование каждого указанного значения коэффициента ослабления посредством одного указанного значения вероятности усиления речи с целью генерирования одного указанного скорректированного значения коэффициента ослабления, где значение вероятности усиления речи представляет собой множитель, монотонно связанный с одной из следующих величин: вероятностью того, что неречевой канал служит признаком усиливающего речь содержания (содержания, которое увеличивает разборчивость, или другое воспринимаемое качество, речевого содержания, определенного многоканальным звуковым сигналом), и ожидаемым усиливающим речь значением для неречевого канала (например, мерой вероятности того, что неречевой канал служит признаком усиливающего речь содержания, умноженной на меру улучшения воспринимаемого качества, которое усиливающее речь содержание неречевого канала могло бы обеспечивать для речевого содержания, определяемого многоканальным звуковым сигналом).
В некоторых вариантах осуществления изобретения в третьем классе каждое значение коэффициента ослабления, генерируемое на этапе (а), представляет собой первый множитель, служащий признаком величины (например, минимальной величины) ослабления неречевого канала, достаточной для того, чтобы вызывать превышение предварительно определенного порогового значения прогнозируемой разборчивостью речи, определяемой речевым каналом в присутствии содержания, определенного неречевым каналом, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи. Предпочтительно, прогнозируемая разборчивость речи, определенная речевым каналом в присутствии содержания неречевого канала, определяется согласно модели прогнозирования разборчивости на психоакустической основе. Как правило, этап корректировки в данных вариантах осуществления изобретения представляет собой (или содержит) масштабирование каждого указанного значения коэффициента ослабления посредством одного указанного значения вероятности усиления речи с целью генерирования одного указанного скорректированного значения коэффициента ослабления, где значение вероятности усиления речи представляет собой множитель, монотонно связанный с одной из следующих величин: вероятностью того, что неречевой канал служит признаком усиливающего речь содержания, и ожидаемым усиливающим речь значением неречевого канала.
В некоторых вариантах осуществления изобретения в третьем классе этап (а) предусматривает этапы генерирования каждого указанного значения коэффициента ослабления, заключающегося в определении спектра мощности (служащего признаком мощности как функции частоты) каждого из каналов, речевого канала и неречевого канала, и выполнения в частотной области определения значения коэффициента ослабления в ответ на каждый из указанных спектров мощности. Предпочтительно, значения коэффициента ослабления, генерируемые таким образом, определяют ослабление как функцию частоты, которую необходимо приложить к частотным составляющим неречевого канала.
В одном из классов вариантов осуществления изобретение представляет собой способ и систему для усиления речи, определенной многоканальным входным звуковым сигналом. В некоторых вариантах осуществления изобретения система согласно изобретению содержит модуль (подсистему) анализа, сконфигурированный для анализа входного многоканального сигнала с целью генерирования значений управления ослаблением, и подсистему ослабления. Подсистема ослабления сконфигурирована для применения ослабления с подавлением слабого сигнала более сильным, которое управляется по меньшей мере некоторыми из значений управления ослаблением, к каждому неречевому каналу входного сигнала с целью генерирования фильтрованного выходного звукового сигнала. В некоторых вариантах осуществления изобретения подсистема ослабления содержит схему подавления слабого сигнала более сильным (управляемую по меньшей мере некоторыми из значений управления ослаблением), подключенную и сконфигурированную для применения ослабления (подавления слабого сигнала более сильным) к каждому неречевому каналу входного сигнала с целью генерирования фильтрованного выходного звукового сигнала. Схема подавления слабого сигнала более сильным управляется управляющими значениями в том смысле, что ослабление, которое она применяет к неречевым каналам, определяется текущими значениями управляющих значений.
В типичных вариантах осуществления изобретения система согласно изобретению представляет собой, или содержит, универсальный или специализированный процессор, запрограммированный посредством программного обеспечения (или встроенного программного обеспечения) и/или иначе сконфигурированный для выполнения одного из вариантов осуществления способа изобретения. В некоторых вариантах осуществления изобретения система согласно изобретению представляет собой универсальный процессор, подключенный для приема входных данных, служащих признаком входного звукового сигнала, и запрограммированный (посредством надлежащего программного обеспечения) на генерирование выходных данных, служащих признаком выходного звукового сигнала, в ответ на входные данные путем выполнения одного из вариантов осуществления способа изобретения. В других вариантах осуществления изобретения система согласно изобретению реализуется путем надлежащего конфигурирования (например, программирования) конфигурируемого процессора обработки цифровых звуковых сигналов (DSP). Звуковой DSP может представлять собой традиционный DSP, который является конфигурируемым (например, программируемым посредством надлежащего программного обеспечения или встроенного программного обеспечения, или иначе конфигурируемым в ответ на управляющие данные) для выполнения любой из ряда операций на входном звуковом сигнале. В действии звуковой DSP, который сконфигурирован для выполнения активного усиления речи согласно изобретению и подключается для приема входного звукового сигнала, и DSP, как правило, в дополнение к усилению речи (наряду с усилением речи) выполняет ряд операций на входном звуковом сигнале. Согласно различным вариантам осуществления изобретения, звуковой DSP является действующим для выполнения одного из вариантов осуществления способа изобретения после того, как он конфигурируется (например, программируется) для генерирования выходного звукового сигнала в ответ на входной звуковой сигнал путем выполнения способа на входном звуковом сигнале.
Особенности настоящего изобретения предусматривают систему, сконфигурированную (например, запрограммированную) для выполнения любого из вариантов осуществления способа изобретения, и машинно-читаемый носитель данных (например, диск), в памяти которого хранится код, предназначенный для реализации любого из вариантов осуществления способа изобретения.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
ФИГ. 1 - блок-схема одного из вариантов осуществления системы согласно изобретению.
ФИГ. 1A - блок-схема другого варианта осуществления системы согласно изобретению.
ФИГ. 2 - блок-схема другого варианта осуществления системы согласно изобретению. ФИГ. 2A - блок-схема другого варианта осуществления системы согласно изобретению. ФИГ. 3 - блок-схема другого варианта осуществления системы согласно изобретению.
ФИГ. 4 - блок-схема процессора обработки цифровых звуковых сигналов (DSP), который является одним из вариантов осуществления системы согласно изобретению.
ФИГ. 5 - блок-схема компьютерной системы, содержащей машинно-читаемый носитель данных 504, в памяти которого хранится компьютерный код, предназначенный для программирования системы с целью выполнения одного из вариантов осуществления способа изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Технологически возможными являются многие варианты осуществления настоящего изобретения. Из настоящего раскрытия средним специалистам в данной области будет ясно, как их реализовать. Варианты осуществления системы согласно изобретению, способа и носителя данных будут описаны со ссылкой к ФИГ. 1, 1A, 2, 2A и 3-5.
Автор изобретения сделал наблюдение, что содержание некоторых многоканальных звуковых сигналов имеет отличающееся, все еще относящееся к речи содержание в речевом канале и в по меньшей мере одном неречевом канале. Например, многоканальные звукозаписи некоторых театрализованных представлений микшированы так, что «сухая» речь (т.е. речь без заметной реверберации) помещается в речевой канал (как правило, центральный канал, С, сигнала), и та же речь, но со значительной реверберационной составляющей («сырая» речь), помещается в неречевые каналы сигнала. В типичном сценарии сухая речь представляет собой сигнал от микрофона, который театральный исполнитель держит близко ко рту, и сырая речь представляет собой сигнал от микрофонов, расположенных в аудитории. Сырая речь связана с сухой речью, поскольку она представляет собой то, как выступление слышится на месте в аудитории. Однако она отличается от сухой речи. Как правило, сырая речь запаздывает относительно сухой речи и имеет отличающийся спектр и различные дополнительные составляющие (например, шум в аудитории и реверберацию).
В зависимости от относительных уровней сухой и сырой речи существует возможность того, что сырая составляющая речи будет маскировать сухую составляющую речи до той степени, когда ослабление неречевых каналов в схеме подавления слабого сигнала более сильным (например, как в способе, описанном в процитированной выше заявке WO №2010/011377) будет нежелательным образом ослаблять сигнал сырой речи. Хотя сухую и сырую составляющие речи можно описать как отдельные сущности, слушатель в своем восприятии смешивает обе эти составляющие и слышит их как единый поток речи. Ослабление сырой составляющей речи (например, в схеме подавления слабого сигнала более сильным) может оказывать влияние, выражающееся в снижении воспринимаемой громкости смешанного речевого потока наряду с сокращением ширины его отображения. Автор изобретения осознал, что многоканальные звуковые сигналы, содержащие сырую и сухую составляющие речи отмеченного типа, часто могут быть более приятными для восприятия, а также в большей степени способствующими разборчивости речи, если уровень сырых составляющих речи не изменяется в ходе усиливающей речь обработки сигналов.
Изобретение частично основывается на осознании того, что, когда по меньшей мере один неречевой канал многоканального звукового сигнала содержит содержание, которое увеличивает разборчивость (или другое воспринимаемое качество) речевого содержания, определенного речевым каналом сигнала, фильтрация неречевых каналов сигнала с использованием схемы подавления слабого сигнала более сильным (например, в соответствии со способом WO №2010/011377) может отрицательно влиять на развлекательные впечатления лица, прослушивающего воспроизводимый фильтрованный сигнал. Согласно типичным вариантам осуществления изобретения, ослабление (в схеме подавления слабого сигнала более сильным) по меньшей мере одного неречевого канала многоканального звукового сигнала приостанавливается, или модифицируется, в те промежутки времени, когда неречевой канал содержит усиливающее речь содержание (содержание, которое улучшает разборчивость, или другое воспринимаемое качество, речевого содержания, определенного речевым каналом сигнала). В те моменты времени, когда неречевой канал не содержит усиливающее речь содержание (или не содержит усиливающее речь содержание, которое удовлетворяет предварительно определенному критерию), неречевой канал ослабляется нормально (ослабление не приостанавливается или не модифицируется).
Типичным многоканальным сигналом (содержащим речевой канал), для которого не подходит традиционная фильтрация в схеме подавления слабого сигнала более сильным, является сигнал, содержащий по меньшей мере один неречевой канал, который переносит речевые знаки, в значительной мере, идентичные речевым знакам в речевом канале. Согласно типичным вариантам осуществления настоящего изобретения, последовательность относящихся к речи характерных свойств в речевом канале сравнивается с последовательностью относящихся к речи характерных свойств в неречевом канале. Существенное сходство двух последовательностей свойств указывает на то, что неречевой канал (т.е. сигнал в неречевом канале) вносит вклад в информацию, полезную для понимания речи в речевом канале, и что ослабления неречевого канала следует избегать.
Для того чтобы оценить значимость изучения сходства между указанными последовательностями относящихся к речи характерных свойств, а не самих сигналов, важно понимать, что «сухое» и «сырое» речевое содержание (определенное речевым и неречевым каналами) не является идентичным; сигналы, служащие признаками двух типов речевого содержания, как правило, смещены во времени, подвергнуты отличающимся процессам фильтрации и содержат различные дополнительные посторонние составляющие. Поэтому прямое сравнение двух сигналов будет приводить к низкому сходству независимо от того, вносит ли неречевой канал речевые знаки, аналогичные речевым знакам в речевом канале (как в случае сухой и сырой речи), несвязанные речевые знаки (как в случае двух несвязанных голосов в речевом и неречевом каналах [например, целевой беседы в речевом канале и фоновой неразборчивой речи - в неречевом канале]), или вообще не переносит речевые знаки (например, неречевой канал переносит музыку и эффекты). Основываясь на сравнении характерных свойств речи (как в предпочтительных вариантах осуществления настоящего изобретения) достигается уровень абстракции, который уменьшает воздействие не относящихся к речи особенностей, таких как, например, небольшие величины задержки, спектральные различия и посторонние дополнительные сигналы. Таким образом, предпочтительные реализации изобретения генерируют по меньшей мере два потока характерных свойств речи: один - представляющий сигнал в речевом канале; и по меньшей мере один - представляющий сигнал в неречевом канале.
Первый вариант (125) осуществления системы согласно изобретению будет описан со ссылкой к ФИГ. 1. В ответ на многоканальный звуковой сигнал, содержащий речевой канал 101 (центральный канал С) и два неречевых канала 102 и 103 (левый и правый каналы L и R), система по ФИГ. 1 фильтрует неречевые каналы, генерируя фильтрованный многоканальный выходной звуковой сигнал, содержащий речевой канал 101 и фильтрованные неречевые каналы 118 и 119 (фильтрованные левый и правый каналы L' и R'). В альтернативном варианте один или оба неречевых канала 102 и 103 могут относиться к другому типу неречевых каналов многоканального звукового сигнала (например, к левому заднему и/или правому заднему каналам 5.1-канального звукового сигнала), или могут представлять собой производный неречевой канал, полученный из (например, являющийся комбинацией) любого из ряда различных подмножеств неречевых каналов многоканального звукового сигнала. В альтернативном варианте варианты осуществления системы согласно изобретению могут реализовываться для фильтрации только одного неречевого канала или более чем двух неречевых каналов многоканального звукового сигнала.
С отсылкой к ФИГ. 1, неречевые каналы 102 и 103, соответственно, направляются в усилители 117 и 116 с подавлением слабого сигнала более сильным. В действии усилитель 116 с подавлением слабого сигнала более сильным управляется управляющим сигналом S3 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S3 управляющих значений), выходящим из умножающего элемента 114, и усилитель 117 с подавлением слабого сигнала более сильным управляется управляющим сигналом S4 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S4 управляющих значений), выходящим из умножающего элемента 115.
Мощность каждого канала многоканального звукового сигнала измеряется блоком оценивателей мощности (104, 105 и 106) и выражается в логарифмической шкале [дБ]. Указанные оцениватели мощности могут реализовывать механизм сглаживания, такой как квазиинтегратор, для того, чтобы измеренный уровень мощности отражал уровень мощности, усредненный по всей продолжительности предложения или по всему проходу. Уровень мощности сигнала в речевом канале вычитается из уровня мощности в каждом из неречевых каналов (при помощи вычитающих элементов 107 и 108), давая меру соотношения между двумя типами сигналов. Выходной сигнал элемента 107 представляет собой меру соотношения мощности в неречевом канале 103 и мощности в речевом канале 101. Выходной сигнал элемента 108 представляет собой меру соотношения мощности в неречевом канале 102 и мощности в речевом канале 101.
Схема 109 сравнения определяет для каждого неречевого канала количество децибел (дБ), на которое неречевой канал должен быть ослаблен для того, чтобы его уровень мощности оставался по меньшей мере на
Figure 00000001
дБ ниже уровня мощности сигнала в речевом канале (где символ
Figure 00000001
, также известный как рукописная тета, обозначает предварительно определенное пороговое значение). В одной из реализаций схемы 109 элемент 120 сложения добавляет пороговое значение
Figure 00000001
(хранящееся в памяти элемента 110, который может представлять собой регистр) к разности уровней мощности (или «запасу») между неречевым каналом 103 и речевым каналом 101, и элемент 121 сложения добавляет пороговое значение
Figure 00000001
к разности уровней мощности между неречевым каналом 102 и речевым каналом 101. Элементы 111-1 и 112-1, соответственно, изменяют знак выходного сигнала элементов 120 и 121 сложения. Указанная операция изменения знака преобразовывает значения коэффициента ослабления в значения коэффициента усиления. Элементы 111 и 112 ограничивают каждый результат так, чтобы он был меньше или равен нулю (выходной сигнал элемента 111-1 подается в ограничитель 111, выходной сигнал элемента 112-1 подается в ограничитель 112). Текущее значение C1 выходного сигнала ограничителя 111 определяет усиление (отрицательное ослабление) в дБ, которое должно быть приложено к неречевому каналу 103 для того, чтобы его уровень мощности был на
Figure 00000001
дБ ниже уровня мощности речевого канала 101 (в настоящий момент времени, или в текущем временном окне, многоканального входного звукового сигнала). Текущее значение С2 выходного сигнала ограничителя 112 определяет усиление (отрицательное ослабление) в дБ, которое должно быть приложено к неречевому каналу 102 для того, чтобы его уровень мощности был на
Figure 00000001
дБ ниже уровня мощности речевого канала 101 (в настоящий момент времени, или в текущем временном окне, многоканального входного звукового сигнала). Типичное пригодное значение
Figure 00000001
составляет 15 дБ.
Поскольку между мерой, выраженной в логарифмической шкале (дБ), и той же мерой, выраженной в линейной шкале, существует однозначное соответствие, схема (или запрограммированный, или иначе сконфигурированный процессор), эквивалентная элементам 104, 105, 106, 107, 108 и 109 по ФИГ. 1, может быть построена и так, чтобы мощность, коэффициент усиления и пороговое значение были выражены в линейной шкале. В такой реализации все разности уровней замещаются соотношениями линейных мер. Альтернативные реализации могут замещать меру мощности мерами, которые связаны с уровнем сигнала, таким как абсолютное значение сигнала.
Сигнал С1 на выходе из ограничителя 111 представляет собой необработанный сигнал управления ослаблением для неречевого канала 103 (сигнал управления усилением для усилителя 116 с подавлением слабого сигнала более сильным), который может передаваться непосредственно в усилитель 116 для управления ослаблением с подавлением слабого сигнала более сильным неречевого канала 103. Сигнал С2 на выходе из ограничителя 112 представляет собой необработанный сигнал управления ослаблением для неречевого канала 102 (сигнал управления усилением для усилителя 117 с подавлением слабого сигнала более сильным), который может передаваться непосредственно в усилитель 117 для управления ослаблением с подавлением слабого сигнала более сильным неречевого канала 102.
Однако согласно изобретению необработанные сигналы C1 и С2 управления ослаблением масштабируются в умножающих элементах 114 и 115, которые генерируют сигналы S3 и S4 управления усилением, предназначенные для управления ослаблением с подавлением слабого сигнала более сильным неречевых каналов в усилителях 116 и 117. Сигнал С1 масштабируется в ответ на последовательность значений S1 управления ослаблением, и сигнал С2 масштабируется в ответ на последовательность значений S2 управления ослаблением. Каждое управляющее значение S1 передается от выхода обрабатывающего элемента 134 (будет описан ниже) на вход умножающего элемента 114, и сигнал С1 (и, соответственно, каждое «необработанное» значение С1 управления усилением, определяемое таким образом) передается из ограничителя 111 на другой вход элемента 114. Элемент 114 масштабирует текущее значение С1 в ответ на текущее значение S1 путем перемножения этих значений, генерируя текущее значение S3, которое передается в усилитель 116. Каждое управляющее значение S2 передается от выхода обрабатывающего элемента 135 (будет описан ниже) на вход умножающего элемента 115, и сигнал С2 (и, соответственно, каждое «необработанное» значение С2 управления усилением, определяемое таким образом) передается из ограничителя 112 на другой вход элемента 115. Элемент 115 масштабирует текущее значение С2 в ответ на текущее значение S1 путем перемножения этих значений, генерируя текущее значение S4, которое передается в усилитель 117.
Управляющие значения S1 и S2 генерируются согласно изобретению следующим образом. В элементах 130, 131 и 132 обработки вероятности речи для каждого канала многоканального входного сигнала генерируется сигнал вероятности речи (каждый из сигналов P, Q и T по Фиг. 1). Сигнал Р вероятности речи служит признаком последовательности значений вероятности речи для неречевого канала 102; сигнал Q вероятности речи служит признаком последовательности значений вероятности речи для речевого канала 101, и сигнал Т вероятности речи служит признаком последовательности значений вероятности речи для неречевого канала 103.
Сигнал Q вероятности речи представляет собой величину, монотонно связанную с вероятностью того, что сигнал в речевом канале действительно служит признаком речи. Сигнал Р вероятности речи представляет собой величину, монотонно связанную с вероятностью того, что сигнал в неречевом канале 102 является речевым, и сигнал Т вероятности речи представляет собой величину, монотонно связанную с вероятностью того, что сигнал в неречевом канале 103 является речевым. Процессоры 130, 131 и 132 (которые, как правило, идентичны друг другу, однако в некоторых вариантах осуществления изобретения не идентичны) могут реализовывать любой из нескольких способов автоматического определения вероятности того, что передаваемые в них входные сигналы служат признаками речи. В одном из вариантов осуществления изобретения процессоры 130, 131 и 132 вероятности речи идентичны друг другу, процессор 130 генерирует сигнал Р (из информации в неречевом канале 102) так, чтобы сигнал Р служил признаком последовательности значений вероятности речи, каждое из которых монотонно связано с вероятностью того, что сигнал в канале 102 в разное время (или в другом временном окне) является речевым, процессор 131 генерирует сигнал Q (из информации в канале 101) так, чтобы сигнал Q служил признаком последовательности значений вероятности речи, каждое из которых монотонно связано с вероятностью того, что сигнал в канале 101 в разное время (или в другом временном окне) является речевым, процессор 132 генерирует сигнал Т (из информации в неречевом канале 103) так, чтобы сигнал Т служил признаком последовательности значений вероятности речи, каждое из которых монотонно связано с вероятностью того, что сигнал в канале 102 в разное время (или в другом временном окне) является речевым, и каждый из процессоров 130, 131 и 132 выполняет это путем реализации (на относящемся к нему одном из каналов 101, 102 и 103) механизма, описанного авторами Robinson и Vinton в препринте "Automated Speech/Other Discrimination for Loudness Monitoring" (Audio Engineering Society, Preprint number 6437 of Convention 118, Май 2005 года). В альтернативном варианте сигнал Р может создаваться вручную, например, информационным наполнителем, и передаваться параллельно со звуковым сигналом в канале 102 конечному пользователю, и процессор 130 может просто извлекать указанный предварительно созданный сигнал Р из канала 102 (или процессор 130 может исключаться, а предварительно созданный сигнал Р может передаваться непосредственно в процессор 134). Аналогично, сигнал Q может создаваться вручную, например, информационным наполнителем, и передаваться параллельно со звуковым сигналом в канале 101 конечному пользователю, процессор 131 может просто извлекать указанный предварительно созданный сигнал Q из канала 101 (или процессор 131 может исключаться, а предварительно созданный сигнал Q может передаваться непосредственно в процессоры 134 и 135), сигнал T может создаваться вручную, например, информационным наполнителем, и передаваться параллельно со звуковым сигналом в канале 103 конечному пользователю, процессор 132 может просто извлекать указанный предварительно созданный сигнал T из канала 103 (или процессор 132 может исключаться, а предварительно созданный сигнал T может передаваться непосредственно в процессор 135).
В типичной реализации процессора 134 значения вероятности речи, определенные сигналами P и Q, попарно сравниваются с целью определения разности между текущими значениями сигналов P и Q для каждой из последовательностей текущих значений сигнала Р. В типичной реализации процессора 135 значения вероятности речи, определяемые сигналами T и Q, попарно сравниваются с целью определения разности между текущими значениями сигналов T и Q для каждой из последовательностей текущих значений сигнала Q. В результате каждый из процессоров 134 и 135 генерирует для пары сигналов вероятности речи временную последовательность значений разности.
Процессоры 134 и 135 предпочтительно реализуются так, чтобы они сглаживали каждую из указанных разностей путем усреднения во времени и, необязательно, масштабировали результирующую последовательность указанных усредненных значений разности. Масштабирование последовательностей усредненных значений разности может быть необходимо для того, чтобы масштабированные усредненные значения, выходящие из процессоров 134 и 135, находились в таком интервале, чтобы выходные сигналы умножающих элементов 114 и 115 были пригодны для управления усилителями 116 и 117 с подавлением слабого сигнала более сильным.
В типичной реализации сигнал S1, выходящий из процессора 134, представляет собой последовательность масштабированных усредненных значений разности (где каждое из этих масштабированных усредненных значений разности представляет собой масштабированное среднее разности между текущими значениями разности сигналов P и Q в другом временном окне). Сигнал S1 представляет собой сигнал управления усилением с подавлением слабого сигнала более сильным для неречевого канала 102 и применяется для масштабирования независимо генерируемого необработанного сигнала С1 управления усилением с подавлением слабого сигнала более сильным для неречевого канала 102. Аналогично, в типичной реализации сигнал S2, выходящий из процессора 135, представляет собой последовательность масштабированных усредненных значений разности (где каждое из этих масштабированных усредненных значений разности представляет собой масштабированное среднее разности между текущими значениями разности сигналов Т и Q в другом временном окне). Сигнал S2 представляет собой сигнал управления усилением с подавлением слабого сигнала более сильным для неречевого канала 103 и применяется для масштабирования независимо генерируемого необработанного сигнала С2 управления усилением с подавлением слабого сигнала более сильным для неречевого канала 103.
Масштабирование необработанного сигнала С1 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению может выполняться путем умножения (в элементе 114) каждого значения управления усилением сигнала С1 на соответствующее одно из масштабированных усредненных значений сигнала S1, что генерирует сигнал S3. Масштабирование необработанного сигнала C2 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению может выполняться путем умножения (в элементе 115) каждого значения управления усилением сигнала С2 на соответствующее одно из масштабированных усредненных значений разности сигнала S2, что генерирует сигнал S4.
Другой вариант (125') осуществления системы согласно изобретению будет описан с отсылкой к ФИГ. 1А. В ответ на многоканальный звуковой сигнал, содержащий речевой канал 101 (центральный канал С) и два неречевых канала 102 и 103 (левый и правый каналы L и R) система по ФИГ. 1А фильтрует неречевые каналы, генерируя фильтрованный многоканальный выходной звуковой сигнал, содержащий речевой канал 101 и фильтрованные неречевые каналы 118 и 119 (фильтрованные левый и правый каналы L' и R').
В системе по ФИГ. 1А (как и в системе по ФИГ. 1) неречевые каналы 102 и 103, соответственно, передаются в усилители 117 и 116 с подавлением слабого сигнала более сильным. В действии усилитель 117 с подавлением слабого сигнала более сильным управляется управляющим сигналом S4 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S4 управляющих значений), выходящим из умножающего элемента 115, и усилитель 116 с подавлением слабого сигнала более сильным управляется управляющим сигналом S3 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S3 управляющих значений), выходящим из умножающего элемента 114. Элементы 104, 105, 106, 107, 108, 109 (включая элементы 110, 120, 121, 111-1, 112-1, 111 и 112), 114, 115, 130, 131, 132, 134, и 135 по ФИГ. 1А идентичны (и функционируют идентично) идентично пронумерованным элементам по ФИГ. 1, и их описание, приведенное выше, повторяться не будет.
Система по ФИГ. 1А отличается от системы по ФИГ. 1 тем, что для масштабирования управляющего сигнала C1 (передаваемого от выхода ограничивающего элемента 111) применяется управляющий сигнал V1 (передаваемый от выхода усилителя 214), а не управляющий сигнал S1 (передаваемый от выхода процессора 134), и для масштабирования управляющего сигнала C2 (передаваемого от выхода ограничивающего элемента 112) применяется управляющий сигнал V2 (передаваемый от выхода усилителя 215), а не управляющий сигнал S2 (передаваемый от выхода процессора 135). На ФИГ. 1А масштабирование необработанного сигнала C1 управления усилением с подавлением слабого сигнала более сильным в ответ на последовательность значений V1 управления ослаблением согласно изобретению выполняется путем умножения (в элементе 114) каждого необработанного значения управления усилением сигнала C1 на соответствующее одно из значений V1 управления ослаблением, что генерирует сигнал S3, и масштабирование необработанного сигнала C2 управления усилением с подавлением слабого сигнала более сильным в ответ на последовательность значений V2 управления ослаблением согласно изобретению выполняется путем умножения (в элементе 115) каждого необработанного значения управления усилением сигнала C2 на соответствующее одно из значений V2 управления ослаблением, что генерирует сигнал S4.
Для генерирования последовательности значений V1 управления ослаблением сигнал Q (передаваемый от выхода процессора 131) передается на вход умножителя 214, и управляющий сигнал S1 (передаваемый от выхода процессора 134) передается на другой вход умножителя 214. Выходной сигнал умножителя 214 представляет собой последовательность значений V1 управления ослаблением. Каждое из значений V1 управления ослаблением представляет собой одно из значений вероятности речи, определяемых сигналом Q, масштабированное посредством соответствующего одного из значений S1 управления ослаблением.
Аналогично, для генерирования последовательности значений V2 управления ослаблением сигнал Q (передаваемый от выхода процессора 131) передается на вход умножителя 215, и управляющий сигнал S2 (передаваемый от выхода процессора 135) передается на другой вход умножителя 215. Выходной сигнал умножителя 215 представляет собой последовательность значений V2 управления ослаблением. Каждое из значений V2 управления ослаблением представляет собой одно из значений вероятности речи, определяемых сигналом Q, масштабированное посредством соответствующего одного из значений S2 управления ослаблением.
Система по ФИГ. 1 (или система по ФИГ. 1А) может быть реализована как программное обеспечение процессором (например, процессором 501 по ФИГ. 5), который запрограммирован на реализацию описанных операций системы по ФИГ. 1 (или 1А). В альтернативном варианте он может быть реализован в аппаратном обеспечении с элементами схемы, соединенными так, как это показано на ФИГ. 1 (или 1А).
В изменениях варианта осуществления изобретения по ФИГ. 1 (или по ФИГ. 1А) масштабирование необработанного сигнала С1 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S1 (или V1) управления усилением с подавлением слабого сигнала более сильным согласно изобретению (с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным для управления усилителем 116) может выполняться нелинейным образом. Например, указанное нелинейное масштабирование может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S3), который не вызывает подавление слабого сигнала более сильным в усилителе 116 (т.е. вызывает применение усилителем 116 единичного коэффициента усиления и, таким образом, не приводит к ослаблению канала 103) тогда, когда текущее значение сигнала S1 (или V1) находится ниже порогового значения, и вызывает приравнивание текущего значения сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S3) текущему значению сигнала С1 (таким образом, сигнал S1 (или V1) не модифицирует текущее значение С1) тогда, когда текущее значение сигнала S1 превышает пороговое значение. В альтернативном варианте с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 116, может выполняться другое линейное или нелинейное масштабирование сигнала С1 (в ответ на сигнал S1, или V1, управления усилением с подавлением слабого сигнала более сильным согласно изобретению). Например, указанное масштабирование сигнала С1 может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S3), который не вызывает подавление слабого сигнала более сильным в усилителе 116 (т.е. вызывает применение усилителем 116 единичного коэффициента усиления) тогда, когда текущее значение сигнала S1 (или V1) находится ниже порогового значения, и вызывает приравнивание сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S3) текущему значению сигнала С1, умноженному на текущее значение сигнала S1 или V1 (или какому-либо другому значению, определяемому из этого произведения), тогда, когда текущее значение сигнала S1 (или V1) превышает пороговое значение.
Аналогично, в изменениях варианта осуществления изобретения по ФИГ. 1 (или варианта по ФИГ. 1А) масштабирование необработанного сигнала С2 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S2 (или V2) управления усилением с подавлением слабого сигнала более сильным согласно изобретению (с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным для управления усилителем 117) может выполняться нелинейным образом. Например, указанное нелинейное масштабирование может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S4), который не вызывает подавление слабого сигнала более сильным в усилителе 117 (т.е. вызывает применение усилителем 117 единичного коэффициента усиления и, таким образом, не приводит к ослаблению канала 102) тогда, когда текущее значение сигнала S2 (или V2) находится ниже порогового значения, и вызывает приравнивание текущего значения сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S4) текущему значению сигнала С2 (таким образом, сигнал S2 (или V2) не модифицирует текущее значение С2) тогда, когда текущее значение сигнала S2 превышает пороговое значение. В альтернативном варианте с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 117, может выполняться другое линейное или нелинейное масштабирование сигнала С2 (в ответ на сигнал S2, или V2, управления усилением с подавлением слабого сигнала более сильным согласно изобретению). Например, указанное масштабирование сигнала С2 может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S4), который не вызывает подавление слабого сигнала более сильным в усилителе 117 (т.е. вызывает применение усилителем 117 единичного коэффициента усиления) тогда, когда текущее значение сигнала S2 (или V2) находится ниже порогового значения, и вызывает приравнивание сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S4) текущему значению сигнала С2, умноженному на текущее значение сигнала S2 или V2 (или какому-либо другому значению, определяемому из этого произведения), тогда, когда текущее значение сигнала S2 (или V2) превышает пороговое значение.
Другой вариант (225) осуществления системы согласно изобретению будет описан с отсылкой к ФИГ. 2. В ответ на многоканальный звуковой сигнал, содержащий речевой канал 101 (центральный канал С) и два неречевых канала 102 и 103 (левый и правый каналы L и R) система по ФИГ. 2 фильтрует неречевые каналы, генерируя фильтрованный многоканальный выходной звуковой сигнал, содержащий речевой канал 101 и фильтрованные неречевые каналы 118 и 119 (фильтрованные левый и правый каналы L' и R').
В системе по ФИГ. 2 (как и в системе по ФИГ. 1) неречевые каналы 102 и 103, соответственно, предаются в усилители 117 и 116 с подавлением слабого сигнала более сильным. В действии усилитель 117 с подавлением слабого сигнала более сильным управляется управляющим сигналом S6 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S6 управляющих значений), выходящим из умножающего элемента 115, и усилитель 116 с подавлением слабого сигнала более сильным управляется управляющим сигналом S5 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S5 управляющих значений), выходящим из умножающего элемента 114. Элементы 114, 115, 130, 131, 132, 134 и 135 по ФИГ. 2 идентичны (и функционируют идентично) идентично пронумерованным элементам по ФИГ. 1, и их описание, приведенное выше, повторяться не будет.
Система по ФИГ. 2 измеряет мощность сигналов в каждом из каналов 101, 102 и 103 при помощи блока оценивателей мощности, 201, 202 и 203. В отличие от их аналогов по ФИГ. 1 каждый из оценивателей 201, 202 и 203 мощности измеряет распределение мощности сигнала по частоте (т.е. мощность в каждой отличающейся полосе из множества частотных полос соответствующего канала), что в результате приводит к спектру мощности, а не к единственному числу для каждого канала. Спектральное разрешение каждого из спектров мощности идеально соответствует спектральному разрешению моделей прогнозирования разборчивости, реализованных в элементах 205 и 206 (обсуждаются ниже).
Спектр мощности подается в схему 204 сравнения. Целью схемы 204 является определение ослабления, которое необходимо применить к каждому из неречевых каналов для того, чтобы гарантировать, что сигнал в неречевом канале не будет понижать разборчивость сигнала в речевом канале ниже предварительно определенного критерия. Эта функция выполняется путем использования схемы (205 и 206) прогнозирования разборчивости, которая прогнозирует разборчивость речи на основе спектра мощности сигнала (201) речевого канала и сигналов (202 и 203) неречевых каналов. Схемы 205 и 206 прогнозирования разборчивости могут реализовывать подходящую модель прогнозирования разборчивости согласно альтернативам и компромиссам конструкции. Примерами являются: Индекс разборчивости речи, описанный в стандарте ANSI S3.5-1997 ("Способы оценки индекса разборчивости речи"), и модель Чувствительности распознавания речи авторов Muesch и Buus ("Использование теории статистических решений для прогнозирования разборчивости речи I. Модель структуры" Journal of the Acoustical Society of America, 2001, Vol.109, p 2896-2909). Ясно, что выходной сигнал модели прогнозирования разборчивости не имеет смысла, если сигнал в речевом канале представляет собой какой-либо другой сигнал, отличающийся от речевого. Несмотря на это то, что следует за выходом модели прогнозирования разборчивости, будет именоваться прогнозируемой разборчивостью речи. Погрешность восприятия учитывается при последующей обработке путем масштабирования значений коэффициента усиления на выходе схемы 204 сравнения посредством параметров S1 и S2, каждый из которых относится к вероятности того, что сигнал в речевом канале служит признаком речи.
Общность моделей прогнозирования разборчивости заключается в том, что они прогнозируют или увеличенную, или неизменную разборчивость речи как результат снижения уровня неречевого сигнала. Продолжая последовательность операций процесса по ФИГ. 2, схемы 207 и 208 сравнения сравнивают прогнозируемую разборчивость с предварительно определенным значением критерия. Если элемент 205 определяет, что уровень неречевого канала 103 является настолько низким, что прогнозируемая разборчивость превышает критерий, параметр усиления, который изначально имеет значение 0 дБ, извлекается из схемы 209 и подается в схему 211 как выходной сигнал C3 схемы 204 сравнения. Если элемент 206 определяет, что уровень неречевого канала 102 является настолько низким, что прогнозируемая разборчивость превышает критерий, параметр усиления, который изначально имеет значение 0 дБ, извлекается из схемы 210 и подается в схему 212 как выходной сигнал C4 схемы 204 сравнения. Если элемент 205 или 206 определяет несоответствие критерию, параметр усиления (в соответствующем одном из элементов 209 и 210) понижается на фиксированную величину, и прогнозирование разборчивости повторяется. Подходящая величина шага для снижения коэффициента усиления составляет 1 дБ. Описанная выше итерация повторяется до тех пор, пока прогнозируемая разборчивость не будет соответствовать или превышать значение критерия.
Разумеется, возможно, что сигнал в речевом канале таков, что критерий разборчивости не может быть достигнут даже в отсутствие сигнала в неречевом канале. Примером такой ситуации является речевой сигнал с очень низким уровнем или с жестко ограниченной полосой пропускания. Если это случится, то будет достигаться точка, в которой какое-либо дальнейшее прогнозирование коэффициента усиления, применяемого к неречевому каналу, не будет оказывать влияния на прогнозируемую разборчивость речи, и соответствие критерию не будет достигаться никогда. При таком условии цикл, образованный элементами 205, 207 и 209 (или элементами 206, 208 и 210), продолжается неограниченно, и для прерывания цикла может применяться дополнительная логика (не показана). Одним из простых частных примеров такой логики является подсчет количества итераций и выход из цикла в случае, когда превышено предварительно заданное количество итераций.
Масштабирование необработанного сигнала С3 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению может выполняться путем умножения (в элементе 114) каждого необработанного значения управления усилением сигнала С3 на соответствующее одно из масштабированных усредненных значений разности из сигнала S1, что генерирует сигнал S5. Масштабирование необработанного сигнала С4 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению может выполняться путем умножения (в элементе 115) каждого необработанного значения управления усилением сигнала С4 на соответствующее одно из масштабированных усредненных значений разности из сигнала S2, что генерирует сигнал S6.
Система по ФИГ. 2 может реализовываться как программное обеспечение процессором (например, процессором 501 по ФИГ. 5), который запрограммирован на реализацию описанных операций системы по ФИГ. 2. В альтернативном варианте она может реализовываться в аппаратном обеспечении с элементами схемы, соединенными так, как это показано на ФИГ. 2.
В изменениях варианта осуществления изобретения по ФИГ. 2 масштабирование необработанного сигнала С3 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению (с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 116) может выполняться нелинейным образом. Например, указанное нелинейное масштабирование может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S5), который не вызывает подавление слабого сигнала более сильным в усилителе 116 (т.е. вызывает применение усилителем 116 единичного коэффициента усиления и, таким образом, не приводит к ослаблению канала 103) тогда, когда текущее значение сигнала S1 находится ниже порогового значения, и вызывает приравнивание сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S5) текущему значению сигнала С3 (таким образом, сигнал S1 не модифицирует текущее значение С3) тогда, когда текущее значение сигнала S1 превышает пороговое значение. В альтернативном варианте с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 116, может выполняться другое линейное или нелинейное масштабирование сигнала С3 (в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению). Например, указанное масштабирование сигнала С3 может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S5), который не вызывает подавление слабого сигнала более сильным в усилителе 116 (т.е. вызывает применение усилителем 116 единичного коэффициента усиления) тогда, когда текущее значение сигнала S1 находится ниже порогового значения, и вызывает приравнивание текущего значения сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S5) текущему значению С3, умноженному на текущее значение сигнала S1 (или какому-либо другому значению, определенному из этого произведения), тогда, когда текущее значение сигнала S1 превышает пороговое значение.
Аналогично, в изменениях варианта осуществления изобретения по ФИГ. 2 масштабирование необработанного сигнала С4 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению (с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 117) может выполняться нелинейным образом. Например, указанное нелинейное масштабирование может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S6), который не вызывает подавление слабого сигнала более сильным в усилителе 117 (т.е. вызывает применение усилителем 117 единичного коэффициента усиления и, таким образом, не приводит к подавлению канала 102) тогда, когда текущее значение сигнала S2 находится ниже порогового значения, и вызывает приравнивание сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S6) текущему значению сигнала С4 (таким образом, сигнал S2 не модифицирует текущее значение С4) тогда, когда текущее значение сигнала S2 превышает пороговое значение. В альтернативном варианте с целью генерирования сигнала управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 117, может выполняться другое линейное или нелинейное масштабирование сигнала С4 (в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению). Например, указанное масштабирование сигнала С4 может генерировать сигнал управления усилением с подавлением слабого сигнала более сильным (замещающий сигнал S6), который не вызывает подавление слабого сигнала более сильным в усилителе 117 (т.е. вызывает применение усилителем 117 единичного коэффициента усиления) тогда, когда текущее значение сигнала S2 находится ниже порогового значения, и вызывает приравнивание текущего значения сигнала управления усилением с подавлением слабого сигнала более сильным (замещающего сигнал S6) текущему значению С4, умноженному на текущее значение сигнала S2 (или какому-либо другому значению, определяемому из этого произведения), тогда, когда текущее значение сигнала S2 превышает пороговое значение.
Другой вариант (225') осуществления системы согласно изобретению будет описан с отсылкой к ФИГ. 2А. В ответ на многоканальный звуковой сигнал, содержащий речевой канал 101 (центральный канал С) и два неречевых канала 102 и 103 (левый и правый каналы L и R), система по ФИГ. 2А фильтрует неречевые каналы, генерируя фильтрованный выходной звуковой сигнал, содержащий речевой канал 101 и фильтрованные неречевые каналы 118 и 119 (фильтрованные левый и правый каналы L' и R').
В системе по ФИГ. 2А (как в системе по ФИГ. 2) неречевые каналы 102 и 103, соответственно, передаются в усилители 117 и 116 с подавлением слабого сигнала более сильным. В действии усилитель 117 с подавлением слабого сигнала более сильным управляется управляющим сигналом S6 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S6 управляющих значений), выходящим из умножающего элемента 115, и усилитель 116 с подавлением слабого сигнала более сильным управляется управляющим сигналом S5 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S5 управляющих значений), выходящим из умножающего элемента 114. Элементы 201, 202, 203, 204, 114, 115, 130 и 134 по ФИГ. 2А идентичны (и функционируют идентично) идентично пронумерованным элементам по ФИГ. 2, и их описание, приведенное выше, повторяться не будет.
Система по ФИГ. 2А отличается от системы по ФИГ. 2 двумя главными особенностями. Во-первых, система сконфигурирована для генерирования (т.е. получения) «производного» неречевого канала (L+R) из двух индивидуальных неречевых каналов (102 и 103) входного звукового сигнала и для определения значений (V3) управления ослаблением в ответ на указанный производный неречевой канал. Напротив, система по ФИГ. 2 определяет значения S1 управления ослаблением в ответ на один неречевой канал (канал 102) входного звукового сигнала и определяет значения S2 управления ослаблением в ответ на другой неречевой канал (канал 103) входного звукового сигнала. В действии система по ФИГ. 2А ослабляет каждый неречевой канал входного звукового сигнала (каждый из каналов 102 и 103) в ответ на одно и то же множество значений V3 управления ослаблением. Система по ФИГ. 2 в действии ослабляет неречевой канал 102 входного звукового сигнала в ответ на значения S2 управления ослаблением и ослабляет неречевой канал 103 входного звукового сигнала в ответ на отличающийся набор значений управления ослаблением (значений S1).
Система по ФИГ. 2А содержит элемент 129 сложения, входы которого подключены для приема неречевых каналов 102 и 103 входного звукового сигнала. Производный неречевой канал (L+R) передается на выход элемента 129. Элемент 130 обработки вероятности речи в ответ на производный неречевой канал L+R из элемента 129 передает сигнал Р вероятности речи. На ФИГ. 2А сигнал Р служит признаком последовательности значений вероятности речи для производного неречевого канала. Как правило, сигнал Р вероятности речи по ФИГ. 2А представляет собой значение, монотонно связанное с вероятностью того, что сигнал в производном неречевом канале является речевым. Сигнал Q вероятности речи (генерируемый процессором 131) по ФИГ. 2А идентичен описанному выше сигналу Q вероятности речи по ФИГ. 2.
Второе главное отношение, в котором система по ФИГ. 2А отличается от системы по ФИГ. 2, заключается в следующем. На ФИГ. 2А управляющий сигнал V3 (передаваемый от выхода умножителя 214) используется (в отличие от управляющего сигнала S1, передаваемого от выхода процессора 134) для масштабирования необработанного сигнала С3 управления усилением с подавлением слабого сигнала более сильным (передаваемого от выхода элемента 211), и управляющий сигнал V3 также используется (в отличие от управляющего сигнала S2, передаваемого от выхода процессора 135 по ФИГ. 2) для масштабирования необработанного сигнала C4 управления усилением с подавлением слабого сигнала более сильным (передаваемого от выхода элемента 212). На ФИГ. 2А масштабирование необработанного сигнала С3 управления усилением с подавлением слабого сигнала более сильным в ответ на последовательность значений управления ослаблением, указываемых сигналом V3 (именуемых значениями V3 управления ослаблением) согласно изобретению, выполняется путем умножения (в элементе 114) каждого необработанного значения управления усилением сигнала С3 на соответствующее одно из значений V3 управления ослаблением, что генерирует сигнал S5, и масштабирование необработанного сигнала С4 управления усилением с подавлением слабого сигнала более сильным в ответ на последовательность значений V3 управления ослаблением согласно изобретению выполняется путем умножения (в элементе 115) каждого необработанного значения управления усилением сигнала С4 на соответствующее одно из значений V3 управления ослаблением, что генерирует сигнал S6.
В действии система по ФИГ. 2А генерирует последовательность значений V3 управления ослаблением следующим образом. Сигнал Q вероятности речи (передаваемый от выхода процессора 131 по ФИГ. 2А) передается на вход умножителя 214, и на другой вход умножителя 214 передается сигнал S1 управления ослаблением (передаваемый от выхода процессора 134). Выходной сигнал умножителя 214 представляет собой последовательность значений V3 управления ослаблением. Каждое из значений V3 управления ослаблением представляет собой одно из значений вероятности речи, определяемых сигналом Q, масштабированное посредством соответствующего одного из значений S1 управления ослаблением.
Другой вариант (325) осуществления системы согласно изобретению будет описан с отсылкой к ФИГ. 3. В ответ на многоканальный звуковой сигнал, содержащий речевой канал 101 (центральный канал С) и два неречевых канала 102 и 103 (левый и правый каналы L и R), система по ФИГ. 3 фильтрует неречевые каналы, генерируя фильтрованный многоканальный выходной сигнал, содержащий речевой канал 101 и фильтрованные неречевые каналы 118 и 119 (фильтрованные левый и правый каналы L' и R').
В системе по ФИГ. 3 каждый из сигналов в трех входных каналах разделяется на спектральные составляющие блоком фильтров 301 (для канала 101), блоком фильтров 302 (для канала 102) и блоком фильтров 303 (для канала 103). Спектральный анализ может выполняться N-канальными блоками фильтров во временной области. Согласно одному из вариантов осуществления изобретения, каждый блок фильтров разделяет частотный диапазон на 1/3-октавные полосы, или имитирует фильтрацию, которая, как предполагается, происходит во внутреннем ухе человека. То, что сигнал, выходящий их каждого блока фильтров, состоит из N подсигналов, проиллюстрировано путем использования жирных линий.
В системе по ФИГ. 3 частотные составляющие сигналов в неречевых каналах 102 и 103, соответственно, передаются в усилители 117 и 116 с подавлением слабого сигнала более сильным. В действии усилитель 117 с подавлением слабого сигнала более сильным управляется управляющим сигналом S8 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S8 управляющих значений), выходящим из умножающего элемента 115', и усилитель 116 с подавлением слабого сигнала более сильным управляется управляющим сигналом S7 (который служит признаком последовательности управляющих значений и поэтому также именуется последовательностью S7 управляющих значений), выходящим из умножающего элемента 114'. Элементы 130, 131, 132, 134 и 135 по ФИГ. 3 идентичны (и функционируют идентично) идентично пронумерованным элементам по ФИГ. 1, и их описание, приведенное выше, повторяться не будет.
Процесс по ФИГ. 3 может рассматриваться как процесс в боковой ветви. Следуя по тракту сигнала, показанному на ФИГ. 3, каждый из N подсигналов, генерируемых в блоке 302 для неречевого канала 102, масштабируется посредством одного из членов множества из N значений коэффициента усиления в усилителе 117 с подавлением слабого сигнала более сильным, и каждый из N подсигналов, генерируемых в блоке 303 для неречевого канала 103, масштабируется посредством одного из членов множества из N значений коэффициента усиления в усилителе 116 с подавлением слабого сигнала более сильным. Получение указанных значений коэффициента усиления будет описано позднее. Затем масштабированные подсигналы рекомбинируются в единый звуковой сигнал. Это может осуществляться посредством простого суммирования (суммирующей схемой 313 для канала 102, и суммирующей схемой 314 - для канала 103). В альтернативном варианте может применяться блок синтезирующих фильтров, который согласуется с блоком анализирующих фильтров. Данный процесс в результате приводит к модифицированному неречевому сигналу R' (118) и модифицированному неречевому сигналу L' (119).
Переходя к описанию пути процесса по ФИГ. 3 в боковой ветви, выходной сигнал каждого из блоков фильтров делается доступным для соответствующего блока из N оценивателей (304, 305 и 306) мощности. Результирующие спектры мощности для каналов 101 и 102 служат входными сигналами в схему 307 оптимизации, которая в качестве выходного сигнала содержит N-мерный вектор С6 усиления. Результирующие спектры мощности для каналов 101 и 103 служат входными сигналами в схему 308 оптимизации, которая в качестве выходного сигнала содержит N-мерный вектор С5 усиления. Оптимизация задействует как схему (309 и 310) прогнозирования разборчивости, так и схему (311 и 312) вычисления громкости, предназначенные для нахождения вектора усиления, который максимизирует громкость каждого из неречевых каналов и при этом сохраняет предварительно определенный уровень прогнозируемой разборчивости речевого сигнала в канале 101. Подходящие модели прогнозирования разборчивости обсуждены с отсылкой к ФИГ. 2. Схемы 311 и 312 вычисления громкости могут реализовывать подходящую модель прогнозирования громкости согласно альтернативам и компромиссам конструкции. Примерами подходящих моделей являются Американский национальный стандарт ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds" и Германский стандарт DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum".
В зависимости от доступных вычислительных ресурсов и налагаемых ограничений форма и сложность схем (307, 308) оптимизации может широко варьироваться. Согласно одному из вариантов осуществления изобретения, применяется многомерная условная оптимизация по N свободным параметрам. Каждый параметр представляет коэффициент усиления, применяемый к одной из частотных полос неречевого канала. Для нахождения максимума могут применяться такие стандартные способы, как следование крутому склону в N-мерном пространстве поиска. В другом варианте осуществления изобретения менее требовательный в вычислительном плане подход накладывает на функции зависимости коэффициента усиления от частоты ограничения в том, что они являются членами небольшого множества возможных функций зависимости коэффициента усиления от частоты, такого как множество различных спектральных градиентов или полочных фильтров. При таком дополнительном ограничении задача оптимизации может быть сведена к небольшому количеству одномерных оптимизаций. В еще одном варианте осуществления изобретения выполняется исчерпывающий поиск по очень небольшому множеству возможных функций усиления. Последний подход может быть особенно желательным для приложений в реальном времени, где требуется постоянная вычислительная нагрузка и скорость поиска.
Средние специалисты в данной области легко оценят дополнительные ограничения, которые могут налагаться на оптимизацию согласно дополнительным вариантам осуществления настоящего изобретения. Одним из примеров является ограничение громкости модифицированного неречевого канала так, чтобы она была не больше громкости до модификации. Другой пример заключается в наложении предела на разности коэффициентов усиления между смежными частотными полосами с целью ограничения потенциала для временных искажений в блоке (313, 314) восстанавливающих фильтров или для уменьшения вероятности нежелательных модификаций тембра. Требуемые ограничения зависят как от технической реализации блока фильтров, так и от выбранного компромисса между улучшением разборчивости и модификацией тембра. Для ясности иллюстрации эти ограничения на ФИГ. 3 опущены.
Масштабирование N-мерного вектора С6 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению может выполняться путем умножения (в элементе 115') каждого необработанного значения управления усилением вектора С6 на соответствующее одно из масштабированных усредненных значений разности из сигнала S2, что генерирует N-мерный вектор S8 управления усилением с подавлением слабого сигнала более сильным. Масштабирование N-мерного вектора С5 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению может выполняться путем умножения (в элементе 114') каждого необработанного значения управления усилением вектора С5 на соответствующее одно из масштабированных усредненных значений разности из сигнала S1, что генерирует N-мерный вектор S7 управления усилением с подавлением слабого сигнала более сильным.
Система по ФИГ. 3 может быть реализована как программное обеспечение процессором (например, процессором 501 по ФИГ. 5), который запрограммирован на реализацию описанных операций системы по ФИГ. 3. В альтернативном варианте она может реализовываться в аппаратном обеспечении с элементами схемы, соединенными так, как это показано на ФИГ. 3.
В изменениях варианта осуществлении изобретения по ФИГ. 3 масштабирование вектора С5 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению (с целью генерирования вектора управления усилением с подавлением слабого сигнала более сильным для управления усилителем 116) может выполняться нелинейным образом. Например, указанное нелинейное масштабирование может генерировать вектор управления усилением с подавлением слабого сигнала более сильным (замещающий вектор S7), который не вызывает подавление слабого сигнала более сильным в усилителе 116 (т.е. вызывает применение усилителем 116 единичного коэффициента усиления и поэтому не приводит к ослаблению канала 103) тогда, когда текущее значение сигнала S1 находится ниже порогового значения, и вызывает приравнивание текущих значений вектора управления усилением с подавлением слабого сигнала более сильным (замещающего вектор S7) текущим значениям вектора С5 (таким образом, сигнал S1 не модифицирует текущие значения C5) тогда, когда текущее значение сигнала S1 превышает пороговое значение. В альтернативном варианте, с целью генерирования вектора управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 116, может выполняться другое линейное или нелинейное масштабирование вектора С5 (в ответ на сигнал S1 управления усилением с подавлением слабого сигнала более сильным согласно изобретению). Например, указанное масштабирование вектора С5 может генерировать вектор управления усилением с подавлением слабого сигнала более сильным (замещающий вектор S7), который не вызывает подавление слабого сигнала более сильным в усилителе 116 (т.е. вызывает применение усилителем 116 единичного коэффициента усиления) тогда, когда текущее значение сигнала S1 находится ниже порогового значения, и вызывает приравнивание текущего значения вектора управления усилением с подавлением слабого сигнала более сильным (замещающего вектор S7) текущему значению вектора С5, умноженному на текущее значение сигнала S1 (или какому-либо другому значению, определяемому из этого произведения), тогда, когда текущее значение сигнала S1 превышает пороговое значение.
Аналогично, в изменениях варианта осуществления изобретения по ФИГ. 3 масштабирование вектора С6 управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению (с целью генерирования вектора управления усилением с подавлением слабого сигнала более сильным для управления усилителем 117) может выполняться нелинейным образом. Например, указанное нелинейное масштабирование может генерировать вектор управления усилением с подавлением слабого сигнала более сильным (замещающий вектор S8), который не вызывает подавление слабого сигнала более сильным в усилителе 117 (т.е. вызывает применение усилителем 117 единичного коэффициента усиления и поэтому не приводит к ослаблению канала 102) тогда, когда текущее значение сигнала S2 находится ниже порогового значения, и вызывает приравнивание текущих значений вектора управления усилением с подавлением слабого сигнала более сильным (замещающего вектор S8) текущим значениям вектора С6 (таким образом, сигнал S2 не модифицирует текущие значения C6) тогда, когда текущее значение сигнала S2 превышает пороговое значение. В альтернативном варианте с целью генерирования вектора управления усилением с подавлением слабого сигнала более сильным, предназначенного для управления усилителем 117, может выполняться другое линейное или нелинейное масштабирование вектора С6 (в ответ на сигнал S2 управления усилением с подавлением слабого сигнала более сильным согласно изобретению). Например, указанное масштабирование вектора С6 может генерировать вектор управления усилением с подавлением слабого сигнала более сильным (замещающий вектор S8), который не вызывает подавление слабого сигнала более сильным в усилителе 117 (т.е. вызывает применение усилителем 117 единичного коэффициента усиления) тогда, когда текущее значение сигнала S2 находится ниже порогового значения, и вызывает приравнивание текущего значения вектора управления усилением с подавлением слабого сигнала более сильным (замещающего вектор S8) текущему значению вектора С6, умноженному на текущее значение сигнала S2 (или какому-либо другому значению, определяемому из этого произведения), тогда, когда текущее значение сигнала S2 превышает пороговое значение.
Для средних специалистов в данной области из данного раскрытия очевидно, каким образом систему по ФИГ. 1, 1A, 2, 2A и 3 (и изменения любой из них) можно модифицировать для фильтрации многоканального входного звукового сигнала, содержащего речевой канал и любое количество неречевых каналов. Для каждого неречевого канала может быть предусмотрен усилитель с подавлением слабого сигнала более сильным (или эквивалентное ему программное обеспечение), и для управления каждым усилителем с подавлением слабого сигнала более сильным (или его программным эквивалентном) может генерироваться сигнал управления усилением с подавлением слабого сигнала более сильным.
Как описывалось, система по ФИГ. 1, 1A, 2, 2A и 3 (и любое из множества ее изменений) является действующей для выполнения вариантов осуществления способа изобретения, предназначенного для фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определяемой сигналом. В первом классе указанных вариантов осуществления изобретения способ предусматривает следующие этапы:
(а) определение по меньшей мере одного значения управления ослаблением (например, сигнала S1 или S2 по ФИГ. 1, 2 или 3, или сигнала V1, V2 или V3 по ФИГ. 1А или 2А), служащего признаком меры сходства между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определяемым по меньшей мере одним неречевым каналом звукового сигнала; и
(b) ослабление по меньшей мере одного неречевого канала звукового сигнала в ответ по меньшей мере на одно значение управления ослаблением (например, в элементе 114 и усилителе 116, или в элементе 115 и усилителе 117 по ФИГ. 1, 1A, 2, 2A или 3).
Как правило, этап ослабления предусматривает масштабирование необработанного сигнала управления ослаблением (например, сигнала С1 или С2 управления усилением с подавлением слабого сигнала более сильным по ФИГ. 1 или 1А, или сигнала С3 или С4 по ФИГ. 2 или 2А) для неречевого канала в ответ по меньшей мере на одно значение управления ослаблением. Предпочтительно, неречевой канал ослабляется так, чтобы улучшалась разборчивость речи, определяемая речевым каналом, без нежелательного ослабления относящегося к речи содержания, определяемого неречевым каналом. В некоторых вариантах осуществления изобретений в первом классе этап (а) предусматривает этап генерирования сигнала управления ослаблением (например, сигнала S1 или S2 по ФИГ. 1, 2 или 3, или сигнала V1, V2 или V3 по ФИГ. 1А или 2А), служащего признаком последовательности значений управления ослаблением, где каждое значение управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определяемым по меньшей мере одним неречевым каналом звукового сигнала в разное время (например, в другом промежутке времени), и этап (b) предусматривает следующие этапы: масштабирование сигнала управления усилением с подавлением слабого сигнала более сильным (например, сигнала C1 или С2 по ФИГ. 1 или 1А, или сигнала С3 или С4 по ФИГ. 2 или 2А) в ответ на сигнал управления ослаблением с целью генерирования масштабированного сигнала управления усилением (например, сигнала S3 или S4 по ФИГ. 1 или 1А, или сигнала S5 или S6 по ФИГ. 2 или 2А), и применение масштабированного сигнала управления усилением для ослабления неречевого канала (например, путем передачи масштабированного сигнала управления усилением в схему 116 или 117 подавления слабого сигнала более сильным по ФИГ. 1, 1А, 2 или 2А с целью управления ослаблением по меньшей мере одного неречевого канала схемой подавления слабого сигнала более сильным). Например, в некоторых указанных вариантах осуществления изобретения этап (а) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств (сигнал Q по ФИГ. 1 или 2), служащей признаком относящегося к речи содержания, определяемого речевым каналом, со второй последовательностью относящихся к речи характерных свойств (сигнал Р по ФИГ. 1 или 2), служащей признаком относящегося к речи содержания, определяемого неречевым каналом, с целью генерирования сигнала управления ослаблением, где каждое из значений управления ослаблением, указываемых сигналом управления ослаблением, служит признаком меры сходства между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств в разное время (например, в другом промежутке времени). В некоторых вариантах осуществления изобретения указанное значение управления ослаблением представляет собой значение управления усилением.
В некоторых вариантах осуществления изобретения в первом классе каждое значение управления ослаблением монотонно относится к вероятности того, что по меньшей мере один неречевой канал служит признаком усиливающего речь содержания, которое улучшает разборчивость (или другое воспринимаемое качество) речевого содержания, определяемого речевым каналом. В некоторых других вариантах осуществления изобретения в первом классе каждое значение управления ослаблением монотонно относится к ожидаемому усиливающему речь значению неречевого канала (например, к мере вероятности того, что неречевой канал служит признаком усиливающего речь содержания, умноженной на меру улучшения воспринимаемого качества, которое усиливающее речь содержание, определяемое неречевым каналом, могло бы обеспечивать для речевого содержания, определяемого многоканальным сигналом). Например, когда этап (а) предусматривает этап сравнения (например, в элементе 134 или 135 по ФИГ. 1 или ФИГ. 2) первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определяемого речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определяемого неречевым каналом, первая последовательность относящихся к речи характерных свойств может представлять собой последовательность значений вероятности речи, каждое из которых указывает в разное время (например, в другом промежутке времени) вероятность того, что речевой канал служит признаком речи (а не иного, чем речь звукового содержания), и вторая последовательность относящихся к речи характерных свойств также может представлять собой последовательность значений вероятности речи, каждое из которых указывает в разное время (например, в другом промежутке времени) вероятность того, что неречевой канал служит признаком речи.
Как описывалось, система по ФИГ. 1, 1А, 2, 2А или 3 (и каждое из множества их изменений) также является действующей для выполнения второго класса вариантов осуществления способа изобретения, предназначенных для фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определяемой сигналом. Во втором классе вариантов осуществления изобретения способ предусматривает следующие этапы:
(а) сравнение характеристики речевого канала и характеристики неречевого канала с целью генерирования по меньшей мере одного значения коэффициента ослабления (например, значений, определяемых сигналом С1 или С2 по ФИГ. 1, или сигналом С3 или С4 по ФИГ. 2, или сигналом С5 или С6 по ФИГ. 6), предназначенного для управления ослаблением неречевого канала относительно речевого канала; и
(b) корректировку по меньшей мере одного значения коэффициента ослабления в ответ по меньшей мере на одно значение вероятности усиления речи (например, сигнала S1 или S2 по ФИГ. 1, 2 или 3) с целью генерирования по меньшей мере одного скорректированного значения коэффициента ослабления (например, значений, определяемых сигналом S3 или S4 по ФИГ. 1 или сигналом S5 или S6 по ФИГ. 2, или сигналом S7 или S8 по ФИГ. 3), предназначенного для управления ослаблением неречевого канала относительно речевого канала. Как правило, этап корректировки представляет собой (или содержит) масштабирование (например, в элементе 114 или 115 по ФИГ. 1, 2 или 3) каждого указанного значения коэффициента ослабления в ответ на одно из указанных значений вероятности усиления речи с целью генерирования одного из указанных скорректированных значений коэффициента усиления. Как правило, каждое значение вероятности усиления речи служит признаком вероятности (например, монотонно связано с вероятностью) того, что неречевой канал служит признаком усиливающего речь содержания (содержания, которое улучшает разборчивость, или другое воспринимаемое качество, речевого содержания, определяемого речевым каналом). В некоторых вариантах осуществления изобретения значение вероятности усиления речи служит признаком значения ожидаемого усиливающего речь значения неречевого канала (например, мерой вероятности того, что неречевой канал служит признаком усиливающего речь содержания, умноженной на меру улучшения воспринимаемого качества, которое усиливающее речь содержание, определяемое неречевым каналом, могло бы обеспечивать для речевого содержания, определяемого многоканальным звуковым сигналом). В некоторых вариантах осуществления изобретения во втором классе значение вероятности усиления речи представляет собой последовательность сравнительных значений (например, значений разности), определяемых по способу, который включает этап сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определяемого речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определяемого неречевым каналом, где каждое из сравнительных значений является мерой сходства между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств в разное время (например, в другом промежутке времени). В типичных вариантах осуществления изобретения во втором классе способ также включает этап ослабления неречевого канала (например, в усилителе 116 или 117 по ФИГ. 1, 2 или 3) в ответ по меньшей мере на одно скорректированное значение коэффициента ослабления. Этап (b) может предусматривать масштабирование по меньшей мере одного значения коэффициента ослабления (например, значения коэффициента ослабления, определяемого сигналом С1 или С2 по ФИГ. 1, или другого значения коэффициента ослабления, определяемого сигналом управления усилением с подавлением слабого сигнала более сильным, или другого необработанного сигнала управления ослаблением) в ответ по меньшей мере на одно значение вероятности усиления речи (например, на соответствующее значение, определяемое сигналом S1 или S2 по ФИГ. 1).
В действии системы по ФИГ. 1, направленном на выполнение одного из вариантов осуществления изобретения во втором классе, каждое значение коэффициента ослабления, определяемое сигналом С1 или С2, представляет собой первый множитель, служащий признаком величины ослабления неречевого канала, которое необходимо для ограничения соотношения мощности сигнала в неречевом канале и мощности сигнала в речевом канале так, чтобы оно не превышало предварительно определенное пороговое значение, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи. Как правило, этап корректировки в этих вариантах осуществления изобретения представляет собой (или содержит) масштабирование каждого значения С1 или С2 коэффициента ослабления посредством одного значения вероятности усиления речи (определяемого сигналом S1 или S2) с целью генерирования одного скорректированного значения коэффициента усиления (определяемого сигналом S3 или S4), где значение вероятности усиления речи представляет собой множитель, монотонно связанный с одной из следующих величин: вероятностью того, что неречевой канал служит признаком усиливающего речь содержания (содержания, которое улучшает разборчивость, или другое воспринимаемое качество, речевого содержания, определяемого многоканальным сигналом), и ожидаемым усиливающим речь значением неречевого канала (например, мерой вероятности того, что неречевой канал служит признаком усиливающего речь содержания, умноженной на меру усиления воспринимаемого качества, которое усиливающее речь содержание в неречевом канале могло бы обеспечивать для речевого содержания, определяемого многоканальным сигналом).
В действии системы по ФИГ. 2, направленном на выполнение одного из вариантов осуществления изобретения во втором классе, каждое значение коэффициента ослабления, определяемое сигналом C3 или C4, представляет собой первый множитель, служащий признаком величины (например, минимальной величины) ослабления неречевого канала, достаточной для того, чтобы вызывать превышение предварительно определенного порогового значения прогнозируемой разборчивостью речи, определяемой речевым каналом в присутствии содержания, определяемого неречевым каналом, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи. Предпочтительно, прогнозируемая разборчивость речи, определяемая речевым каналом в присутствии содержания, определяемого неречевым каналом, определяется согласно модели прогнозирования разборчивости на психоакустической основе. Как правило, этап корректировки в этих вариантах осуществления изобретения представляет собой (или содержит) масштабирование каждого указанного значения коэффициента ослабления посредством одного указанного значения вероятности усиления речи (определяемого сигналом S1 или S2) с целью генерирования одного скорректированного значения коэффициента ослабления (определяемого сигналом S5 или S6), где значение вероятности усиления речи представляет собой множитель, монотонно связанный с одной из следующих величин: вероятностью того, что неречевой канал служит признаком усиливающего речь содержания, и ожидаемым усиливающим речь значением неречевого канала.
В действии системы по ФИГ. 3, направленном на выполнение одного из вариантов осуществления изобретения во втором классе, каждое значение коэффициента ослабления, определяемое сигналом С1 или С2, определяется на этапах, которые содержат определение (в элементах 301, 302 или 303) спектра мощности, служащего признаком мощности как функции частоты, для каждого из каналов, речевого канала 101 и неречевых каналов 102 и 103, и выполнение определения в частотной области значения коэффициента ослабления и, таким образом, определения коэффициента ослабления как функции частоты, которую необходимо приложить к частотным составляющим неречевого канала.
В одном из классов вариантов осуществления изобретение представляет собой способ и систему для усиления речи, определенной многоканальным входным звуковым сигналом. В некоторых таких вариантах осуществления изобретения система согласно изобретению содержит модуль анализа, или подсистему анализа (например, элементы 130-135, 104-109, 114 и 115 по ФИГ. 1 или элементы 130-135, 201-204, 114 и 115 по ФИГ. 2), сконфигурированный для анализа входного многоканального сигнала с целью генерирования значений управления ослаблением, и подсистему ослабления (например, усилители 116 и 117 по ФИГ. 1 или ФИГ. 2). Подсистема ослабления содержит схему подавления слабого сигнала более сильным (управляемую по меньшей мере некоторыми из значений управления ослаблением), и она сконфигурирована для применения ослабления (подавления слабого сигнала более сильным) к каждому неречевому каналу входного сигнала с целью генерирования фильтрованного выходного звукового сигнала. Схема подавления слабого сигнала более сильным управляется управляющими значениями в том смысле, что ослабление, которое она применяет к неречевым каналам, определяется текущими значениями управляющих значений.
В некоторых вариантах осуществления изобретения для определения того, какую величину подавления слабого сигнала более сильным (ослабления) нужно применить к каждому неречевому каналу, применяется соотношение мощности речевого канала (например, центрального канала) и мощности неречевого канала (например, побочного канала и/или заднего канала). Например, в варианте осуществления изобретения по ФИГ. 1 коэффициент усиления, применяемый каждым из усилителей 116 и 117 с подавлением слабого сигнала более сильным, снижается в ответ на понижение значения управления усилением (выходного сигнала элемента 114 или элемента 115), которое служит признаком пониженной мощности (в пределах) речевого канала 101 относительно мощности неречевого канала (левого канала 102 или правого канала 103), определяемой в модуле анализа (т.е. усилитель с подавлением слабого сигнала более сильным ослабляет неречевой канал в большей степени относительно речевого канала тогда, когда мощность речевого канала снижается (в пределах) относительно мощности неречевого канала), в предположении отсутствия изменения в вероятности (как она определяется в модуле анализа) того, что неречевой канал содержит усиливающее речь содержание, которое усиливает речевое содержание, определяемое речевым каналом.
В некоторых альтернативных вариантах осуществления изобретения модифицированная версия анализирующего модуля по ФИГ. 1 или ФИГ. 2 по отдельности обрабатывает каждый из одного или нескольких частотных поддиапазонов каждого канала входного сигнала. А именно: сигнал в каждом канале может пропускаться через блок полосовых фильтров, выводящий три множества из n поддиапазонов каждое: {L1, L2, …, Ln}, {C1, C2, …, Cn} и {R1, R2,..., Rn}. Соответствующие поддиапазоны пропускаются через n экземпляров анализирующего модуля по ФИГ. 1 (или ФИГ. 2), и фильтрованные подсигналы (выходные сигналы усилителей с подавлением слабого сигнала более сильным для неречевых каналов и подсигналы нефильтрованного речевого канала) рекомбинируются суммирующими схемами, генерирующими многоканальный выходной звуковой сигнал. С целью выполнения на каждом поддиапазоне операций, выполняемых элементом 109 по ФИГ. 1, для каждого поддиапазона может быть выбрано отдельное пороговое значение
Figure 00000001
η (соответствующее пороговому значению
Figure 00000001
элемента 109). Хорошим выбором является множество, в котором
Figure 00000001
η пропорционально среднему количеству речевых знаков, переносимых в соответствующей частотной области; т.е. полосам по краям частотного спектра присваиваются менее высокие пороговые значения, чем полосам, соответствующим доминантным речевым частотам. Данная реализация изобретения может предложить очень хороший компромисс между вычислительной сложностью и производительностью.
ФИГ. 4 - это блок-схема системы 420 (конфигурируемого звукового DSP), которая сконфигурирована для выполнения одного из вариантов осуществления способа согласно изобретению. Система 420 содержит схему 422 программируемого DSP (модуль активного усиления речи системы 420), подключенного для приема многоканального входного звукового сигнала. Например, неречевые каналы Lin и Rin сигнала могут соответствовать каналам 102 и 103 входного сигнала, описанным со ссылкой к ФИГ. 1, 1A, 2, 2A и 3, сигнал также может содержать дополнительные неречевые каналы (например, левый задний и правый задний каналы), и речевой канал Cin может соответствовать каналу 101 входного сигнала, описанному с отсылкой к ФИГ. 1, 1A, 2, 2A и 3. Схема 422 конфигурируется для отклика на управляющие данные из интерфейса 421 устройства управления для выполнения одного из вариантов осуществления способа изобретения с целью генерирования многоканального выходного звукового сигнала с усиленной речью в ответ на входной звуковой сигнал. Для программирования системы 420 из внешнего процессора в интерфейс 421 устройства управления передается соответствующее программное обеспечение, и интерфейс 421 в ответ передает соответствующие управляющие данные в схему 422 для конфигурирования схемы 422 с целью выполнения способа изобретения.
В действии звуковой DSP, который сконфигурирован для выполнения усиления речи согласно изобретению (например, система 420 по ФИГ. 4), подключается для приема N-канального входного звукового сигнала, и DSP в дополнение к усилению речи, как правило, выполняет ряд операций на входном звуковом сигнале (или на его обработанной версии). Например, система 420 по ФИГ. 4 может быть реализована для выполнения других операций (на выходном сигнале схемы 422) в подсистеме 423 обработки. Согласно различным вариантам осуществления изобретения, звуковой DSP является действующим для выполнения одного из вариантов осуществления способа изобретения после того, как он будет сконфигурирован (например, запрограммирован) для генерирования выходного звукового сигнала в ответ на входной звуковой сигнал путем выполнения способа на входном звуковом сигнале.
В некоторых вариантах осуществления изобретения система согласно изобретению представляет собой или содержит универсальный процессор, подключенный для приема или генерирования входных данных, служащих признаком многоканального звукового сигнала. Процессор программируется посредством программного обеспечения (или встроенного программного обеспечения) и/или иначе конфигурируется (например, в ответ на управляющие данные) для выполнения любой из множества операций на входных данных, включая какой-либо из вариантов осуществления способа изобретения. Примером такой системы является компьютерная система по ФИГ. 5. Система по ФИГ. 5 содержит универсальный процессор 501, который программируется на выполнение любой из множества операций на входных данных, включая какой-либо из вариантов осуществления способа изобретения.
Компьютерная система по ФИГ. 5 также содержит устройство 503 ввода (например, мышь и/или клавиатуру), связанное с процессором 501, носитель данных 504, связанный с процессором 501, и устройство 505 отображения, связанное с процессором 501. Процессор 501 программируется на реализацию способа изобретения в ответ на команды и данные, вводимые путем манипуляций пользователя на устройстве 503 ввода. Машинно-читаемый носитель данных 504 (например, оптический диск или другой материальный объект) содержит хранящийся в его памяти машинный код, который пригоден для программирования процессора 501 на выполнение какого-либо из вариантов осуществления способа изобретения. В действии процессор 501 исполняет машинный код для обработки данных, служащих признаком многоканального входного звукового сигнала, согласно изобретению с целью генерирования выходных данных, служащих признаком многоканального выходного звукового сигнала.
Система согласно вышеописанным ФИГ. 1, 1A, 2, 2A и 3 может быть реализована в универсальном процессоре 501, с каналами 101, 102 и 103 входного сигнала, которые представляют собой данные, служащие признаками центрального (речевого) и левого и правого (неречевых) входных каналов (например, окружающего звукового сигнала), и каналами 118 и 119 выходного сигнала, которые являются выходными данными, служащими признаками левого и правого выходных звуковых каналов с акцентированной речью (например, окружающего звукового сигнала с усиленной речью). Для генерирования аналоговых версий выходных каналов звуковых сигналов, предназначенных для воспроизведения физическими динамиками, на выходные данные может действовать традиционный цифроаналоговый преобразователь (DAC).
Особенностями изобретения являются: компьютерная система, запрограммированная на выполнение любого из вариантов осуществления способа изобретения, и машинно-читаемый носитель данных, в памяти которого хранится машинно-читаемый код, предназначенный для реализации любого из вариантов осуществления способа изобретения.
Несмотря на то что в данном раскрытии описаны конкретные варианты осуществления настоящего изобретения и применения изобретения, для средних специалистов в данной области будет очевидно, что множество изменений, описанных в данном раскрытии вариантов осуществления изобретения, и применений возможно без отступления от объема изобретения, описанного и заявленного в данном раскрытии. Следует понимать, что, несмотря на то, что показаны и описаны определенные формы изобретения, изобретение не следует ограничивать конкретными описанными и показанными вариантами его осуществления или конкретными описанными способами.

Claims (66)

1. Способ фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определяемой сигналом, причем указанный способ отличается тем, что предусматривает следующие этапы:
(a) определение по меньшей мере одного значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным по меньшей мере одним неречевым каналом многоканального звукового сигнала; и
(b) ослабление по меньшей мере одного неречевого канала многоканального звукового сигнала в ответ по меньшей мере на одно значение управления ослаблением.
2. Способ по п.1, отличающийся тем, что каждое значение управления ослаблением, определенное на этапе (а), служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным одним неречевым каналом звукового сигнала, и этап (b) предусматривает этап ослабления указанного неречевого канала в ответ на указанное значение управления ослаблением.
3. Способ по п.1, отличающийся тем, что этап (а) предусматривает этап получения производного неречевого канала из по меньшей мере одного неречевого канала звукового сигнала, и по меньшей мере одно значение управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным производным неречевым каналом.
4. Способ по п.3, отличающийся тем, что производный неречевой канал получается путем комбинирования первого неречевого канала многоканального звукового сигнала и второго неречевого канала многоканального звукового сигнала.
5. Способ по п.3, отличающийся тем, что многоканальный звуковой сигнал содержит по меньшей мере два неречевых канала, и этап (b) предусматривает этап ослабления некоторых, но не всех, неречевых каналов в ответ по меньшей мере на одно значение управления ослаблением.
6. Способ по п.3, отличающийся тем, что многоканальный звуковой сигнал имеет по меньшей мере два неречевых канала, и этап (b) предусматривает этап ослабления всех неречевых каналов в ответ по меньшей мере на одно значение управления ослаблением.
7. Способ по п.1, отличающийся тем, что этап (b) предусматривает масштабирование необработанного сигнала управления ослаблением для неречевого канала в ответ по меньшей мере на одно значение управления ослаблением.
8. Способ по п.1, отличающийся тем, что этап (a) предусматривает этап генерирования сигнала управления ослаблением, служащего признаком последовательности значений управления ослаблением, где каждое из значений управления ослаблением служит признаком меры сходства в разное время между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным по меньшей мере одним неречевым каналом многоканального звукового сигнала, и этап (b) предусматривает этапы:
масштабирование сигнала управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал управления ослаблением с целью генерирования масштабированного сигнала управления усилением; и
применение масштабированного сигнала управления усилением для ослабления по меньшей мере одного неречевого канала многоканального звукового сигнала.
9. Способ по п.8, отличающийся тем, что этап (а) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного по меньшей мере одним неречевым каналом многоканального звукового сигнала, с целью генерирования сигнала управления ослаблением, и каждое из значений управления ослаблением, указываемое сигналом управления ослаблением, служит признаком меры сходства в разное время между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств.
10. Способ по п.1, отличающийся тем, что каждое указанное значение управления ослаблением монотонно связано с вероятностью того, что по меньшей мере один неречевой канал многоканального звукового сигнала служит признаком усиливающего речь содержания, которое улучшает воспринимаемое качество речевого содержания, определенное речевым каналом.
11. Способ фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определенной сигналом, причем указанный способ отличается тем, что предусматривает следующие этапы:
(a) определение по меньшей мере одного значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным неречевым каналом; и
(b) ослабление неречевого канала в ответ по меньшей мере на одно значение управления ослаблением.
12. Способ по п.11, отличающийся тем, что этап (b) предусматривает масштабирование необработанного сигнала управления ослаблением для неречевого канала в ответ по меньшей мере на одно значение управления ослаблением.
13. Способ по п.11, отличающийся тем, что этап (a) предусматривает этап генерирования сигнала управления ослаблением, служащего признаком последовательности значений управления ослаблением, где каждое из значений управления ослаблением служит признаком меры сходства в разное время между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определяемым неречевым каналом, и этап (b) предусматривает следующие этапы:
масштабирование сигнала управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал управления ослаблением с целью генерирования масштабированного сигнала управления усилением; и
применение масштабированного сигнала управления усилением для ослабления неречевого канала.
14. Способ по п.13, отличающийся тем, что этап (а) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного неречевым каналом, с целью генерирования сигнала управления ослаблением, и каждое из значений управления ослаблением, указываемое сигналом управления ослаблением, служит признаком меры сходства в разное время между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств.
15. Способ по п.14, отличающийся тем, что первая последовательность относящихся к речи характерных свойств представляет собой последовательность значений вероятности речи, где каждое их значений вероятности речи указывает вероятность в разное время того, что речевой канал служит признаком речи, и вторая последовательность относящихся к речи характерных свойств представляет собой другую последовательность значений вероятности речи, указывающих вероятность в разное время того, что неречевой канал служит признаком речи.
16. Способ по п.13, отличающийся тем, что каждое из значений управления ослаблением представляет собой значение управления усилением.
17. Способ по п.13, отличающийся тем, что каждое указанное значение управления ослаблением монотонно связано с вероятностью того, что неречевой канал служит признаком усиливающего речь содержания, которое улучшает воспринимаемое качество речевого содержания, определяемого речевым каналом.
18. Способ фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере два неречевых канала, причем указанный способ отличается тем, что предусматривает этапы:
(a) определение по меньшей мере одного первого значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и вторым относящимся к речи содержанием, определенным первым неречевым каналом; и
(b) определение по меньшей мере одного второго значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и третьим относящимся к речи содержанием, определенным вторым неречевым каналом.
19. Способ по п.18, отличающийся тем, что этап (а) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком второго относящегося к речи содержания, и этап (b) предусматривает этап сравнения первой последовательности относящихся к речи характерных свойств с третьей последовательностью относящихся к речи характерных свойств, служащей признаком третьего относящегося к речи содержания.
20. Способ по п.18, отличающийся тем, что также предусматривает следующие этапы:
(c) ослабление первого неречевого канала в ответ по меньшей мере на одно первое значение управления ослаблением; и
(d) ослабление второго неречевого канала в ответ по меньшей мере на одно второе значение управления ослаблением.
21. Способ по п.18, отличающийся тем, что этап (с) предусматривает этап масштабированного ослабления первого неречевого канала в ответ на первое значение управления ослаблением, и этап (d) предусматривает этап масштабированного ослабления второго неречевого канала в ответ на второе значение управления ослаблением.
22. Способ по п.18, отличающийся тем, что по меньшей мере одно первое значение управления ослаблением, определенное на этапе (а), представляет собой последовательность значений управления ослаблением, и каждое из значений управления ослаблением представляет собой значение управления усилением, предназначенное для масштабирования величины усиления с подавлением слабого сигнала более сильным, применяемого к первому неречевому каналу так, чтобы улучшить разборчивость речи, определяемой речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного первым неречевым каналом, и
по меньшей мере одно второе значение управления ослаблением, определенное на этапе (b), представляет собой последовательность вторых значений управления ослаблением, и каждое из вторых значений управления ослаблением представляет собой значение управления усилением, предназначенное для масштабирования величины усиления с подавлением слабого сигнала более сильным, применяемого ко второму неречевому каналу так, чтобы улучшить разборчивость речи, определяемой речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного вторым неречевым каналом.
23. Способ фильтрации многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определенной сигналом, причем указанный способ отличается тем, что предусматривает следующие этапы:
(a) сравнение характеристики речевого канала и характеристики неречевого канала с целью генерирования по меньшей мере одного значения коэффициента ослабления, предназначенного для управления ослаблением неречевого канала относительно речевого канала; и
(b) корректировку по меньшей мере одного значения коэффициента ослабления в ответ по меньшей мере на одно значение вероятности усиления речи с целью генерирования по меньшей мере одного скорректированного значения коэффициента ослабления, предназначенного для управления ослаблением неречевого канала относительно речевого канала.
24. Способ по п.23, отличающийся тем, что этап (b) предусматривает масштабирование каждого указанного значения коэффициента ослабления в ответ на одно указанное значение вероятности усиления речи с целью генерирования одного указанного скорректированного значения коэффициента ослабления.
25. Способ по п.23, отличающийся тем, что каждое указанное значение вероятности усиления речи монотонно связано с вероятностью того, что неречевой канал служит признаком усиливающего речь содержания, которое улучшает воспринимаемое качество речевого содержания, определенного речевым каналом.
26. Способ по п.23, отличающийся тем, что по меньшей мере одно значение вероятности усиления речи представляет собой последовательность сравнительных значений, и способ предусматривает следующий этап:
определение последовательности сравнительных значений путем сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного неречевым каналом, где каждое из сравнительных значений представляет собой меру сходства в разное время между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств.
27. Способ по п.23, отличающийся тем, что также предусматривает этап:
(c) ослабление неречевого канала в ответ по меньшей мере на одно скорректированное значение коэффициента ослабления.
28. Способ по п.23, отличающийся тем, что этап (b) предусматривает масштабирование каждого указанного значения коэффициента ослабления в ответ на одно указанное значение вероятности усиления речи с целью генерирования одного указанного скорректированного значения коэффициента ослабления.
29. Способ по п.23, отличающийся тем, что каждое указанное значение коэффициента ослабления, генерируемое на этапе (а), представляет собой первый множитель, служащий признаком величины ослабления неречевого канала, необходимого для ограничения соотношения мощности сигнала в неречевом канале и мощности сигнала в речевом канале так, чтобы оно не превышало предварительно определенное пороговое значение, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи.
30. Способ по п.23, отличающийся тем, что каждое указанное значение коэффициента ослабления, генерируемое на этапе (а), представляет собой первый множитель, служащий признаком величины ослабления неречевого канала, достаточной для того, чтобы вызывать превышение предварительно определенного порогового значения прогнозируемой разборчивостью речи, определяемой речевым каналом в присутствии содержания, определенного неречевым каналом, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи.
31. Способ по п.23, отличающийся тем, что генерирование на этапе (а) каждого указанного значения коэффициента ослабления предусматривает следующие этапы:
определение спектра мощности, служащего признаком мощности как функции частоты речевого канала, и второго спектра мощности, служащего признаком мощности как функции частоты неречевого канала, и
выполнение определения в частотной области значения коэффициента ослабления в ответ на спектр мощности и второй спектр мощности.
32. Система, предназначенная для усиления речи, определенной многоканальным входным звуковым сигналом, содержащим речевой канал и по меньшей мере один неречевой канал, где указанная система отличается тем, что содержит:
подсистему анализа, сконфигурированную для анализа многоканального входного звукового сигнала с целью генерирования значений управления ослаблением, где каждое из значений управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным по меньшей мере одним неречевым каналом входного сигнала; и
подсистему ослабления, сконфигурированную для применения ослабления с подавлением слабого сигнала более сильным, управляемого по меньшей мере некоторыми из значений управления ослаблением, к каждому указанному неречевому каналу с целью генерирования фильтрованного выходного звукового сигнала.
33. Система по п.32, отличающаяся тем, что подсистема ослабления сконфигурирована для масштабирования необработанного сигнала управления ослаблением для по меньшей мере одного указанного неречевого канала в ответ по меньшей мере на подмножество значений управления ослаблением.
34. Система по п.32, отличающаяся тем, что подсистема анализа сконфигурирована для генерирования сигнала управления ослаблением, служащего признаком последовательности значений управления ослаблением для по меньшей мере одного указанного неречевого канала, где каждое из значений управления ослаблением представляет собой последовательность, которая служит признаком меры сходства в разное время между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным неречевым каналом, и система ослабления сконфигурирована для:
масштабирования сигнала управления усилением с подавлением слабого сигнала более сильным в ответ на сигнал управления ослаблением с целью генерирования масштабированного сигнала управления усилением с подавлением слабого сигнала более сильным; и
применения масштабированного сигнала управления усилением с подавлением слабого сигнала более сильным для ослабления неречевого канала.
35. Система по п.34, отличающаяся тем, что подсистема анализа сконфигурирована для сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного неречевым каналом, с целью генерирования сигнала управления ослаблением, и каждое из значений управления ослаблением, указываемое сигналом управления ослаблением, служит признаком меры сходства в разное время между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств.
36. Система по п.35, отличающаяся тем, что первая последовательность относящихся к речи характерных свойств представляет собой последовательность значений вероятности речи, где каждое из значений вероятности речи указывает вероятность в разное время того, что речевой канал служит признаком речи, и вторая последовательность относящихся к речи характерных свойств представляет собой другую последовательность значений вероятности речи, где каждое из значений вероятности речи указывает вероятность в разное время того, что неречевой канал служит признаком речи.
37. Система по п.32, отличающаяся тем, что указанная система содержит процессор, запрограммированный посредством программного обеспечения анализа на анализ многоканального входного звукового сигнала с целью генерирования значений управления ослаблением.
38. Система по п.37, отличающаяся тем, что процессор запрограммирован посредством программного обеспечения ослабления на применение ослабления с подавлением слабого сигнала более сильным к каждому указанному неречевому каналу с целью генерирования фильтрованного выходного звукового сигнала.
39. Система по п.32, отличающаяся тем, что указанная система содержит процессор, сконфигурированный для анализа многоканального входного звукового сигнала с целью генерирования значений управления ослаблением и для применения ослабления с подавлением слабого сигнала более сильным к каждому указанному неречевому каналу с целью генерирования фильтрованного выходного звукового сигнала.
40. Система по п.32, отличающаяся тем, что указанная система представляет собой процессор обработки цифровых звуковых сигналов, который сконфигурирован для анализа многоканального входного звукового сигнала с целью генерирования значений управления ослаблением и для применения ослабления с подавлением слабого сигнала более сильным к каждому указанному неречевому каналу с целью генерирования фильтрованного выходного звукового сигнала.
41. Система по п.32, отличающаяся тем, что указанная система содержит первую схему, сконфигурированную для реализации подсистемы анализа, и дополнительную схему, связанную с первой схемой и сконфигурированную для реализации подсистемы ослабления.
42. Система по п.32, отличающаяся тем, что указанная система представляет собой процессор обработки цифровых звуковых сигналов, содержащий первую схему, сконфигурированную для реализации подсистемы анализа, и дополнительную схему, связанную с первой схемой и сконфигурированную для реализации подсистемы ослабления.
43. Система по п.32, отличающаяся тем, что указанная система представляет собой систему обработки данных, сконфигурированную для реализации подсистемы анализа и подсистемы ослабления.
44. Система, предназначенная для усиления речи, определенной многоканальным входным звуковым сигналом, содержащим речевой канал и по меньшей мере один неречевой канал, где указанная система отличается тем, что содержит:
подсистему анализа, сконфигурированную для анализа многоканального входного звукового сигнала с целью генерирования значений управления ослаблением, где каждое из значений управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определенным по меньшей мере одним неречевым каналом входного сигнала; и
подсистему ослабления, сконфигурированную для применения ослабления с подавлением слабого сигнала более сильным, управляемого по меньшей мере некоторыми из значений управления ослаблением, к по меньшей мере одному неречевому каналу входного сигнала с целью генерирования фильтрованного выходного звукового сигнала.
45. Система по п.44, отличающаяся тем, что подсистема анализа сконфигурирована для генерирования каждого из значений управления ослаблением так, чтобы оно служило признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным одним неречевым каналом звукового сигнала, и подсистема ослабления сконфигурирована для применения указанного ослабления с подавлением слабого сигнала более сильным к указанному одному неречевому каналу в ответ на значения управления ослаблением.
46. Система по п.44, отличающаяся тем, что подсистема анализа сконфигурирована для получения производного неречевого канала из по меньшей мере одного неречевого канала звукового сигнала и для генерирования каждого из по меньшей мере некоторых из значений управления ослаблением так, чтобы оно служило признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным производным неречевым каналом звукового сигнала.
47. Машинно-читаемый носитель данных, который содержит код, предназначенный для программирования процессора на обработку данных, служащих признаком многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определенной сигналом, при помощи способа, отличающегося тем, что он предусматривает этапы:
(a) определения по меньшей мере одного значения управления ослаблением, служащего признаком сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным неречевым каналом;
(b) ослабления неречевого канала в ответ по меньшей мере на одно значение управления ослаблением.
48. Машинно-читаемый носитель данных по п.47, отличающийся тем, что содержит код, предназначенный для программирования процессора на масштабирование данных, служащих признаком необработанного сигнала управления ослаблением для неречевого канала, в ответ по меньшей мере на одно значение управления ослаблением.
49. Машинно-читаемый носитель данных по п.47, отличающийся тем, что содержит код, предназначенный для программирования процессора на:
генерирование данных, служащих признаком последовательности значений управления ослаблением, где каждое из значений управления ослаблением служит признаком меры сходства в разное время между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определяемым неречевым каналом; и
масштабирование данных, служащих признаком сигнала управления усилением с подавлением слабого сигнала более сильным, в ответ на последовательность значений управления ослаблением с целью генерирования данных, служащих признаком масштабированного сигнала управления усилением с подавлением слабого сигнала более сильным.
50. Машинно-читаемый носитель данных по п.49, отличающийся тем, что содержит код для программирования процессора на сравнение первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного неречевым каналом, с целью генерирования последовательности значений управления ослаблением так, чтобы каждое из значений управления ослаблением служило признаком меры сходства в разное время между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств.
51. Машинно-читаемый носитель данных по п.49, отличающийся тем, что первая последовательность относящихся к речи характерных свойств представляет собой последовательность первых значений вероятности речи, где каждое из первых значений вероятности речи указывает вероятность в разное время того, что речевой канал служит признаком речи, и вторая последовательность относящихся к речи характерных свойств представляет собой последовательность вторых значений вероятности речи, где каждое из вторых значений вероятности речи указывает вероятность в разное время того, что неречевой канал служит признаком речи.
52. Машинно-читаемый носитель данных по п.47, отличающийся тем, что каждое указанное значение управления ослаблением монотонно связано с вероятностью того, что неречевой канал служит признаком усиливающего речь содержания, которое улучшает воспринимаемое качество речевого содержания, определенное речевым каналом.
53. Машинно-читаемый носитель данных, который содержит код, предназначенный для программирования процессора на обработку данных, служащих признаком многоканального звукового сигнала, содержащего речевой канал и по меньшей мере два неречевых канала, с целью улучшения разборчивости речи, определяемой сигналом, при помощи способа, отличающегося тем, что он предусматривает этапы:
(a) определения по меньшей мере одного значения управления ослаблением, служащего признаком сходства между относящимся к речи содержанием, определенным речевым каналом, и вторым относящимся к речи содержанием, определенным первым неречевым каналом; и
(b) определения по меньшей мере одного второго значения управления ослаблением, служащего признаком сходства между относящимся к речи содержанием, определенным речевым каналом, и третьим относящимся к речи содержанием, определенным вторым неречевым каналом.
54. Машинно-читаемый носитель данных по п.53, отличающийся тем, что содержит код для программирования процессора на сравнение первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком второго относящегося к речи содержания, и на сравнение первой последовательности относящихся к речи характерных свойств с третьей последовательностью относящихся к речи характерных свойств, служащей признаком третьего относящегося к речи содержания.
55. Машинно-читаемый носитель данных по п.53, отличающийся тем, что содержит код для программирования процессора на ослабление по меньшей мере одного первого неречевого канала в ответ на первое значение управления ослаблением и на ослабление второго неречевого канала в ответ по меньшей мере на одно второе значение управления ослаблением.
56. Машинно-читаемый носитель данных по п.53, отличающийся тем, что по меньшей мере одно первое значение управления ослаблением представляет собой последовательность значений управления ослаблением, и указанный носитель данных содержит код, предназначенный для программирования процессора на масштабирование величины усиления с подавлением слабого сигнала более сильным, применяемого к первому неречевому каналу в ответ на последовательность значений управления усилением так, чтобы улучшать разборчивость речи, определенной речевым каналом, без нежелательного ослабления усиливающего речь содержания, определенного первым неречевым каналом.
57. Машинно-читаемый носитель данных, который содержит код, предназначенный для программирования процессора на обработку данных, служащих признаком многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определяемой сигналом, при помощи способа, отличающегося тем, что он предусматривает этапы:
(a) сравнения характеристики речевого канала и характеристики неречевого канала с целью генерирования по меньшей мере одного значения коэффициента ослабления, предназначенного для управления ослаблением неречевого канала относительно речевого канала; и
(b) корректировки по меньшей мере одного значения коэффициента ослабления в ответ по меньшей мере на одно значение вероятности усиления речи с целью генерирования по меньшей мере одного скорректированного значения коэффициента ослабления, предназначенного для управления ослаблением неречевого канала относительно речевого канала.
58. Машинно-читаемый носитель данных по п.57, отличающийся тем, что содержит код для программирования процессора на масштабирование каждого указанного значения коэффициента ослабления в ответ на одно указанное значение вероятности усиления речи с целью генерирования одного указанного скорректированного значения коэффициента ослабления.
59. Машинно-читаемый носитель данных по п.57, отличающийся тем, что каждое указанное значение вероятности усиления речи монотонно связано с вероятностью того, что неречевой канал служит признаком усиливающего речь содержания, которое улучшает воспринимаемое качество речевого содержания, определенного речевым каналом.
60. Машинно-читаемый носитель данных по п.57, отличающийся тем, что по меньшей мере одно значение вероятности речи представляет собой последовательность сравнительных значений, и указанный носитель содержит код для программирования процессора на определение последовательности сравнительных значений путем сравнения первой последовательности относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного речевым каналом, со второй последовательностью относящихся к речи характерных свойств, служащей признаком относящегося к речи содержания, определенного неречевым каналом, где каждое из сравнительных значений представляет собой меру сходства в разное время между первой последовательностью относящихся к речи характерных свойств и второй последовательностью относящихся к речи характерных свойств.
61. Машинно-читаемый носитель данных по п.57, отличающийся тем, что каждое указанное значение коэффициента усиления представляет собой первый множитель, служащий признаком величины ослабления неречевого канала, необходимого для ограничения соотношения мощности сигнала в неречевом канале и мощности сигнала в речевом канале так, чтобы оно не превышало предварительно определенное пороговое значение, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи.
62. Машинно-читаемый носитель данных по п.57, отличающийся тем, что каждое указанное значение коэффициента усиления представляет собой первый множитель, служащий признаком величины ослабления неречевого канала, достаточной для того, чтобы вызывать превышение предварительно определенного порогового значения прогнозируемой разборчивостью речи, определенной речевым каналом в присутствии содержания, определенного неречевым каналом, масштабированный посредством второго множителя, монотонно связанного с вероятностью того, что речевой канал служит признаком речи.
63. Машинно-читаемый носитель данных по п.57, отличающийся тем, что содержит код для программирования процессора на определение спектра мощности, служащего признаком мощности как функции частоты речевого канала, и второго спектра мощности, служащего признаком мощности как функции частоты неречевого канала, и для определения каждого указанного значения коэффициента ослабления в частотной области в ответ на спектр мощности и второй спектр мощности.
64. Машинно-читаемый носитель данных, который содержит код, предназначенный для программирования процессора на обработку данных, служащих признаком многоканального звукового сигнала, содержащего речевой канал и по меньшей мере один неречевой канал, с целью улучшения разборчивости речи, определяемой сигналом, при помощи способа, отличающегося тем, что он предусматривает этапы:
определения по меньшей мере одного значения управления ослаблением, служащего признаком сходства между относящимся к речи содержанием, определяемым речевым каналом, и относящимся к речи содержанием, определяемым по меньшей мере одним неречевым каналом многоканального звукового сигнала; и
генерирования данных, служащих признаком по меньшей мере одного ослабленного неречевого канала многоканального звукового сигнала, в ответ по меньшей мере на одно значение управления ослаблением, где каждый указанный ослабленный неречевой канал был подвергнут ослаблению в ответ по меньшей мере на одно значение управления ослаблением.
65. Машинно-читаемый носитель данных по п.64, отличающийся тем, что каждое указанное значение управления ослаблением служит признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определенным одним неречевым каналом звукового сигнала.
66. Машинно-читаемый носитель данных по п.64, отличающийся тем, что содержит код, предназначенный для программирования процессора на обработку данных, служащих признаком многоканального звукового сигнала, которая заключается в: генерировании данных, служащих признаком производного неречевого канала, из по меньшей мере одного неречевого канала звукового сигнала, и определении по меньшей мере одного значения управления ослаблением, служащего признаком меры сходства между относящимся к речи содержанием, определенным речевым каналом, и относящимся к речи содержанием, определяемым производным неречевым каналом.
RU2012141463/08A 2010-03-08 2011-02-28 Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала RU2520420C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US31143710P 2010-03-08 2010-03-08
US61/311,437 2010-03-08
PCT/US2011/026505 WO2011112382A1 (en) 2010-03-08 2011-02-28 Method and system for scaling ducking of speech-relevant channels in multi-channel audio

Publications (2)

Publication Number Publication Date
RU2012141463A RU2012141463A (ru) 2014-04-20
RU2520420C2 true RU2520420C2 (ru) 2014-06-27

Family

ID=43919902

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012141463/08A RU2520420C2 (ru) 2010-03-08 2011-02-28 Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала

Country Status (9)

Country Link
US (2) US9219973B2 (ru)
EP (1) EP2545552B1 (ru)
JP (1) JP5674827B2 (ru)
CN (2) CN102792374B (ru)
BR (2) BR122019024041B1 (ru)
ES (1) ES2709523T3 (ru)
RU (1) RU2520420C2 (ru)
TW (1) TWI459828B (ru)
WO (1) WO2011112382A1 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
RU2701055C2 (ru) * 2014-10-02 2019-09-24 Долби Интернешнл Аб Способ декодирования и декодер для усиления диалога
RU2812005C2 (ru) * 2019-04-15 2024-01-22 Долби Интернешнл Аб Усиление диалога в звуковом кодеке

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2858925C (en) * 2011-12-15 2017-02-21 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus, method and computer program for avoiding clipping artefacts
US9781529B2 (en) 2012-03-27 2017-10-03 Htc Corporation Electronic apparatus and method for activating specified function thereof
US9633667B2 (en) * 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
US9886794B2 (en) 2012-06-05 2018-02-06 Apple Inc. Problem reporting in maps
US10156455B2 (en) 2012-06-05 2018-12-18 Apple Inc. Context-aware voice guidance
EP2760021B1 (en) * 2013-01-29 2018-01-17 2236008 Ontario Inc. Sound field spatial stabilizer
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
MX354633B (es) 2013-03-05 2018-03-14 Fraunhofer Ges Forschung Aparato y metodo para la descomposicion directa-ambiental de multicanal para el procesamiento de señales de audio.
CN114566183A (zh) * 2013-04-05 2022-05-31 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
US9106196B2 (en) 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
KR101790641B1 (ko) 2013-08-28 2017-10-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
WO2015116687A1 (en) * 2014-01-28 2015-08-06 St. Jude Medical, Cardiology Division, Inc. Elongate medical devices incorporating a flexible substrate, a sensor, and electrically-conductive traces
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9615170B2 (en) 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
WO2016115622A1 (en) 2015-01-22 2016-07-28 Eers Global Technologies Inc. Active hearing protection device and method therefore
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
US9947364B2 (en) * 2015-09-16 2018-04-17 Google Llc Enhancing audio using multiple recording devices
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
EP3566229B1 (en) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
US10013995B1 (en) * 2017-05-10 2018-07-03 Cirrus Logic, Inc. Combined reference signal for acoustic echo cancellation
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
CN115699172A (zh) 2020-05-29 2023-02-03 弗劳恩霍夫应用研究促进协会 用于处理初始音频信号的方法和装置
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及***
WO2023208342A1 (en) * 2022-04-27 2023-11-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for scaling of ducking gains for spatial, immersive, single- or multi-channel reproduction layouts

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2151430C1 (ru) * 1994-01-28 2000-06-20 Эйти энд Ти Корп. Имитатор шума, управляемый детектированием активности речи
WO2003022003A2 (en) * 2001-09-06 2003-03-13 Koninklijke Philips Electronics N.V. Audio reproducing device
DE102007048973A1 (de) * 2007-10-12 2009-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
WO2010011377A2 (en) * 2008-04-18 2010-01-28 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience

Family Cites Families (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666429A (en) * 1994-07-18 1997-09-09 Motorola, Inc. Energy estimator and method therefor
JPH08222979A (ja) * 1995-02-13 1996-08-30 Sony Corp オーディオ信号処理装置、およびオーディオ信号処理方法、並びにテレビジョン受像機
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5983183A (en) * 1997-07-07 1999-11-09 General Data Comm, Inc. Audio automatic gain control system
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6226321B1 (en) * 1998-05-08 2001-05-01 The United States Of America As Represented By The Secretary Of The Air Force Multichannel parametric adaptive matched filter receiver
DK1141948T3 (da) * 1999-01-07 2007-08-13 Tellabs Operations Inc Fremgangsmåde og apparat til adaptiv undertrykkelse af stöj
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
DE60028907T2 (de) * 1999-11-24 2007-02-15 Donnelly Corp., Holland Rückspiegel mit Nutzfunktion
WO2001041427A1 (en) * 1999-12-06 2001-06-07 Dmi Biosciences, Inc. Noise reducing/resolution enhancing signal processing method and system
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
JP2001268700A (ja) * 2000-03-17 2001-09-28 Fujitsu Ten Ltd 音響装置
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US20020159434A1 (en) * 2001-02-12 2002-10-31 Eleven Engineering Inc. Multipoint short range radio frequency system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US20040148166A1 (en) * 2001-06-22 2004-07-29 Huimin Zheng Noise-stripping device
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
WO2007106399A2 (en) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP3810004B2 (ja) 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
DE60325595D1 (de) * 2002-07-01 2009-02-12 Koninkl Philips Electronics Nv Von der stationären spektralleistung abhängiges audioverbesserungssystem
JP4219898B2 (ja) * 2002-10-31 2009-02-04 富士通株式会社 音声強調装置
US7305097B2 (en) * 2003-02-14 2007-12-04 Bose Corporation Controlling fading and surround signal level
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7127076B2 (en) * 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
US8724822B2 (en) * 2003-05-09 2014-05-13 Nuance Communications, Inc. Noisy environment communication enhancement system
ATE324763T1 (de) * 2003-08-21 2006-05-15 Bernafon Ag Verfahren zur verarbeitung von audiosignalen
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
EP1930880B1 (en) * 2005-09-02 2019-09-25 NEC Corporation Method and device for noise suppression, and computer program
US20070053522A1 (en) * 2005-09-08 2007-03-08 Murray Daniel J Method and apparatus for directional enhancement of speech elements in noisy environments
JP4356670B2 (ja) * 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
AU2007296933B2 (en) * 2006-09-14 2011-09-22 Lg Electronics Inc. Dialogue enhancement techniques
US20080082320A1 (en) * 2006-09-29 2008-04-03 Nokia Corporation Apparatus, method and computer program product for advanced voice conversion
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
WO2008073487A2 (en) * 2006-12-12 2008-06-19 Thx, Ltd. Dynamic surround channel volume control
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
DE602008001787D1 (de) * 2007-02-12 2010-08-26 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
ES2391228T3 (es) * 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
JP2008216720A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8600516B2 (en) * 2007-07-17 2013-12-03 Advanced Bionics Ag Spectral contrast enhancement in a cochlear implant speech processor
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
EP2232700B1 (en) * 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
KR101328962B1 (ko) * 2008-01-01 2013-11-13 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN101911182A (zh) * 2008-01-01 2010-12-08 Lg电子株式会社 用于处理音频信号的方法和装置
US8392179B2 (en) * 2008-03-14 2013-03-05 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US8983832B2 (en) 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US20100008520A1 (en) * 2008-07-09 2010-01-14 Yamaha Corporation Noise Suppression Estimation Device and Noise Suppression Device
EP2194526A1 (en) * 2008-12-05 2010-06-09 Lg Electronics Inc. A method and apparatus for processing an audio signal
US8185389B2 (en) * 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
WO2010068997A1 (en) * 2008-12-19 2010-06-24 Cochlear Limited Music pre-processing for hearing prostheses
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
WO2010083879A1 (en) * 2009-01-20 2010-07-29 Widex A/S Hearing aid and a method of detecting and attenuating transients
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
WO2010104299A2 (en) * 2009-03-08 2010-09-16 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
EP2475423B1 (en) * 2009-09-11 2016-12-14 Advanced Bionics AG Dynamic noise reduction in auditory prosthesis systems
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
EP2486567A1 (en) * 2009-10-09 2012-08-15 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
US8553892B2 (en) * 2010-01-06 2013-10-08 Apple Inc. Processing a multi-channel signal for output to a mono speaker
WO2011083979A2 (en) * 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2151430C1 (ru) * 1994-01-28 2000-06-20 Эйти энд Ти Корп. Имитатор шума, управляемый детектированием активности речи
WO2003022003A2 (en) * 2001-09-06 2003-03-13 Koninklijke Philips Electronics N.V. Audio reproducing device
DE102007048973A1 (de) * 2007-10-12 2009-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
WO2010011377A2 (en) * 2008-04-18 2010-01-28 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
CA2745842A1 (en) * 2008-04-18 2010-01-28 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701055C2 (ru) * 2014-10-02 2019-09-24 Долби Интернешнл Аб Способ декодирования и декодер для усиления диалога
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
US10210883B2 (en) 2014-12-12 2019-02-19 Huawei Technologies Co., Ltd. Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
RU2812005C2 (ru) * 2019-04-15 2024-01-22 Долби Интернешнл Аб Усиление диалога в звуковом кодеке

Also Published As

Publication number Publication date
CN102792374A (zh) 2012-11-21
EP2545552A1 (en) 2013-01-16
CN104811891A (zh) 2015-07-29
CN102792374B (zh) 2015-05-27
RU2012141463A (ru) 2014-04-20
CN104811891B (zh) 2017-06-27
JP5674827B2 (ja) 2015-02-25
US9881635B2 (en) 2018-01-30
TW201215177A (en) 2012-04-01
WO2011112382A1 (en) 2011-09-15
US20160071527A1 (en) 2016-03-10
JP2013521541A (ja) 2013-06-10
EP2545552B1 (en) 2018-12-12
BR112012022571B1 (pt) 2020-11-17
US20130006619A1 (en) 2013-01-03
US9219973B2 (en) 2015-12-22
ES2709523T3 (es) 2019-04-16
BR122019024041B1 (pt) 2020-08-11
BR112012022571A2 (pt) 2016-08-30
TWI459828B (zh) 2014-11-01

Similar Documents

Publication Publication Date Title
RU2520420C2 (ru) Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
JP6633239B2 (ja) ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
AU2009274456B2 (en) Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP4792086B2 (ja) 2つの入力チャンネルを使用して3つの出力チャンネルを合成させる装置および方法
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
US8086448B1 (en) Dynamic modification of a high-order perceptual attribute of an audio signal