RU2485608C2 - Method and apparatus to facilitate determining signal bounding frequencies - Google Patents
Method and apparatus to facilitate determining signal bounding frequencies Download PDFInfo
- Publication number
- RU2485608C2 RU2485608C2 RU2011110493A RU2011110493A RU2485608C2 RU 2485608 C2 RU2485608 C2 RU 2485608C2 RU 2011110493 A RU2011110493 A RU 2011110493A RU 2011110493 A RU2011110493 A RU 2011110493A RU 2485608 C2 RU2485608 C2 RU 2485608C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- amplitude spectrum
- spectrum
- bandwidth
- frequency
- Prior art date
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 47
- 230000000875 corresponding Effects 0.000 claims abstract description 20
- 230000003595 spectral Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000000034 method Methods 0.000 description 13
- 230000001965 increased Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001131 transforming Effects 0.000 description 2
- 125000000998 L-alanino group Chemical group [H]N([*])[C@](C([H])([H])[H])([H])C(=O)O[H] 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing Effects 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 230000002194 synthesizing Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Abstract
Description
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Изобретение в целом относится к обработке сигналов, а более конкретно к обработке аудио сигналов.The invention generally relates to signal processing, and more particularly to processing audio signals.
УРОВЕНЬ ТЕХНИКИBACKGROUND
Различные устройства служат, по меньшей мере частично, для обработки сигналов, которые ограничиваются, тем или иным образом, заданной шириной полосы частот. Во многих случаях это делается, чтобы гарантировать, что сигнал находится в пределах некоторых ограниченных возможностей обработки, соответствующей обрабатывающей платформе и/или настройке приложения. Например, некоторые обрабатывающие платформы (такие как сотовые телефоны) часто ограничивают аудио сигнал, который будет обрабатываться, некоторой предопределенной шириной полосы частот, как, например, от 300 до 3400 Гц, даже если изначальное речевое содержимое может включать в себя частоты, которые находятся вне этого диапазона.Various devices serve, at least in part, to process signals that are limited, in one way or another, to a given frequency bandwidth. In many cases, this is done to ensure that the signal is within some of the limited processing capabilities appropriate to the processing platform and / or application setup. For example, some processing platforms (such as cell phones) often limit the audio signal to be processed to a predetermined bandwidth, such as 300 to 3400 Hz, even if the original speech content may include frequencies that are outside this range.
В знак признания того факта, что такие ограничения могут ограничивать качество звука, некоторые платформы дополнительно обрабатывают такой сигнал, используя искусственное расширение ширины полосы частот. Вообще говоря, искусственное расширение ширины полосы частот типично содержит добавление искусственно сформированного содержимого вне вышеупомянутой предопределенной ширины полосы частот к обработанному сигналу, чтобы по возможности улучшить итоговое качество звука.In recognition of the fact that such restrictions may limit sound quality, some platforms further process such a signal using artificial bandwidth extension. Generally speaking, artificially expanding the bandwidth typically comprises adding artificially generated content outside the aforementioned predetermined bandwidth to the processed signal in order to possibly improve the overall sound quality.
К сожалению, успех такого подхода может сам быть достаточно случайным и непредсказуемым. В некоторых случаях соответствующим результатом может быть естественное звучание и относительно приятное для пользователя. В других случаях, однако, результат расширения полосы частот может быть достаточно неестественным и неприятным. В худшем случае введение этого искусственно сформированного содержимого может затруднить распознавание основного содержания изначального звукового содержимого.Unfortunately, the success of this approach can itself be quite random and unpredictable. In some cases, the corresponding result may be natural sound and relatively pleasing to the user. In other cases, however, the result of expanding the frequency band can be quite unnatural and unpleasant. In the worst case, the introduction of this artificially generated content may make it difficult to recognize the main content of the original audio content.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
Вышеуказанные потребности, по меньшей мере частично, удовлетворяются с помощью предоставления способа и устройства для способствования определению ограничивающих частот сигнала, описанных в нижеследующем подробном описании, в частности при изучении в сочетании с чертежами, в которых:The above needs are met, at least in part, by providing a method and apparatus for facilitating the determination of the signal limiting frequencies described in the following detailed description, in particular when studied in conjunction with the drawings, in which:
фиг.1 содержит блок-схему последовательности операций, сконфигурированную в соответствии с различными вариантами осуществления изобретения;FIG. 1 comprises a flowchart configured in accordance with various embodiments of the invention; FIG.
фиг.2 содержит блок-схему последовательности операций, сконфигурированную в соответствии с различными вариантами осуществления изобретения; иFIG. 2 comprises a flowchart configured in accordance with various embodiments of the invention; FIG. and
фиг.3 содержит структурную схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения.FIG. 3 contains a block diagram configured in accordance with various embodiments of the invention.
Специалисты в данной области техники поймут, что элементы на фигурах проиллюстрированы для простоты и ясности и не обязательно изображены в масштабе. Например, размеры и/или относительное расположение некоторых элементов на фигурах могут быть преувеличены относительно других элементов, чтобы помочь улучшить понимание различных вариантов осуществления настоящего изобретения. Также, общие, но хорошо понимаемые элементы, которые являются полезными или необходимыми в коммерчески выполнимом варианте осуществления, часто не изображаются, чтобы способствовать менее затрудненному рассмотрению этих различных вариантов осуществления настоящего изобретения. Далее будет понятно, что определенные действия и/или этапы могут быть описаны или изображены в конкретном порядке наступления, в то время как специалисты в данной области техники будут понимать, что такая специфичность по отношению к последовательности в действительности не требуется. Также будет понятно, что термины и выражения, используемые в материалах настоящей заявки, имеют обычное техническое значение, как согласовано с такими терминами и выражениями специалистами в области техники, как изложено выше, за исключением тех, в которых разные специфические значения были изложены иным образом в материалах настоящей заявки.Those skilled in the art will understand that the elements in the figures are illustrated for simplicity and clarity and are not necessarily drawn to scale. For example, the sizes and / or relative locations of some elements in the figures may be exaggerated relative to other elements to help improve understanding of various embodiments of the present invention. Also, common but well understood elements that are useful or necessary in a commercially feasible embodiment are often not depicted in order to facilitate a less difficult consideration of these various embodiments of the present invention. It will be further understood that certain actions and / or steps can be described or depicted in a specific order of occurrence, while those skilled in the art will understand that such specificity with respect to the sequence is not really required. It will also be understood that the terms and expressions used in the materials of this application have the usual technical meaning, as agreed with such terms and expressions by experts in the field of technology, as described above, except for those in which different specific meanings were set forth otherwise in materials of this application.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
Вообще говоря, согласно этим различным вариантам осуществления, платформа обработки сигналов представляет сигнал для обработки (как, например, оцифрованный аудио сигнал), а затем идентифицирует части сигнала со специфическими характеристиками, чтобы предоставить соответствующие идентифицированные части сигнала. Последние затем используются, чтобы автоматически определить по меньшей мере одну ограничивающую частоту для сигнала. Эта (или эти) ограничивающая частота(ы) затем может использоваться, чтобы способствовать расширению ширины полосы частот для сигнала. В соответствии с одним из подходов этот этап идентификации частей сигнала со специфическими характеристиками может содержать идентификацию частей сигнала, которые демонстрируют по меньшей мере предопределенный уровень энергии. В таком случае этап определения ограничивающей частоты может содержать, по меньшей мере частично, вычисление амплитудного спектра для каждой из идентифицированных частей сигнала.Generally speaking, according to these various embodiments, the signal processing platform presents a signal for processing (such as a digitized audio signal), and then identifies parts of the signal with specific characteristics to provide corresponding identified parts of the signal. The latter are then used to automatically determine at least one limiting frequency for the signal. This (or these) clipping frequency (s) can then be used to help expand the signal bandwidth. According to one approach, this step of identifying parts of the signal with specific characteristics may comprise identifying parts of the signal that exhibit at least a predetermined energy level. In such a case, the step of determining the limiting frequency may comprise, at least in part, calculating an amplitude spectrum for each of the identified signal portions.
В соответствии с одним из подходов, если требуется, вышеупомянутый амплитудный спектр может быть использован, чтобы определить соответствующую меру плоскости внутри полосы пропускания, как относится к соответствующей нормированной части сигнала, чтобы таким образом предоставить соответствующие рассмотренные части сигнала. В таком случае и вновь если требуется, этап определения ограничивающей частоты(т) может содержать накопление амплитудного спектра для этих рассмотренных частей сигнала, чтобы таким образом предоставить накопленный амплитудный спектр, и затем, используя последний, оценить соответствующую огибающую сигнала. Эта огибающая сигнала может затем быть использована, чтобы определить ограничивающую частоту(ы).In accordance with one approach, if required, the aforementioned amplitude spectrum can be used to determine the appropriate measure of the plane within the passband, as relates to the corresponding normalized part of the signal, so as to provide the corresponding considered parts of the signal. In this case, and again if necessary, the step of determining the limiting frequency (t) may comprise accumulating the amplitude spectrum for these considered parts of the signal so as to provide the accumulated amplitude spectrum, and then using the latter, estimate the corresponding envelope of the signal. This signal envelope can then be used to determine the limiting frequency (s).
В соответствии с одним из подходов, например, эти идеи затем обеспечат выполнение расширения ширины полосы частот для сигнала, используя обнаружение верхней границы полосы для сигнала, по меньшей мере частично, путем автоматического осуществления расширения ширины полосы частот для сигнала, используя самое низкое ожидаемое значение верхней границы полосы, затем используя доступный узкополосный сигнал до обнаруженной верхней границы полосы пропускания, и затем используя сигнал расширенной ширины полосы частот над обнаруженной верхней границей полосы, чтобы представить сигнал.In accordance with one approach, for example, these ideas will then provide for performing bandwidth expansion for a signal using detecting the upper bandwidth of the signal, at least in part, by automatically performing bandwidth expansion for the signal using the lowest expected upper bandwidth bandwidth, then using the available narrowband signal to the detected upper bandwidth, and then using the extended bandwidth signal above the detected upper border strips to represent a signal.
В качестве другого примера в этом отношении эти идеи обеспечат выполнение расширения ширины полосы частот для сигнала путем обнаружения нижней границы полосы пропускания, которая находится ниже самого высокого ожидаемого значения нижней границы полосы, чтобы предоставить соответствующую обнаруженную нижнюю границу полосы. Характеристика повышения нижней полосы может затем быть настроена на основании этой обнаруженной нижней границы полосы, чтобы предоставить соответствующую настроенную характеристику повышения нижней полосы. Эта настроенная характеристика повышения нижней полосы затем может быть применена к сигналу, чтобы получить итоговый сигнал с повышенной нижней границей полосы пропускания.As another example in this regard, these ideas will provide for performing bandwidth expansion for a signal by detecting a lower bandwidth limit that is below the highest expected value of the lower bandwidth to provide a correspondingly detected lower bandwidth. The lower band boost characteristic can then be adjusted based on this detected lower band border to provide a corresponding customized lower band boost characteristic. This customized lower-band boost characteristic can then be applied to the signal to produce a final signal with a higher lower bandwidth limit.
Специалисты в данной области техники признают и примут во внимание, что эти идеи предназначены для обнаружения границ полосы для заданного сигнала. Эти идеи затем рассматривают и легко обеспечивают использование этой информации, чтобы выполнить расширение ширины полосы частот. Сами результаты расширения ширины полосы частот могут быть в значительной степени лучше в терминах качества звучания по сравнению с многочисленными подходами известного уровня техники. Это происходит, по меньшей мере частично, благодаря лучшему приспособлению и использованию существующего содержимого в изначальном сигнале. Это, в свою очередь, во многих случаях сокращает количество придуманного содержимого, которое необходимо включить в итоговый сигнал расширенной полосы частот.Those skilled in the art will recognize and appreciate that these ideas are intended to detect band boundaries for a given signal. These ideas are then reviewed and easily provided using this information to perform bandwidth expansion. The results of widening the bandwidth themselves can be significantly better in terms of sound quality compared to numerous prior art approaches. This happens, at least in part, due to better adaptation and use of existing content in the original signal. This, in turn, in many cases reduces the amount of invented content that must be included in the final signal of the extended frequency band.
Дополнительно будет принято во внимание, что этим идеям легко и экономически выгодно помогает использование доступных обрабатывающих платформ. Соответствующие вычислительные запросы относительно скромны, таким образом, делая эти идеи подходящими для обрабатывающих платформ (таких как, но не в качестве ограничения, сотовые телефоны или тому подобное), имеющих ограниченные локальные ресурсы обработки (такие как доступные запасы энергии, вычислительные способности и тому подобное). Дополнительно будет принято во внимание, что эти идеи весьма расширяемы и могут быть с пользой использованы с разнообразными сигналами, требованиями к ширине полосы частот и/или возможностями и тому подобным.In addition, it will be taken into account that the use of affordable processing platforms helps these ideas easily and economically. Relevant computing requests are relatively modest, thus making these ideas suitable for processing platforms (such as, but not limited to, cell phones or the like) having limited local processing resources (such as available energy supplies, computing capabilities, and the like) ) In addition, it will be appreciated that these ideas are highly expandable and can be advantageously used with a variety of signals, bandwidth requirements and / or capabilities, and the like.
Эти и другие преимущества могут стать более ясными с помощью основательного обзора и изучения следующего подробного описания. Теперь со ссылкой на чертежи и, в частности, на фиг.1 будет представлен иллюстративный процесс, который совместим со многими из этих идей. Этот процесс 100 может быть выполнен выбранной платформой обработки сигналов. Примеры в этом смысле включают, но безусловно не в качестве ограничения, сотовые телефоны, беспроводные устройства двусторонней поочередной связи (такие, как так называемые портативные рации), телефоны наземной линии связи, так называемые Интернет телефоны, и тому подобное.These and other benefits can be made clearer through a thorough review and study of the following detailed description. Now, with reference to the drawings, and in particular to FIG. 1, an illustrative process will be presented that is compatible with many of these ideas. This process 100 may be performed by a selected signal processing platform. Examples in this sense include, but certainly not by way of limitation, cell phones, wireless two-way serial communication devices (such as so-called walkie-talkies), landline telephones, so-called Internet telephones, and the like.
Этот процесс 100 включает в себя этап 101 представления сигнала для обработки. Для многих интересующих настроек приложения этот сигнал будет содержать звуковое содержимое. Во многих случаях этот этап представления этого сигнала будет содержать представление множества последовательных отсчетов (таких как цифровые отсчеты) звукового содержимого. Этот этап может содержать, например, представление кадра такой информации, которая содержит 1024 последовательных отсчетов, которые были получены, используя частоту выборки 8 КГц. Этот этап может также содержать, например, представление окна содержимого, которое содержит множество таких кадров. Окно, имеющее длительность примерно от 1 до 3 секунд, например, может быть очень полезным для широкого разнообразия общих настроек приложения, содержащих аудио сигналы, которые включают человеческую речь.This process 100 includes a
Этот процесс 100 затем представляет этап 102 идентификации частей сигнала у сигнала со специфическими характеристиками, чтобы таким образом предоставить соответствующие идентифицированные части сигнала. В соответствии с одним из подходов, например, эта часть сигнала может содержать предопределенную временную или информационную величину, как, например, вышеупомянутые кадры. В таком случае этот этап может содержать идентификацию специфических кадров, которые демонстрируют интересующие специфические характеристики.This process 100 then presents a
В соответствии с одним из подходов эта специфическая характеристика может содержать предопределенный уровень энергии. В таком случае этот этап идентификации частей сигнала у сигнала, имеющего интересующую специфическую характеристику, может содержать идентификацию частей сигнала, которые демонстрируют, например, по меньшей мере этот предопределенный уровень энергии.In accordance with one approach, this specific characteristic may contain a predetermined energy level. In this case, this step of identifying parts of the signal for a signal having a specific characteristic of interest may comprise identifying parts of the signal that exhibit, for example, at least this predetermined energy level.
Этот процесс 100 затем представляет этап 103 использования этих идентифицированных частей сигнала, чтобы автоматически определить по меньшей мере одну ограничивающую частоту для сигнала. Это может содержать, например, определение нижней ограничивающей частоты, верхней ограничивающей частоты или обеих верхней и нижней ограничивающих частот для сигнала, если требуется. В соответствии с одним из подходов этот этап может содержать автоматическое определение по меньшей мере одной ограничивающей частоты для сигнала, как относится к каждой из по меньшей мере нескольких последовательных серий групп последовательных отсчетов для звукового содержимого, которое может содержать сигнал. Например, и как упоминалось выше, во многих настройках приложения может быть полезно сделать это определение для групп последовательных отсчетов звукового содержимого с каждой группой, представляющей от примерно одной секунды до примерно трех секунд звукового содержимого.This process 100 then presents a
В этом отношении специалисты в данной области техники могут отметить и принять во внимание, что вышеупомянутые группы и вышеупомянутые части сигнала могут быть, а могут и не быть, сильно коррелированы друг с другом в зависимости от потребностей и/или возможностей, склонных характеризовать заданную настройку приложения. В соответствии с одним из подходов, например, вышеупомянутые идентифицированные части сигнала могут попадать в вышеупомянутую группу. Будет понятно, что группы, которые выбираются для определения ограничивающей частоты, тем не менее, не обязательно должны быть выбраны из последовательных серий групп. Возможно, например, что выбранные группы будут пересекаться друг с другом со временем.In this regard, those skilled in the art may note and take into account that the aforementioned groups and the aforementioned signal parts may or may not be strongly correlated with each other depending on the needs and / or capabilities that tend to characterize a given application setting . In accordance with one approach, for example, the aforementioned identified signal portions may fall into the aforementioned group. It will be understood that the groups that are selected to determine the limiting frequency, however, do not have to be selected from consecutive series of groups. It is possible, for example, that selected groups will overlap with each other over time.
Этот процесс 100 будет легко обеспечивать выполнение этих этапов, если требуется, любым из множества способов. В соответствии с одним из подходов, например, эти этапы могут включать вычисление амплитудного спектра для каждой из идентифицированных частей сигнала. Этот амплитудный спектр может затем быть использован, чтобы определить соответствующую меру плоскости внутри полосы пропускания, как относится к соответствующей нормированной части сигнала, чтобы таким образом предоставить рассмотренные части сигнала. Такой подход будет обеспечивать, например, дополнительные этапы накопления амплитудного спектра для рассмотренных частей сигнала, чтобы предоставить соответствующий накопленный амплитудный спектр, использования этого накопленного амплитудного спектра, чтобы оценить огибающую сигнала, соответствующую рассмотренным частям сигнала, и затем использования этой огибающей сигнала, чтобы определить вышеупомянутую ограничивающую частоту(ы).This process 100 will easily enforce these steps, if required, in any of a variety of ways. According to one approach, for example, these steps may include calculating an amplitude spectrum for each of the identified signal portions. This amplitude spectrum can then be used to determine the appropriate measure of the plane within the passband, as it relates to the corresponding normalized part of the signal, so as to provide the considered parts of the signal. Such an approach will provide, for example, additional steps of accumulating the amplitude spectrum for the considered signal parts to provide a corresponding accumulated amplitude spectrum, using this accumulated amplitude spectrum to estimate the signal envelope corresponding to the considered signal parts, and then using this signal envelope to determine the above limiting frequency (s).
В качестве другого примера в этом отношении, если требуется, этот процесс 100 будет легко обеспечивать использование преобразованных версий амплитудного спектра для воздействия на вышеупомянутое накопление. Такие преобразования могут быть основаны на самом амплитудном спектре, но в таком случае будет накапливаться не сам амплитудный спектр. Полезные преобразования в этом отношении включают, но не в качестве ограничения, возведение амплитудного спектра в степень, отличную от единицы (такую как, но не в качестве ограничения, степень больше единицы), выполнение операции логарифмирования над амплитудным спектром, за которой следует этап умножения (например, чтобы перевести результаты в децибелы) и тому подобное.As another example in this regard, if required, this process 100 will easily provide the use of converted versions of the amplitude spectrum to influence the aforementioned accumulation. Such transformations can be based on the amplitude spectrum itself, but in this case the amplitude spectrum itself will not accumulate. Useful transformations in this regard include, but are not limited to raising the amplitude spectrum to a degree other than unity (such as, but not limiting, the degree is greater than unity), performing a logarithm operation on the amplitude spectrum, followed by the multiplication step ( for example, to convert the results to decibels) and the like.
Для иллюстрации, дополнительные подробности, относящиеся к конкретному примеру, теперь будут предоставляться в этом отношении. Специалисты в данной области техники отметят и поймут, что особенности этого примера служат только иллюстративной цели и не предлагаются с каким-либо предположением или замыслом, что эти особенности содержат исчерпывающий список всех таких возможностей в этом отношении.To illustrate, additional details related to a particular example will now be provided in this regard. Those skilled in the art will recognize and understand that the features of this example are for illustrative purposes only and are not offered with any suggestion or intent that these features contain an exhaustive list of all such possibilities in this regard.
В ненетипичной системе искусственного расширения ширины полосы частот (BWE) речи входная узкополосная речь (содержащаяся в пределах, например, 300-3400 Гц) преобразуется в соответствующую выходную широкополосную речь (такую как 100-8000 Гц) путем синтезирования недостающей информации на основании параметров, полученных из самой узкополосной речи. Эта входная узкополосная (NB) речь сначала анализируется, используя анализ коэффициентов линейного предсказания (LP), чтобы получить спектральную огибающую. Из NB коэффициентов оцениваются коэффициенты широкополосного LP (используя, например, отображение словаря кодов, известное в данной области техники). Коэффициенты узкополосного LP также используются, чтобы обратно фильтровать входную речь, чтобы получить NB сигнал возбуждения в области с (1:2) увеличенной частотой отсчетов.In a non-typical speech extension system (BWE) of speech, the input narrow-band speech (contained, for example, 300-3400 Hz) is converted to the corresponding output broadband speech (such as 100-8000 Hz) by synthesizing the missing information based on the parameters obtained from narrowband speech itself. This input narrowband (NB) speech is first analyzed using linear prediction coefficient (LP) analysis to obtain a spectral envelope. From NB coefficients, broadband LP coefficients are estimated (using, for example, a mapping of a codebook known in the art). Narrow-band LP coefficients are also used to reverse-filter input speech to obtain an NB excitation signal in an area with a (1: 2) increased sample rate.
Из этого сигнала синтезируется широкополосный (WB) сигнал возбуждения (используя, например, нелинейную операцию, такую как выпрямление). Фильтр LP (использующий оцененные WB коэффициенты) затем используется, чтобы отфильтровывать WB возбуждение и синтезировать широкополосную речь. Итоговая синтезированная широкополосная речь подвергается фильтрации в фильтре верхних частот и добавляется (версии с 1:2 увеличенной частотой отсчетов) к входной NB речи, чтобы получить оцененную широкополосную выходную речь.From this signal, a broadband (WB) excitation signal is synthesized (using, for example, a nonlinear operation such as rectification). An LP filter (using estimated WB coefficients) is then used to filter out WB excitation and synthesize broadband speech. The resulting synthesized broadband speech is filtered in a high-pass filter and added (versions with a 1: 2 increased sample rate) to the input NB speech to obtain an estimated broadband output speech.
Типичный сценарий приложения для такой системы BWE - сотовые телефоны, в которых такая система может использоваться, чтобы расширить ширину полосы частот принятого звука, чтобы улучшить впечатление пользователя. При проектировании системы BWE для такого приложения, в целом предполагается, что входной NB сигнал имеет характерную ширину полосы частот, такую как 300-3400 Гц. Во многих настройках приложения, однако, ширина полосы частот канала не фиксируется, но может и будет изменяться от звонка к звонку (или даже в течение одного звонка).A typical application scenario for such a BWE system is cell phones in which such a system can be used to expand the bandwidth of the received sound to improve the user experience. When designing a BWE system for such an application, it is generally assumed that the input NB signal has a characteristic bandwidth, such as 300-3400 Hz. In many application settings, however, the channel bandwidth is not fixed, but can and will vary from call to call (or even during one call).
Настоящие идеи позволяют обнаружить границы полосы принятого сигнала, так что изначальная информация сохраняется в значительной степени (например, от около 200 до 3600 Гц), а искусственно сформированная информация добавляется только, где требуется или, где по меньшей мере вероятно будет полезна (например, примерно от 100 до 200 Гц и примерно от 3600 до 8000 Гц).These ideas allow us to detect the boundaries of the band of the received signal, so that the initial information is stored to a large extent (for example, from about 200 to 3600 Hz), and artificially generated information is added only where it is required or where at least it will be useful (for example, approximately from 100 to 200 Hz and from about 3600 to 8000 Hz).
Теперь со ссылкой на фиг.2 показан один из иллюстративных примеров алгоритма обнаружения границы полосы в соответствии с этими идеями. На первом этапе 201 входная NB речь составляется в блоки последовательных отсчетов, указываемых ссылкой в материалах настоящей заявки как кадры. Например, k-й кадр может быть выражен какNow, with reference to FIG. 2, one illustrative example of a band edge detection algorithm is shown in accordance with these ideas. At the first stage 201, the input NB speech is compiled into blocks of consecutive samples indicated by reference in the materials of this application as frames. For example, the k-th frame can be expressed as
где - отсчет речи с индексом отсчета , ограниченным [-1,1), где индекс отсчета, соответствующий первому отсчету кадра , - , а - длина кадра.Where - speech count with reference index limited to [-1.1), where the reference index corresponding to the first frame sample , - , but - frame length.
Последовательные кадры могут пересекаться друг с другом, и количество новых отсчетов в относительно указано ссылкой как приращение. Для целей этого иллюстративного примера выбрано как 1024 (128 мс при частоте выборки 8 кГц), а приращение выбрано как 120 (15 мс при частоте выборки 8 кГц). Каждый кадр речи затем умножается поточечно на соответствующее окно , чтобы получить обработанный окном кадр речи. Подходящими окнами являются окна Хэмминга, Хана и так далее. В данном примере в качестве окна используется косинус на пьедестале, определяемый какSequential frames may intersect each other, and the number of new samples per regarding referenced as increment. For the purposes of this illustrative example selected as 1024 (128 ms for a sampling frequency of 8 kHz), and the increment selected as 120 (15 ms for a sampling frequency of 8 kHz). Each frame of speech is then multiplied dotwise by the corresponding window to get the window processed frame speech. Suitable windows are those of Hamming, Khan, and so on. In this example, the window uses the cosine on the pedestal, defined as
Обработанный окном кадр речи может быть выражен какThe speech frame processed by the window can be expressed as
После составления обработанного окном кадра речи, как указано выше, на втором этапе 202 его энергия вычисляется какAfter compiling the window-processed speech frame, as described above, in the second step 202, its energy is calculated as
и когда энергия превышает определенный порог, кадр обрабатывается далее. В противном случае поток возвращается на первый этап 201, чтобы составить следующий кадр. В этом иллюстративном примере используемый энергетический порог -50 дБ при номинальном уровне сигнала -26 дБ. Этот этап 202 гарантирует, что только кадры с достаточной энергией используются при определении границ полосы частот.and when the energy exceeds a certain threshold, the frame is processed further. Otherwise, the flow returns to the first step 201 to compose the next frame. In this illustrative example, the energy threshold used is -50 dB at a nominal signal level of -26 dB. This step 202 ensures that only frames with sufficient energy are used in determining the boundaries of the frequency band.
Когда кадр имеет достаточно энергии, этот процесс обеспечивает третий этап 203, чтобы нормировать кадр делением каждого из его отсчетов на квадратный корень из его энергии. Нормирование гарантирует, что каждому кадру, используемому при обнаружении границ полосы частот, придан одинаковый вес. Специалисты в данной области техники заметят, что возможны альтернативные схемы взвешивания. Упрощая запись, нормированный кадр может быть выражен какWhen the frame has enough energy, this process provides a third step 203 to normalize the frame by dividing each of its samples by the square root of its energy. Rationing ensures that each frame used to detect the boundaries of the frequency band is given the same weight. Those skilled in the art will recognize that alternative weighing schemes are possible. By simplifying the recording, a normalized frame can be expressed as
Амплитудный спектр М(l) нормированного кадра затем получают с помощью быстрого преобразования Фурье какThe amplitude spectrum M (l) of the normalized frame is then obtained using the fast Fourier transform as
, ,
где l - индекс частоты, a . Для N=1024 каждый индекс частоты является кратным числом величины шага 8000/1024=7.8125 Гц.where l is the frequency index, a . For N = 1024, each frequency index is a multiple of the step magnitude 8000/1024 = 7.8125 Hz.
На четвертом этапе 204 амплитудный спектр проверяется на его плоскостность. Это может быть сделано, например, оценкой меры плоскостности спектра (sfm) внутри полосы пропускания (например, 300 - 3400 Гц). Мера плоскостности спектра определяется в этом примере, как отношение среднего геометрического к среднему арифметическому спектральных значений. Диапазон sfm изменяется от 0 для имеющего пики, то есть не плоского спектра, до 1 для идеально плоского спектра.In a fourth step 204, the amplitude spectrum is checked for its flatness. This can be done, for example, by evaluating the measure of flatness of the spectrum (sfm) within the passband (for example, 300 - 3400 Hz). The measure of flatness of the spectrum is defined in this example as the ratio of geometric mean to arithmetic mean of spectral values. The range of sfm varies from 0 for having peaks, i.e., not a flat spectrum, to 1 for a perfectly flat spectrum.
В этом иллюстративном примере вычисляется, используя 12 полос частот равной ширины внутри полосы пропускания (300-3400 Гц), как изложено ниже.In this illustrative example It is calculated using 12 frequency bands of equal width within the passband (300-3400 Hz), as described below.
иand
Когда больше порога, амплитудный спектр кадра используется для дальнейшей обработки. В противном случае поток возвращается обратно на первый этап 201. В этом иллюстративном примере порог выбирается равным 0,5. Этот этап гарантирует, что кадры, используемые для обнаружения границы полосы, имеют достаточно плоский спектр в полосе пропускания. Специалисты в данной области техники снова поймут, что имеются альтернативные способы выполнения этого. Например, можно вычислять предсказанное усиление кадра, используя LP моделирование, и выбирать кадр для использования при обнаружении границы полосы, только если предсказанное усиление ниже порога.When more than the threshold, the amplitude spectrum of the frame is used for further processing. Otherwise, the flow returns back to the first step 201. In this illustrative example, the threshold selected equal to 0.5. This step ensures that the frames used to detect the edge of the band have a fairly flat spectrum in the pass band. Those skilled in the art will again realize that there are alternative ways of doing this. For example, it is possible to calculate the predicted frame gain using LP modeling and select a frame to use when detecting a band boundary only if the predicted gain is below a threshold.
Когда кадр имеет достаточно плоский спектр, на пятом этапе 205 накапливается амплитудный спектр кадра, и счетчик кадров, используемых в накоплении, увеличивается. Также можно накапливать энергетический спектр, если требуется (например, возведением амплитудного спектра во вторую степень или возведением амплитудного спектра в некоторую другую степень).When the frame has a sufficiently flat spectrum, in the fifth step 205, the amplitude spectrum of the frame is accumulated, and the counter of frames used in the accumulation is increased. It is also possible to accumulate the energy spectrum, if required (for example, by raising the amplitude spectrum to the second degree or raising the amplitude spectrum to some other degree).
На шестом этапе 206 отсчет кадра для накопленного амплитудного спектра проверяется, чтобы увидеть, равен ли он по меньшей мере заданному порогу (такому как, в этом иллюстративном примере, 100). В противном случае поток возвращается обратно на первый этап.In a sixth step 206, a frame reference for the accumulated amplitude spectrum is checked to see if it is equal to at least a predetermined threshold (such as, in this illustrative example, 100). Otherwise, the flow returns to the first stage.
Когда накапливается достаточное количество амплитудных спектров, накопленный спектр обрабатывается далее на седьмом этапе 207. Сначала линейные частотные коэффициенты косинусного преобразования Фурье (LFCC) вычисляются осуществлением IFFT (быстрого обратного преобразования Фурье) логарифма спектраWhen a sufficient number of amplitude spectra is accumulated, the accumulated spectrum is processed further on in the seventh step 207. First, the linear frequency coefficients of the cosine Fourier transform (LFCC) are calculated by performing the IFFT (fast inverse Fourier transform) of the logarithm of the spectrum
где представляет накопленный амплитудный спектр, представляет LFCC, а .Where represents the accumulated amplitude spectrum, represents LFCC, and .
Огибающая логарифма спектра получается установкой всех значений LFCC, кроме набора, представленного , на ноль и осуществлением быстрого преобразования Фурье (БПФ, FFT) следующим образом:The envelope of the logarithm of the spectrum is obtained by setting all the LFCC values, except for the set represented by , to zero and the implementation of the fast Fourier transform (FFT, FFT) as follows:
где отрицательные значения могут быть преобразованы в положительные значения добавлением . В данном иллюстративном примере выбран равным 14.where are the negative values can be converted to positive values by adding . In this illustrative example selected equal to 14.
Из огибающей логарифма спектра можно оценить нижнюю и верхнюю границы полосы. Например, среднее значение логарифма спектра внутри полосы пропускания может быть оценено какFrom the envelope of the logarithm of the spectrum you can evaluate the lower and upper borders of the strip. For example, the average value of the logarithm of the spectrum within the bandwidth can be estimated as
где и представляют нижний и верхний индексы внутри полосы пропускания. В этом иллюстративном примере =51, а =422.Where and represent the lower and upper indices within the bandwidth. In this illustrative example = 51, and = 422.
Нижняя граница полосы частот может быть оценена как индекс , при котором огибающая логарифма спектра на дБ ниже, чем . Это легко обнаружить поиском внутри подходящего диапазона, такого как 115-265 Гц, и выбором индекса, при котором значение огибающей логарифма спектра наиболее близко к . В качестве альтернативы можно обнаружить два индекса, содержащих требуемое значение огибающей, и использовать линейную интерполяцию, чтобы получить значение дробного индекса для нижней границы полосы.The lower limit of the frequency band can be estimated as an index where the envelope of the logarithm of the spectrum on dB lower than . This is easily detected by searching within a suitable range, such as 115-265 Hz, and by selecting an index at which the value the envelope of the logarithm of the spectrum closest to . Alternatively, you can find two indexes containing the desired envelope value and use linear interpolation to get the fractional index value for the lower border of the strip.
Верхняя граница полосы частот находится схожим образом путем поиска внутри подходящего диапазона, такого как 3450-3750 Гц, чтобы найти индекс, при котором равно дБ. Подходящее значение для порогов и составляет около 10 дБ. Отметим, что выборы диапазонов поиска, а также порогов и для обнаружения как нижней, так и верхней границ полосы частот зависит от входной NB речи; а именно чиста ли речь или закодирована, какой тип кодировщика используется, отношение сигнал-шум и другие факторы, которые могут однозначно применяться в данной настройке приложения. Они могут быть выбраны эмпирически для наилучшей эффективности в требуемом приложении. Также может быть полезно обрабатывать входную NB речь, используя пару узкополосных режекторных фильтров с областями режекции примерно около 0 Гц и 4000 Гц соответственно, чтобы гарантировать, что огибающая логарифма спектра затухает на обеих границах.Upper bandwidth limit is similarly found by searching within a suitable range, such as 3450-3750 Hz, to find the index at which equally db Suitable threshold value and is about 10 dB. Note that the selection of search ranges as well as thresholds and for detecting both the lower and upper limits of the frequency band depends on the input speech NB; namely, whether speech is clear or encoded, what type of encoder is used, signal-to-noise ratio and other factors that can be unambiguously applied in this application setting. They can be empirically selected for best performance in the desired application. It may also be useful to process NB input speech using a pair of notch filters with notch areas of about 0 Hz and 4000 Hz, respectively, to ensure that the envelope of the spectrum logarithm attenuates at both edges.
Обнаруженные границы полосы, например, и затем преобразуются в соответствующие значения частоты и Гц, соответственно, используя обнаруженные границы полосы сигналов с заранее установленной шириной полосы частот для калибровки.Detected band boundaries, e.g. and then converted to the corresponding frequency values and Hz, respectively, using the detected signal bandwidth boundaries with a predetermined frequency bandwidth for calibration.
Как только границы полосы обнаружены, включение их в BWE, чтобы улучшить ее эффективность, довольно прямолинейно. Например, предположим в качестве примера, что система BWE была разработана для ширины полосы частот 300-3400 Гц, но фактическая ширина полосы частот сигнала, обнаруженная алгоритмом обнаружения границ полосы, составляет 200-3600 Гц. Чтобы включить дополнительную ширину полосы частот сигнала в верхней границе, можно просто передвинуть граничную частоту HPF (верхней границы частоты) с 3400 Гц до 3600 Гц. В качестве альтернативы можно также постепенно комбинировать изначальный сигнал и искусственно сформированный сигнал внутри полосы 3400-3600 Гц. Подобным образом, на нижней границе характеристика повышения нижней полосы может быть сдвинута ниже на 100 Гц (с 300 Гц до 200 Гц).As soon as the borders of the strip are detected, their inclusion in the BWE, in order to improve its effectiveness, is quite straightforward. For example, suppose, as an example, that the BWE system was designed for a bandwidth of 300-3400 Hz, but the actual bandwidth of the signal detected by the edge detection algorithm is 200-3600 Hz. To include additional signal bandwidth at the upper limit, you can simply move the cut-off frequency of the HPF (upper frequency limit) from 3400 Hz to 3600 Hz. Alternatively, you can also gradually combine the original signal and the artificially generated signal within the band 3400-3600 Hz. Similarly, at the lower boundary, the characteristic of increasing the lower band can be shifted lower by 100 Hz (from 300 Hz to 200 Hz).
Специалисты в данной области техники примут во внимание, что вышеописанные процессы легко осуществить, используя любую из широкого множества доступных и/или легко конфигурируемых платформ, включая частично или полностью программируемые платформы, известные в данной области техники, или платформы специального назначения, которые могут требоваться для некоторых приложений. Теперь со ссылкой на фиг.3 будет предоставлен иллюстративный подход к такой платформе.Those skilled in the art will appreciate that the above processes are easy to implement using any of a wide variety of available and / or easily configurable platforms, including partially or fully programmable platforms known in the art or special purpose platforms that may be required for some applications. Now, with reference to FIG. 3, an illustrative approach to such a platform will be provided.
В данном примере устройство 300 содержит процессор 301, который оперативно соединен с памятью 302, которая хранит в себе вышеупомянутый сигнал для обработки. Специалисты в данной области техники заметят и примут во внимание, что такой процессор может содержать жестко смонтированную платформу фиксированного назначения или может содержать частично или полностью программируемую платформу. Все из этих архитектурных вариантов хорошо известны и понимаемы в данной области техники и не требуют дополнительного описания в материалах настоящей заявки.In this example,
Этот процессор 301 может быть сконфигурирован (посредством, например, соответствующего программирования, как будет хорошо понято специалистами в данной области техники), чтобы выполнять один или более из этапов, действий и/или функций, изложенных в материалах настоящей заявки. В соответствии с одним из подходов, например, это может содержать конфигурирование процессора 301 для выполнения расширения ширины полосы частот для сигнала, используя обнаружение верхней полосы пропускания (как показано в материалах настоящей заявки, путем обнаружения соответствующей ограничивающей частоты для сигнала, как относится к каждой из по меньшей мере некоторых последовательных серий групп последовательных отсчетов сигнала), путем по меньшей мере частичного автоматического выполнения расширения ширины полосы частот для сигнала, используя наименьшее ожидаемое значение верхней границы полосы, используя доступный узкополосный сигнал до обнаруженной верхней границы полосы и используя сигнал расширенной полосы частот над обнаруженной верхней границей полосы, чтобы представить сигнал.This
Почти то же самое может быть, конечно, сделано, чтобы обеспечивать содержимое нижней полосы. Например, в соответствии с одним из подходов процессор 301 может быть запрограммирован, чтобы обнаруживать нижнюю границу полосы ниже самого высокого ожидаемого значения нижней границы полосы, чтобы предоставить соответствующую обнаруженную нижнюю границу полосы, настроить характеристику повышения нижней полосы на основании обнаруженной нижней границы полосы, чтобы предоставить настроенную характеристику повышения нижней полосы, и применить настроенную характеристику повышения нижней полосы к сигналу, чтобы получить повышенный сигнал нижней полосы.Almost the same can, of course, be done to provide the contents of the lower band. For example, in one approach, a
Специалисты в данной области техники заметят и поймут, что такое устройство 300 может состоять из множества физически отдельных элементов, как предложено иллюстрацией, показанной на фиг.3. Также возможно, однако, рассмотреть эту иллюстрацию как содержащую логический обзор, в таком случае один или более из этих элементов могут быть осуществлены и реализованы с помощью платформы совместного использования. Также будет понято, что такие платформы совместного использования могут содержать полностью или, по меньшей мере частично, программируемую платформу, известную в данной области техники.Those skilled in the art will recognize and understand that such a
Сконфигурированные таким образом, эти идеи легко применяются в сочетании со способами расширения ширины полосы частот, чтобы в лучшей степени способствовать таким процессам. Эти идеи также весьма расширяемы и могут быть использованы со множеством таких подходов и в сочетании с широким множеством сигналов для обработки.Configured in this way, these ideas are easily applied in combination with methods for expanding the bandwidth to better facilitate such processes. These ideas are also highly expandable and can be used with many such approaches and in combination with a wide variety of signals for processing.
Специалисты в данной области техники заметят, что широкое множество модификаций, изменений и комбинаций может быть сделано по отношению к вышеописанным вариантам осуществления без отклонения от сущности и объема изобретения, и что такие модификации, изменения и комбинации должны рассматриваться, как находящиеся в пределах идеи изобретения.Those skilled in the art will recognize that a wide variety of modifications, changes and combinations can be made with respect to the above described embodiments without departing from the spirit and scope of the invention, and that such modifications, changes and combinations should be construed as being within the scope of the invention.
Claims (6)
на платформе обработки сигналов:
представляют сигнал, подлежащий обработке;
идентифицируют части сигнала, которые демонстрируют, по меньшей мере, предопределенный уровень энергии, чтобы предоставить идентифицированные части сигнала;
используют идентифицированные части сигнала, чтобы автоматически определить, по меньшей мере, одну ограничивающую частоту для сигнала путем вычисления амплитудного спектра для каждой из идентифицированных частей сигнала, и используют амплитудный спектр, чтобы определить соответствующую меру плоскостности спектра внутри полосы пропускания, которая относится к соответствующей нормированной части сигнала, чтобы таким образом предоставить проверенные части сигнала, причем мера плоскостности спектра есть отношение среднего геометрического к среднему арифметическому спектральных значений внутри полосы пропускания.1. A method comprising the steps of:
on the signal processing platform:
represent the signal to be processed;
identifying signal portions that exhibit at least a predetermined energy level to provide identified signal portions;
use the identified parts of the signal to automatically determine at least one limiting frequency for the signal by calculating the amplitude spectrum for each of the identified parts of the signal, and use the amplitude spectrum to determine the appropriate measure of flatness of the spectrum within the passband, which refers to the corresponding normalized part signal, in this way to provide proven parts of the signal, and a measure of the flatness of the spectrum is the ratio of the geometric mean Skog to the arithmetic mean of the spectral values within the passband.
накапливают амплитудный спектр для проверенных частей сигнала, чтобы предоставить накопленный амплитудный спектр;
используют накопленный амплитудный спектр, чтобы оценить огибающую сигнала, соответствующую проверенным рассмотренным частям сигнала;
используют огибающую сигнала, чтобы определить, по меньшей мере, одну ограничивающую частоту. 6. The method according to claim 1, additionally containing after the automatic determination of at least one limiting frequency for the signal, the steps in which:
accumulating an amplitude spectrum for the tested signal parts to provide an accumulated amplitude spectrum;
using the accumulated amplitude spectrum to estimate the envelope of the signal corresponding to the checked considered parts of the signal;
use the envelope of the signal to determine at least one limiting frequency.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/195,837 US8463412B2 (en) | 2008-08-21 | 2008-08-21 | Method and apparatus to facilitate determining signal bounding frequencies |
US12/195,837 | 2008-08-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2011110493A RU2011110493A (en) | 2012-09-27 |
RU2485608C2 true RU2485608C2 (en) | 2013-06-20 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101250596B1 (en) | Method and apparatus to facilitate determining signal bounding frequencies | |
US10783895B2 (en) | Optimized scale factor for frequency band extension in an audio frequency signal decoder | |
RU2417514C2 (en) | Sound amplification control based on particular volume of acoustic event detection | |
RU2464652C2 (en) | Method and apparatus for estimating high-band energy in bandwidth extension system | |
RU2734781C1 (en) | Device for post-processing of audio signal using burst location detection | |
RU2507608C2 (en) | Method and apparatus for processing audio signal for speech enhancement using required feature extraction function | |
RU2447415C2 (en) | Method and device for widening audio signal bandwidth | |
JP5185254B2 (en) | Audio signal volume measurement and improvement in MDCT region | |
KR101787711B1 (en) | Bandwidth extension method and apparatus | |
JP6793706B2 (en) | Methods and devices for detecting audio signals | |
RU2510536C2 (en) | Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device and spectral smoothing method | |
RU2651218C2 (en) | Harmonic extension of audio signal bands | |
KR102426029B1 (en) | Improved frequency band extension in an audio signal decoder | |
RU2733278C1 (en) | Apparatus and method for determining predetermined characteristic associated with processing spectral improvement of audio signal | |
CN115715413A (en) | Method, device and system for detecting and extracting spatial identifiable sub-band audio source | |
RU2485608C2 (en) | Method and apparatus to facilitate determining signal bounding frequencies | |
RU2732995C1 (en) | Device and method for post-processing of audio signal using forecast-based profiling | |
US20140211965A1 (en) | Audio bandwidth dependent noise suppression | |
JP2002182695A (en) | High-performance encoding method and apparatus | |
EP2760022B1 (en) | Audio bandwidth dependent noise suppression |