RU2255380C2 - Способ и устройство воспроизведения речевых сигналов и способ их передачи - Google Patents

Способ и устройство воспроизведения речевых сигналов и способ их передачи Download PDF

Info

Publication number
RU2255380C2
RU2255380C2 RU96111955/09A RU96111955A RU2255380C2 RU 2255380 C2 RU2255380 C2 RU 2255380C2 RU 96111955/09 A RU96111955/09 A RU 96111955/09A RU 96111955 A RU96111955 A RU 96111955A RU 2255380 C2 RU2255380 C2 RU 2255380C2
Authority
RU
Russia
Prior art keywords
encoding
encoding parameters
parameters
modified
speech signal
Prior art date
Application number
RU96111955/09A
Other languages
English (en)
Other versions
RU96111955A (ru
Inventor
Масаюки НИСИГУТИ (JP)
Масаюки НИСИГУТИ
Original Assignee
Сони Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сони Корпорейшн filed Critical Сони Корпорейшн
Publication of RU96111955A publication Critical patent/RU96111955A/ru
Application granted granted Critical
Publication of RU2255380C2 publication Critical patent/RU2255380C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение касается способа и устройства воспроизведения речевых сигналов, в которых речевой сигнал делят на множество кадров и кодируют для обнаружения параметров кодирования, основанных на том, какие, по меньшей мере, гармонические волны синтезируются для воспроизведения речевого сигнала. Сущность изобретения состоит в том, что при кодировании разделяют речевые сигналы на кадры и кодируют разделенные сигналы на кадровой основе для вывода параметров кодирования, таких, как параметры линейной спектральной пары, высоты тона, вокализованный - невокализованный сигналы или спектральная амплитуда. При вычислении видоизмененных параметров кодирования интерполируют параметры кодирования для вычисления видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами. При декодировании синтезируют гармонические волны и шум на основании видоизмененных параметров кодирования и выделяют синтезированные речевые сигналы. Технический результат, достигаемый при осуществлении изобретения, состоит в том, что при воспроизведении речевых сигналов осуществляют управление скоростью в широком диапазоне с высоким качеством звука при неизменных фонемах и высоты тона. 3 н. и 9 з.п. ф-лы, 24 ил.

Description

Предпосылки создания изобретения
Область техники, к которой относится изобретение
Настоящее изобретение касается способа и устройства воспроизведения речевых сигналов, в которых входной речевой сигнал делят на множество кадров в качестве элементов и кодируют для обнаружения параметров кодирования, основанных на том, какие, по меньшей мере, гармонические волны синтезируются для воспроизведения речевого сигнала. Изобретение касается также способа передачи видоизмененных параметров кодирования, полученных при интерполировании параметров кодирования,
Описание родственной техники
В настоящее время известно множество способов кодирования, предназначенных для сжатия сигналов посредством использования статических свойств сигналов звуковых частот, включающих речевые сигналы и сигналы звукового сопровождения, во временной области и в частотной области и относящиеся к психологии слухового восприятия характеристики системы человеческого слухового аппарата. Эти способы кодирования грубо классифицируются на кодирование по временной области, кодирование по частотной области и кодирование посредством анализа-синтеза.
Между тем, при высокоэффективном способе кодирования речи посредством обработки сигналов на временной оси, иллюстрируемого линейным предсказанием с возбуждением кода (ЛПBK), встречаются трудности при преобразовании (изменении) скорости временной оси скорее из-за длительных операций по обработке сигналов, выводимых с декодирующего устройства.
Кроме того, вышеупомянутый способ нельзя использовать, например, для преобразования частоты основного тона, потому что управление скоростью выполняется в декодируемом линейном диапазоне.
Ввиду вышеизложенного, целью настоящего изобретения является обеспечить способ и устройство, предназначенные для воспроизведения речевых сигналов, в которых управление скоростью произвольной частоты в широком диапазоне можно легко выполнять с высоким качеством при оставлении неизменными фонемы и высоты тона.
В одном аспекте, настоящее изобретение обеспечивает способ воспроизведения входного речевого сигнала на основании параметров кодирования, получаемых посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси и кодирования такого разделенного входного речевого сигнала на кадровой основе, включающий в себе этапы интерполирования параметров кодирования, предназначенных для определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и вырабатывания отличия модифицированного речевого сигнала по частоте от упомянутого входного речевого сигнала на основании видоизмененных параметров кодирования. Таким образом, управление скоростью на произвольной частоте в широком диапазоне можно легко выполнять с высоким качеством сигнала при оставлении неизменными фонемы и высоты тона.
В другом аспекте, настоящее изобретение обеспечивает устройство, предназначенное для воспроизведения речевого сигнала, в котором входной речевой сигнал восстанавливается на основании параметров кодирования, полученных посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси, и кодирования такого разделенного входного речевого сигнала на кадровой основе, включающее в себя средство интерполирования, предназначенное для интерполирования параметров кодирования для обнаружения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и средство вырабатывания речевого сигнала, предназначенное для вырабатывания отличия видоизмененного речевого сигнала по частоте от упомянутого входного речевого сигнала на основании видоизмененных параметров кодирования. Таким образом, становится возможным регулировать скорость передачи битов. Следовательно, управление скоростью на произвольной частоте в широком диапазоне можно легко выполнять с высоким качеством сигнала, при оставлении неизменными фонемы и высоты тона.
Еще в одном аспекте, настоящее изобретение обеспечивает способ передачи речевых сигналов, в котором параметры кодирования обнаруживаются посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси в качестве элементов и посредством кодирования этого разделенного входного речевого сигнала на кадровой основе с целью обнаружения параметров кодирования, причем обнаруженные таким образом параметры кодирования интерполируются с целью определения видоизмененных параметров кодирования, связанных с требуемой временной точкой, и видоизмененные параметры кодирования передаются, обеспечивая, таким образом, возможность регулирования скорости передачи битов.
Благодаря делению входного речевого сигнала исходя из предварительно установленных кадров на временной оси и кодирования основанного на кадрах сигнала с целью обнаружения параметров кодирования, благодаря интерполированию параметров кодирования с целью определения видоизмененных параметров кодирования и благодаря синтезированию, по меньшей мере, гармонических волн на основании видоизмененных параметров кодирования для восстановления речевых сигналов, становится возможной регулировка скорости на произвольной частоте.
Краткое описание чертежей
Фиг.1 представляет структурную блок-схему, иллюстрирующую компоновку устройства воспроизведения речевого сигнала, соответствующего первому варианту осуществления настоящего изобретения.
Фиг.2 представляет структурную блок-схему, иллюстрирующую компоновку показанного на фиг.1 устройства воспроизведения речевого сигнала.
Фиг.3 представляет блок-схему, иллюстрирующую кодирующее устройство показанного на фиг.1 устройства воспроизведения речевого сигнала.
Фиг.4 представляет блок-схему, иллюстрирующую компоновку схемы анализа многополосного возбуждения (МПВ) в качестве иллюстративного примера схемы кодирования гармоник и шума кодирующего устройства.
Фиг.5 иллюстрирует компоновку векторного квантователя.
Фиг.6 представляет график, иллюстрирующий средние значения входного сигнала
Figure 00000002
вокализированного звука, невокализированного звука и собранных вместе вокализированного и невокализированного звуков.
Фиг.7 представляет график, иллюстрирующий средние значения весового множителя
Figure 00000003
для вокализированного звука, невокализированного звука и для собранных вместе вокализированного и невокадизированного звуков.
Фиг.8 представляет график, иллюстрирующий способ формирования кодового словаря векторного квантования для вокализированного звука, невокализироаанного звука и для собранных вместе вокализированного и невокализированного звуков.
Фиг.9 представляет алгоритм, иллюстрирующий схематическую работу схемы вычисления видоизмененных параметров кодирования, используемой в показанном на фиг.1 устройстве воспроизведения речевого сигнала.
Фиг.10 представляет схематический вид, иллюстрирующий видоизмененные параметры кодирования, получаемые посредством схемы вычисления видоизмененных параметров на временной оси.
Фиг.11 представляет алгоритм, иллюстрирующий подробную работу схемы вычисления видоизмененных параметров кодирования, используемой в показанном на фиг.1 устройстве воспроизведения речевых сигналов.
Фиг.12A, 12B и 12C представляют схематические виды, показывающие иллюстративную работу схемы вычисления видоизмененных параметров кодирования.
Фиг.13A, 13B и 13С представляют схематические виды, показывающие другую иллюстративную работу схемы вычисления видоизмененных параметров кодирования.
Фиг.14 представляет блок-схему, иллюстрирующую декодирующее устройство, используемое а устройстве воспроизведения речевых сигналов.
Фиг.15 представляет электрическую блок-схему, иллюстрирующую компоновку схемы синтезирования многополосного возбуждения (МПВ) в виде иллюстративного примера схемы синтезирования гармоник и шума, используемой в декодирующем устройстве.
Фиг.16 представляет блок-схему, иллюстрирующую устройство передачи речевого сигнала в виде второго варианта осуществления настоящего изобретения.
Фиг.17 представляет алгоритм, иллюстрирующий работу передающей стороны устройства передачи речевых сигналов.
Фиг.18A, 18B и 18C иллюстрируют работу устройства передачи речевых сигналов.
Описание предпочтительных вариантов осуществления изобретения
Ниже будет приведено подробное описание со ссылкой на чертежи предпочтительных вариантов осуществления соответствующих настоящему изобретению способа и устройства, предназначенных для воспроизведения речевых сигналов, и способа передачи речевых сигналов.
Вначале приведем описание устройства, предназначенного для воспроизведения речевых сигналов, в котором применены соответствующие настоящему изобретению способ и аппаратура для воспроизведения речевых сигналов. На фиг.1 показана блок-схема устройства воспроизведения речевых сигналов 1, в котором входные речевые сигналы разделяются исходя из заранее установленных кадров в качестве элементов на временной оси и кодируются на кадровой основе с целью обнаружения параметров кодирования. На основании этих параметров кодирования синтезируются гармонические волны и шум с целью воспроизведения речевых сигналов.
В частности, в случае настоящего устройства воспроизведения речевых сигналов 1, параметры кодирования интерполируются с целью определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и на основании этих видоизмененных параметров кодирования синтезируются гармонические волны и шум. Хотя на основании модифицированных параметров кодирования синтезируются гармонические волны и шум, можно также синтезировать, по меньшей мере, гармонические волны.
В данном случае устройство воспроизведения сигналов звуковой частоты включает в себя блок кодирования 2, предназначенный для разделения речевых сигналов, поступающих на входную клемму 10, на кадры в качестве элементов и для кодирования речевых сигналов на кадровой основе с целью вывода параметров кодирования, таких как параметры линейной спектральной пары (ЛСП), тон, вокализированные (V)- невокализированные (UV) сигналы или спектральные амплитуды Am. Устройство воспроизведения сигналов звуковой частоты 1 включает в себя также блок вычисления 3, предназначенный для интерполирования параметров кодирования с целью определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и блок декодирования 6, предназначенный для синтезирования гармоничных волн и шума на основании видоизмененных параметров кодирования с целью вывода синтезированных речевых параметров на выходную клемму 37. Блоком кодирования 2, блоком вычисления 3, предназначенным для вычисления видоизмененных параметров кодирования, и блоком декодирования 6 управляет контроллер (не показанный).
Блок вычисления 3, предназначенный для вычисления видоизмененных параметров кодирования устройства воспроизведения речевых сигналов 1, включает в себя схему изменения периода 4, предназначенную для сжатия-расширения временной оси параметров кодирования, получаемых в каждом заранее установленном кадре, с целью изменения периода вывода параметров кодирования, и схему интерполирования 5, предназначенную для интерполирования параметров с измененным периодом с целью создания видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами, как показано, например, на фиг.2. Далее будет приведено описание блока вычисления 3, предназначенного для вычисления видоизмененных параметров кодирования.
Вначале приведем описание блока кодирования 2. Блок кодирования 3 и блок декодирования 6 представляют остаточные значения краткосрочных предсказаний, например, остаточные значения кодирования с линейным предсказанием (КЛП), исходя из кодирования гармоник и шума. В качестве альтернативы, блок кодирования 3 и блок декодирования 6 выполняют кодирование многополосного возбуждения (МПВ) или анализ многополосного возбуждения (МПВ).
В случае обычного кодирования с линейным предсказанием возбуждаемого кода (ЛПВК), остаточные значения КЛП подвергаются направленному векторному квантованию в виде формы сигнала во времени. Поскольку блок кодирования 2 кодирует остаточные значения посредством кодирования гармоник или анализа МПВ, более ровную синтезированную форму волны можно получить при векторном квантовании амплитуд спектральной огибающей гармоник при меньшем количестве двоичных разрядов, тогда как выходной фильтр синтезированной формы волны КЛП также весьма соответствует качеству звука. Между тем, амплитуды спектральной огибающей квантуются с использованием метода пространственного преобразования или преобразования количества данных, предложенного настоящим заявителем в японской публикации патента Kokai JP-A-51800. То есть, амплитуды спектральной огибающей подвергаются векторному квантованию заранее установленным количеством векторных размеров.
На фиг.3 показана иллюстративная схема блока кодирования 2. Речевые сигналы, поступающие на входную клемму 10, освобождаются от сигналов ненужного диапазона частот посредством фильтра 11 и затем подаются на схему анализа кодирования с линейным предсказанием (КЛП) 12 и схему обратного фильтрования 21.
В схеме анализа КЛП 12 применена взвешивающая функция Хэмминга к входной форме волны при ее длине порядка 256 выборок в качестве блока, чтобы посредством метода автокорреляции обнаруживать коэффициенты линейного предсказания, то есть так называемые α-параметры. Интервал кодирования в виде блока вывода данных составляет порядка 160 выборок. Если частота выборки составляет, например, 8 кГц, интервал кодирования 160 выборок соответствует 20 миллисекунд.
α - параметр со схемы анализа КПП 12 подается на схему преобразования α - параметра в ЛСП 13, с целью преобразования в параметры линейной спектральной пары (ЛСП). То есть, α - параметры, обнаруженные в качестве коэффициентов фильтра направленного типа, преобразуются, например, в десять, то есть в пять пар, параметров ЛСП. Это преобразование выполняется с использованием, например, метода Ньютона-Рафсона. Причина преобразования α - параметров в параметры ЛСП состоит в том, что параметры ЛСП превосходят α - параметры по характеристикам интерполирования.
Параметры ЛСП со схемы преобразования параметров в ЛСП 13 подвергаются векторному квантованию посредством векторного квантователя ЛСП 14. В это время можно обнаруживать междукадровую разницу до перехода к векторному квантованию. В качестве альтернативы можно собирать и квантовать множество кадров посредством матричного квантования. Для квантования, рассчитываемые каждые 20 мс параметры ЛСП подвергаются векторному квантованию, при длительности одного кадра, равной 20 мс.
Квантованный выходной сигнал векторного квантователя ЛСП 14, который является показателем векторного квантователя ЛСП, выводится на клемму 15. Квантованные векторы ЛСП подаются на схему интерполирования ЛСП 16.
Схема интерполирования ЛСП 16 интерполирует векторы ЛСП, обеспечиваемые векторным квантованием каждые 20 мс, для обеспечения восьмикратной скорости. То есть, векторы ЛСП располагают таким образом, чтобы их можно было корректировать каждые 2,5 мс. Причина состоит в том, что если остаточная форма волны обрабатывается посредством анализа-синтеза методом кодирования-декодирования многополосного возбуждения (МПB), огибающая синтезированной формы волны представляет чрезвычайно ровную форму волны, так что если коэффициенты кодирования с линейным предсказанием (КЛП) действительно изменяются каждые 20 мс, то появляется тенденция создания своеобразных звуков. Образованию таких своеобразных звуков может создаваться препятствие, если коэффициенты КЛП постоянно изменяются каждые 2,5 миллисекунды.
Для обратного фильтрования входного речевого сигнала, используя интерполированные таким образом векторы ЛСП с интервалом 2,5 мс, параметры ЛСП преобразуются посредством схемы преобразования ЛСП в α - параметры, которые представляют собой коэффициенты фильтра направленного типа, например, десяти последовательностей. Выходные сигналы схемы 17 преобразования ЛСП в α подаются на схему обратного фильтрования 21, чтобы обеспечить выполнение обратного фильтрования при скорректированном α - параметре на интервале 2,5 мс с целью создания ровного выходного сигнала. Выходной сигнал схемы обратного фильтрования 21 поступает на схему кодирования гармоник и шума 22, а именно на схему анализа многополосного возбуждения (МПВ).
Схема кодирования гармоник и шума (схема анализа МПВ) 22 анализирует выходной сигнал схемы обратной фильтрации 21 методом, аналогичным методу анализа MПB. To есть, схема кодирования гармоник-шума 22 детектирует тон и рассчитывает амплитуду Аm каждой гармоники. Схема кодирования гармоник-шума 22 позволяет также выполнять установление различия вокализированного (V) - невокализированного (UV) речевого сигнала и преобразует количество амплитуд Аm гармоник, которое изменяется с изменением тона до постоянного количества посредством пространственного преобразования. Для определения тона используется автокоррелирование входных остаточных величин КЛП, как объясняется ниже.
На фиг.4 показан пример схемы анализа кодирования многополосного возбуждения (МПВ) в виде схемы кодирования гармоник и шума 22.
В случае показанной на фиг.4 схемы анализа МПВ разработано моделирование при предположении, что здесь присутствует вокализированная часть и невокализированная часть в частотном диапазоне той же временной точки, которая представляет тот же блок или кадр.
Остаточные значения KЛП или остаточные значения кодирования с линейным предсказанием (КЛП) со схемы обратного фильтрования 21 подаются на показанную на фиг. 4 входную клемму III. Таким образом, схема анализа МПВ выполняет анализ MПB и кодирование входных остаточных значений КЛП.
Остаточные значения кодирования с линейным предсказанием (КЛП), поступающие на входную клемму III, подаются на блок извлечения тона 113, блок взвешивания 114 и блок вычисления энергии субблока 126, как описано ниже.
Поскольку входной сигнал блока извлечения тона 113 представляет собой остаточное значение КЛП, определение тона можно выполнять посредством детектирования максимального значения автокорреляции остаточных значений. Блок извлечения тона 113 выполняет поиск тона посредством поиска с разомкнутым циклом. Извлеченные данные тона поступают на блок точного поиска тона 116, где точный поиск тона выполняется посредством поиска тона замкнутым циклом.
В блоке взвешивания 114 применяется заранее установленная функция взвешивания, например, взвешивающая функция Хэмминга, к каждому блоку из N выборок, для последовательного перемещения взвешенного блока по временной оси с интервалом между кадрами из α - выборок. Последовательность данных временной области с блока взвешивания 114 обрабатывается посредством блока ортогонального преобразования, например, посредством быстрого преобразования Фурье (БПФ).
Если обнаруживается, что все полосы в блоке невокализированы (UV), блок вычисления энергии субблока 126 извлекает характеристическую величину, представляющую огибающую формы сигнала во времени невокализированного звукового сигнала блока.
На блок точного поиска тона 116 подаются грубые данные тона в виде целых чисел, извлекаемые блоком выделения тона 113, и данные частотной области, вырабатываемые БПФ посредством блока ортогонального преобразования 115. Блок точного поиска тона 116 выполняет качание на ± несколько выборок с интервалом от 0,2 до 0,5 относительно значения грубых данных тона в качестве центра для приведения к точным данным тона с оптимальной десятичной запятой (плавающей). При способе точного поиска используется анализ методом синтезирования и выбирается шаг, который дает энергетический спектр при синтезировании, который находится ближе всего к первоначальному энергетическому спектру.
То есть, количество значений тона выше и ниже грубого тона, определяемого блоком выделения тона 113 в качестве центра, обеспечиваются с интервалом, например, равным 0,25. Для тех значений тона, которые ежеминутно отличаются друг от друга, определяется сумма погрешностей ∑∈m. В этом случае, если устанавливается тон, то устанавливается ширина полосы, так что используя энергетический спектр по данным частотной области и спектру сигнала возбуждения, определяется погрешность ∈m. Таким образом, можно определить сумму погрешностей ∑∈m для общего количества полос. Эта сумма погрешностей ∑∈m определяется для каждого значения тона, и в качестве оптимального тона выбирается тон, соответствующий минимальной сумме погрешностей. Таким образом определяется оптимальный точный тон с интервалом, примерно равным 0,25, посредством блока поиска точного тона, и определяется амплитуда
Figure 00000004
для оптимальной высоты тона. Значение амплитуды вычисляется посредством блока оценки амплитуды 118 V для вокализированного звукового сигнала.
В вышеприведенном описании поиска точной высоты тона предполагается, что вся совокупность полос вокализирована. Однако, поскольку используемая в системе анализа-синтеза MПB модель такова, что в ней в той же временной точке на частотной оси имеется невокализированная область, становится необходимым в каждой последовательной полосе осуществлять установление различия вокализированных - невокализированных сигналов.
Оптимальный тон с блока поиска точного тона 116 и данные об амплитуде
Figure 00000005
с блока оценки амплитуды для вокализированного звука 118 V поступают на блок установления различия вокализированного и невокализированного сигналов 117, в котором выполняется установление различия между вокализированным звуковым сигналом и невокализированным звуковым сигналом в каждой последовательной полосе. Дня этого установления различия используется отношение сигнала к шуму (ОСШ).
Между тем, поскольку количество полос, которые разделяются на основании фундаментальной частоты тона, то есть количество гармоник, колеблется в диапазоне примерно от 8 до 63, в зависимости от тона звукового сигнала, аналогичным образом колеблется количество признаков V/UV в каждой последовательной полосе. Таким образом, в настоящем варианте осуществления группируются или разлагаются результаты определения различия V и UV для каждого из заранее установленного количества полос постоянной ширины. В частности, предварительно установленный частотный диапазон, например, равный 0-4000 Гц, включающий звуковой диапазон, разделяется на NB полос, например 12 полос, и устанавливается различие взвешенного среднего значения величины ОСШ каждой полосы с заранее установленным пороговым значением Th2 для оценки различия V и UV в каждой последовательной полосе.
На блок оценки амплитуды 118 U для невокализированного звукового сигнала подаются данные частотной области с блока ортогонального преобразования 115, данные точного тона с блока поиска тона 116, данные амплитуды
Figure 00000006
с блока оценки амплитуды для вокализированного звукового сигнала 118 V и данные установления различия между вокализированными и невокализированными (V/UV) звуками с блока установления различия вокализированного - невокализированного звуковых сигналов 117. И здесь блок оценки амплитуды 118 U для невокализированного звука обнаруживает амплитуду для полосы, определяемой блоком установления различия вокализированного - невокализированного сигналов 117 в виде невокализированного (UV) сигнала посредством осуществления переоценки амплитуды. Блок оценки амплитуды 118 U для невокализированного звука непосредственно выдает входное значение с блока оценки амплитуды вокализированного звука 118 V для полосы, обнаруживаемой в виде вокализированной.
Данные с блока оценки амплитуды 118 U невокализированного звука поступают на блок оценки количества данных 119, который представляет собой преобразователь частоты выборки. Блок преобразования количества данных 119 используется для образования постоянного количества данных, вследствие того, что количество разделенных полос из частотного спектра и количество данных, прежде всего количество амплитудных данных, в различных звуковых тонах различается. То есть, если эффективный частотный диапазон составляет, например, до 3400 кГц, то этот эффективный частотный диапазон разделяется на 8-63 полосы, в зависимости от тона, так что количество данных mMX+1 амплитуд
Figure 00000007
, включающих амплитуду
Figure 00000008
UV полосы UV, изменяется в диапазоне от 8 до 63. Таким образом, блок преобразования количества данных 119 преобразует амплитудные данные с переменным количеством данных mMX+1 в постоянное количество данных М, например 44.
Блок преобразования количества данных 119 добавляет к амплитудным данным, соответствующим одному эффективному блоку на частотной оси, такие фиктивные данные, которые интерполируют значения от последних данных в блоке к первым данным в блоке для увеличения количества данных до NF. Блок преобразования количества данных 119 в этом случае выполняет избыточную дискретизацию типа ограничения ширины полосы с коэффициентом избыточной дискретизации Os, например, равным 8, для обнаружения Os - кратного количества амплитудных данных. Это Os -кратное количество ((mMX+1)×Os) амплитудных данных линейно интерполируется с целью создания еще большего количества NM данных, например, 2048 данных. Количество NM данных прореживается с целью преобразования в заранее установленное постоянное количество М, например, 44 данных.
Данные (амплитудные данные с заранее установленным постоянным количеством М) с блока преобразования количества данных 119 поступают на векторный квантователь 23 с целью обеспечения вектора, имеющего количество данных М, или собираются в вектор, имеющий заранее установленное количество данных, для векторного квантования.
Данные о тоне с блока точного поиска тона 116 поступают через неподвижный контакт
Figure 00000009
переключателя 27 на входную клемму 28. Этот способ, раскрытый в нашей японской заявке на патент № 5-185325 (1993 г.), состоит из переключения с информации, представляющей характеристическое значение, соответствующее форме сигнала во времени невокализированного сигнала, на информацию о тоне, если вся совокупность полос в блоке невокализирована (UV) и, следовательно, тоновая информация становится ненужной.
Эти данные получаются посредством обработки данных N-го количества, например, 256 выборок. Поскольку блок продвигается по временной оси на основе вышеупомянутого кадра из α выборок в качестве элемента, передаваемые данные получаются на кадровой основе. То есть, данные о тоне, данные установления различия V-UV и амплитудные данные корректируются в течение периода следования кадра. В качестве данных установления различия V-UV с блока установления различия между V и UV 117 можно использовать данные, количество полос которых уменьшено или сокращено до 12, или использовать данные, определяющие одно или более положения границ между вокализированными (V) и невокализированными (UV) областями во всем частотном диапазоне. В качестве альтернативы, всю совокупность полос можно представить одной из V и UV либо установление различия между V и UV можно выполнять на кадровой основе.
Если обнаруживается, что блок полностью невокализирован (UV), то один блок, например из 256 выборок, можно дополнительно разделить на множество субблоков, каждый из которых состоит из 32 выборок, которые поступают на блок вычисления энергии субблока 126.
Блок вычисления энергии субблока 126 вычисляет пропорцию или отношение средней мощности или среднеквадратичного значения совокупности выборок в блоке, например, 256 выборок, к средней мощности или среднеквадратичному значению каждой выборки в каждом субблоке.
То есть, определяется средняя мощность, например, к-го субблока и средняя мощность одного полного блока и рассчитывается квадратный корень отношения средней мощности всего блока к средней мощности р(к) к-го субблока.
Полагают, что определяемое таким образом значение квадратного корня представляет вектор заранее установленного размера для того, чтобы выполнять векторное квантование в векторном квантователе 127, расположенном рядом с блоком вычисления мощности субблока.
Векторный квантователь 127 осуществляет 8-мерное 8-разрядное прямое векторное квантование (объем кодового словаря равен 256 выборок). Выходной показатель UV- E этого векторного квантователя, то есть код, представляющий вектор, подается на неподвижную клемму
Figure 00000010
переключателя 27. На неподвижную клемму
Figure 00000011
переключателя 27 поступают данные о тоне с блока точного определения тона 116, тогда как выходной сигнал переключателя 27 поступает на выходную клемму 28.
Управление работой переключателя 27 осуществляется выходным сигналом установления различия с блока установления различия вокализированного-невокализированного сигналов 117, так что неподвижный контакт переключателя 27 устанавливается на неподвижные контакты
Figure 00000012
, когда обнаруживается, что, по меньшей мере, одна из полос в блоке вокализирована (V), и когда обнаруживается, что вся совокупность полос вокализирована, соответственно.
Таким образом, выходные сигналы векторного квантования нормализованных на субблочной основе среднеквадратичных значений передаются посредством введения в интервалы, по существу используемые для передачи тоновой информации. То есть, если обнаруживается, что вся совокупность полос в блоке невокализирована (UV), то информация о тоне оказывается ненужной, поэтому, если, и только если, обнаруживается, что признаки установления различия V-UV являются полностью невокализированными, вместо информации о тоне передается указатель выходного сигнала векторного квантования VU-E.
Далее приводится описание со ссылкой на фиг.3 взвешиваемого векторного квантования спектральной огибающей (Am) в векторном квантователе 23.
Векторный квантователь 23 представляет собой 2-каскадную α-мерную, например, 44-мерную, конфигурацию.
То есть, сумма выходных векторов кодового словаря векторного квантования, который является 44-мерным и имеет объем кодового словаря, равный 32, умножается на коэффициент усиления gi и полученное произведение используется в качестве квантованного значения 44-мерного вектора
Figure 00000013
спектральной огибающей. На фиг.5 позициями СВО и GBI показаны кодовые словари двух форм, выходными векторами которых являются
Figure 00000014
и
Figure 00000015
соответственно, где 0≤i и j≤31. Выходным сигналом кодового словаря СВg коэффициента усиления является ge, который представляет скалярную величину, где 0≤e≤31. Конечное выходное значение становится равным
Figure 00000016
Спектральная огибающая Am, получаемая при анализе многополосного возбуждения (МПВ) остаточных величин кодирования с линейным предсказанием (КЛП) и преобразуемая в заранее установленный размер, устанавливается на значение
Figure 00000017
. Критическим является способ эффективного квантования
Figure 00000018
.
Энергия ошибок квантования определяется следующим выражением:
Figure 00000019
где Н и W представляют, соответственно, место для характеристик на частотной оси синтезирующего фильтра КЛР и матрицу для взвешивания, представляющую характеристики взвешивания слухового восприятия на частотной оси.
Энергию ошибки квантования обнаруживают посредством выборки соответствующих α - мерных, например, 44-мерных, точек из частотных характеристик по формуле:
Figure 00000020
где αi при I≤i≤P представляет α - параметры, получаемые посредством анализа КЛП текущего кадра.
Для расчета Os заполняются после 1, α1, α2, ..., αP, чтобы получить I, αI, α2, ..., αP, 0, 0, ..., 0 с целью обеспечения, например, 256-точечных данных. После этого выполняется 256-точечное быстрое преобразование Фурье и вычисляются значения
Figure 00000021
для точек, соответствующих периоду 0-π. Далее определяются обратные величины полученных в результате расчета значений
Figure 00000022
и прореживаются, например, до 44 точек. Матрица, диагональные элементы которой соответствуют этим обратным величинам, определяется следующим образом:
Figure 00000023
Матрица взвешивания слухового восприятия W определяется следующим образом:
Figure 00000024
где αi представляет результат анализа КЛП выходных данных, а λа, λb являются постоянными величинами, например, такими, как λa=0,4, λв=0,9.
Матрицу W можно определить из частотных характеристик уравнения (3). В качестве примера обеспечиваются 1, α1, λв,
Figure 00000025
..., αрВр, 0, 0, ..., 0 целью получения 256-точечных данных, для которых используется быстрое преобразование Фурье с целью определения
Figure 00000026
где 0≤i≤128. Затем обеспечиваются I, α1, λа,
Figure 00000027
..., αpаp, 0, 0, ..., 0 и вычисляются частотные характеристики знаменателя 256-точечным быстрым преобразованием Фурье по 128 точкам для области 0-π. В результате этого получаются значения
Figure 00000028
где 0≤i≤128.
Частотные характеристики вышеприведенного уравнения (3) можно определять посредством уравнения:
Figure 00000029
где 0≤i≤128.
Частотные характеристики определяются следующим способом для соответствующих точек, например, 44-мерного вектора. Хотя для получения более точных результатов необходимо использовать линейное интерполирование, при подстановке в следующем примере используются значения ближайших точек.
То есть, ω[i]=ω0[nint(128i/L)],
где I≤i≤L, a nint (x) является функцией, которая отражает целое число, ближайшее к x.
Что касается величин Н, h(1), h(2), ..., h(L), то они определяются аналогичным способом. То есть
Figure 00000030
так что
Figure 00000031
В качестве видоизмененного варианта осуществления, частотные характеристики можно определять, с целью уменьшения количества операций быстрого преобразования Фурье, после первого определения Н(z) W(z).
То есть
Figure 00000032
Знаменатель уравнения (5) раскладывается следующим образом:
Figure 00000033
Посредством установки 1, β1, β2, ..., в, 0, 0, ..., 0, образуют, например, 256-точечные данные. Затем выполняют 256-точечное быстрое преобразование Фурье с целью обеспечения частотных характеристик амплитуд, так что
Figure 00000034
где 0≤i≤128. Отсюда выполняется следующее уравнение:
Figure 00000035
где 0≤i≤128.
Это значение определяется для каждой из соответствующих точек α - мерного вектора. Если количество точек БПФ незначительное, то необходимо использовать линейное интерполирование. Однако, в этом случае используются близкие значения. То есть
Figure 00000036
где 1≤i≤L.
Матрица W, имеющая эти самые близкие значения в качестве диагональных элементов, определяется следующим выражением:
Figure 00000037
Вышеприведенное уравнение (6) представляет такую же матрицу, как и уравнение (4).
Используя эту матрицу, то есть частотные характеристики взвешивающего синтезирующего фильтра, уравнение (1) можно переписать следующим образом:
Figure 00000038
Далее приводится описание способа обучения кодового словаря форм и кодового словаря усиления.
Во-первых, для всех кадров, которые выбирают кодовый вектор
Figure 00000039
соответствующий СВО, минимизируется ожидаемое значение искажения. Если имеются М таких кадров, для минимизирования достаточно:
Figure 00000040
В этом уравнении (8)
Figure 00000041
обозначают вес к-го кадра, входной сигнал к-го кадра, коэффициент усиления к-го кадра и выходной сигнал кодового словаря CBI для к-го кадра, соответственно.
Для минимизирования, уравнение (8) можно записать следующим образом
Figure 00000042
поэтому
Figure 00000043
Figure 00000044
отсюда
Figure 00000045
где {}-1 означает обратную матрицу, a
Figure 00000046
означает транспонированную матрицу wk.
Далее рассмотрим оптимизирование в отношении коэффициента усиления.
Ожидаемое значение jg искажения для к-го кадра, выбирающего кодовое слово gc коэффициента усиления, определяется следующим образом.
Решая уравнение
Figure 00000047
получим
Figure 00000048
Figure 00000049
Figure 00000050
Вышеприведенные уравнения дают оптимальное центроидное условие для формы
Figure 00000051
и коэффициента усиления gi, где 0≤i≤31, то есть оптимальный выходной сигнал декодирования. Оптимальный выходной сигнал декодирования для
Figure 00000052
можно определить таким же образом, как и в случае для
Figure 00000053
.
Далее рассмотрим оптимальное условие кодирования (ближайшее соседнее условие).
Формы
Figure 00000054
которые минимизируют уравнение (7) для измерения искажения, то есть
Figure 00000055
определяются каждый раз, когда получаются входной сигнал
Figure 00000056
и весовая матрица W, то есть для каждого кадра.
По своему существу, Е необходимо определять для всех сочетаний ge (0≤e≤31),
Figure 00000057
(0≤i≤31) и
Figure 00000058
(0≤j≤31), то есть 32×32×32 сочетаний, методом круговой системы, с целью определения набора
Figure 00000059
,
Figure 00000060
, который дает последнее значение Е. Однако, поскольку это ведет к объемистому количеству арифметических операций, блок кодирования 2 выполняет последовательный поиск формы и коэффициента усиления. Поиск по круговой системе необходимо выполнять для 32×32=1024 сочетаний
Figure 00000061
. В последующем объяснении
Figure 00000062
для простоты записываются в виде Sm.
Вышеприведенное уравнение можно записать в виде
Figure 00000063
Для дальнейшего упрощения, обозначив
Figure 00000064
, получим
Figure 00000065
Figure 00000066
Таким образом, полагая, что для gе обеспечивается достаточная точность, поиск можно выполнять в два этапа:
1) поиск
Figure 00000067
, который доводится до максимума
Figure 00000068
и 2) поиск ge, который оказывается ближе всего к
Figure 00000069
Если вышеприведенные уравнения переписать, используя первоначальное представление, поиск можно выполнять в два этапа:
1)’ поиск группы
Figure 00000070
, которая доводит до максимума
Figure 00000071
и 2)’ поиск gi, ближайшего к
Figure 00000072
Уравнение (15) дает оптимальное условие кодирования (условие ближайшей соседней записи).
Используя центроидное условие уравнений (11) и (12) и условие уравнения (15), можно одновременно тренировать кодовые словари CBO, CBI и СВg посредством обобщенного алгоритма Ллойда (ОАЛ).
Рассматривая фиг.3, отметим, что векторный квантователь 23 подсоединен через переключатель 24 к кодовому словарю для вокализованного звукового сигнала 25 V и к словарю для невокализеванного звука 25 U. Управляя переключением переключателя 24 в зависимости от выходного сигнала установления различия V-UV со схемы кодирования гармоник и шума 22, выполняется векторное квантование вокализованного звука и невокализованного звука, используя кодовый словарь для вокализованного звука 25 V и кодовый словарь для невокализованного звука 25 U, соответственно.
Причина переключения кодовых словарей в зависимости от оценки а отношении вокализированного звука (V) и невокализированного звука (UV) состоит в том, что поскольку взвешиваемое усреднение параметров
Figure 00000073
и ge выполняется при вычислении новых центроидов, соответствующих уравнениям (11), (12), нежелательно определять
Figure 00000074
и ge значения которых существенно отличается.
Между тем, в блоке кодирования 2 используется w', деленный на норму входного сигнала
Figure 00000075
. То есть, при продвижении вперед во время обработки уравнений (11), (12) и (15), вместо w' подставляют
Figure 00000076
.
При переключении между кодовыми словарями в зависимости от установления различия V и UV аналогичным образом распределяются обучающие данные с целью подготовки из соответствующих обучающих данных кодового словаря для вокализированного звука и кодового словаря для невокализированного звука.
Для уменьшения количества двоичных разрядов в V-UV в блоке кодирования 2 используется одиополосное возбуждение (ОПВ), и данный кадр считается вокализированным (V) кадром и невокализированным кадром (UV), если отношение V превышает 50 % и противоположное соотношение, соответственно.
На фиг.6 и 7 показаны средние значения
Figure 00000077
входного сигнала
Figure 00000078
и среднего значения весового коэффициента для вокализированного звука, для невокализированного звука и для сочетания вокализированного и невокализированного звуков, то есть без учета различия между вокализированным и невокализированным звуками.
На фиг.6 видно, что распределение энергии самого
Figure 00000079
на частотной оси не сильно отличается при V и UV, хотя среднее значение коэффициента усиления (
Figure 00000080
) сильно различается между V и UV. Однако, из фиг.7 видно, что форма весового коэффициента различается между V и UV и весовой коэффициент такой, что он увеличивает назначение двоичных разрядов для низкого диапазона в случае V по сравнению с UV. Это объясняет возможность разработки кодового словаря с более высокими характеристиками посредством разделения обучения для V и UV.
На фиг.8 показан способ обучения для трех примеров, то есть для вокализированного звука (V), невокализированного звука (UV) и для объединенных вместе вокализированного и невокализированного звуков. То есть, кривые
Figure 00000081
,
Figure 00000082
и
Figure 00000083
на фиг.8 устанавливают способ обучения только V, только UV и объединенных величин V и UV, причем конечные значения
Figure 00000084
,
Figure 00000085
и
Figure 00000086
равны 3, 72, 7,011 и 6,25, соответственно.
На фиг.8 видно, что разделение обучения кодового словаря для V и кодового словаля для UV ведет к уменьшенному ожидаемому значению искажения выходного сигнала. Хотя состояние ожидаемого значения несколько ухудшается в случае кривой
Figure 00000087
только для UV, ожидаемое значение в целом улучшается, поскольку область для V длиннее области для UV. В качестве примера частоты появления V и UV, полученные в результате измерений значения длин областей только для V и только для UV составляют 0,538 и 0,462 для длины обучающих данных 1. Таким образом, из конечных значений кривых
Figure 00000088
,
Figure 00000089
фиг.8 ожидаемое значение суммарного искажения определяется величиной:
3,72×0,538+7,011×0,467=5,24,
которая представляет улучшение примерно на 0,76 дБ по сравнению с ожидаемым значением, равным 6,25 для обучения объединенных вместе V и UV.
Исходя из способа тренировки, улучшение ожидаемого значения составляет порядка 0,76 дБ. Однако обнаружили, что если обрабатываются выборки речи четырех участников дискуссии из числа мужчин и четырех участников дискуссии из числа женщин вне обучающей группы с целью обнаружения ОСШ для случая, при котором квантование не выполняется, разделение на V и UV ведет к улучшению сегментного ОСШ порядка 1,3 дБ. Причина этого, вероятно, состоит в том, что отношение для V значительно выше отношения для UV.
Следует отметить, что хотя весовой коэффициент w’, используемый для взвешивания слухового восприятия при векторном квантовании векторным квантователем 23, как описано вышеприведенным уравнением (6), посредством определения текущего весового коэффициента w', учитывающего прошлый w', можно определить весовой коэффициент w', учитывающий временное маскирующее действие.
Что касается элементов wh(1), wh(2), ..., wh(L) в вышеприведенном уравнении (6), то рассчитанные в момент времени n эти элементы, то есть, рассчитанные для n-го кадра, они обозначаются элементами whn(1), whn(2), ..., whn(L).
Учитывающий предыдущее значение в момент времени n весовой коэффициент определяется величиной An(i), где I≤i≤L. В этом случае
An(i)=λAn-1(i)+(1-λ)wh(i) для whn(i)≤An-1(i)=whn(i)
для whn(i)>An-1(i),
где λ можно устанавливать таким образом, что, например, λ=0,2. An(i), где I≤i≤L, можно использовать в качестве диагональных элементов матрицы, которая используется в качестве вышеуказанных весовых коэффициентов.
Возвращаясь к фиг.1, отметим, что здесь представлен блок вычисления видоизмененных параметров кодирования 3. Устройство воспроизведения речевых сигналов 1 видоизменяет параметры кодирования, выводимые с блока кодирования 2 с определенной скоростью, посредством блока вычисления видоизмененных параметров кодирования 3, предназначенного для вычисления видоизмененных параметров кодирования, и декодирует видоизмененные параметры кодирования посредством блока декодирования с целью воспроизведения содержаний со сплошной записью со скоростью, в два раза выше скорости в реальном масштабе времени. Поскольку высота тона и фонема остаются неизменными, несмотря на более высокую скорость воспроизведения, записанное содержание можно слышать, даже если его воспроизводить на повышенной скорости.
Поскольку параметры кодирования видоизменены по скорости, блок вычисления видоизмененных параметров кодирования 3 не нуждается в обработке после декодирования и вывода сигналов и способен легко согласовываться с различными фиксированными скоростями при аналогичном алгоритме.
Рассматривая алгоритмы на фиг.9 и 11, отметим, что здесь приводится подробное описание работы блока вычисления видоизмененных параметров кодирования 3 устройства воспроизведения речевых сигналов 1. Как описывалось со ссылкой на фиг.2, блок вычисления видоизмененных параметров кодирования 3 состоит из схемы изменения периода 4 и схемы интерполирования 5.
Вначале, на этапе S1 фиг.9 на схему изменения периода 4 поступают через входные клеммы 15, 28, 29 и 26 параметры кодирования, такие как ЛСП, высота тона, V-UV и Am. Высота тона устанавливается на величину Pch[n], V-UV устанавливается на vuv[n], Am устанавливается на am[n][e] и ЛСР устанавливается на lsp[n][i]. Вычисленные в конечном итоге блоком вычисления видоизмененных параметров кодирования видоизмененные параметры кодирования устанавливаются на значения
Figure 00000090
Figure 00000091
Figure 00000092
и
Figure 00000093
где l обозначает количество гармоник, i обеспечивает число порядка ЛСП, а n и m соответствует номерам кадров, соответствующим, в свою очередь, индексу временной оси до и после преобразования временной оси, соответственно. Между тем, 0≤n<N1 и 0≤m<N2, где каждый из элементов n и m представляет указатель кадра при кадровом интервале, например, равном 20 мс.
Как описывалось выше,
Figure 00000094
обозначает количество гармоник. Вышеуказанные условия можно выполнять после восстановления количества гармоник до величины am[n][e], соответствующей реальному количеству гармоник, или можно также выполнять в состоянии am[n][e] (e=0-43). То есть преобразование данных количества можно выполнять до или после декодирования декодирующим устройством.
На этапе S2 схема изменения периода 4 устанавливает количество кадров, соответствующих первоначальной длительности времени, на N1, устанавливая в то же время количество кадров, соответствующих длительности времени после изменения, на N2. Затем на этапе S3 схема изменения периода 4 сжимает временную ось скорости N1 до скорости N2. То есть коэффициент сжатия временной оси spd схемой изменения периода 4 определяется отношением N2/N1.
Далее на этапе S 4 схема интерполирования 5 устанавливает
Figure 00000095
, соответствующую количеству кадров, в свою очередь, соответствующему показателю временной оси после преобразования временной оси, равную 2.
Далее на этапе S 5 схема интерполирования 4 определяет два кадра fr0 и fr1 и различия "левого" и "правого" между двумя кадрами fro и fr1 um/spd. Если параметры кодирования Рch, vuv, am и lsp обозначить звездочкой (*), то
Figure 00000096
можно выразить в виде общей формулы
Figure 00000097
где 0≤m<N2. Однако, поскольку отношение m/spd является не целым числом, видоизмененный параметр кодирования для m/spd создается посредством интерполирования из двух кадров fr0=Lm/spd и fr1=f0+1. Следует отметить, что между кадром fr0, m/spd и кадром fr1 существует связь, как показано на фиг.10, то есть сохраняется связь, определяемая выражениями
левый = m/spoL,
правый= fr1-m/spd.
Параметр кодирования для m/spd на фиг.10, то есть видоизмененный параметр кодирования, создается посредством интерполирования, как показано на этапе 6. Видоизмененный параметр кодирования можно определить просто линейным интерполированием в виде:
Figure 00000098
.
Однако, если в случае интерполирования между fr0 и fr1 эти два кадра различаются в отношении V-UV; то есть если один из двух кадров является V, а другой UV, то нельзя применять вышеприведенную общую формулу. Следовательно, схема интерполирования 5 изменяет способ определения параметров кодирования в связи с вокализированными и невокализироаанными характеристиками этих двух кадров fr0 и fr1, как показано на этапе S11 следующей фиг.11.
Вначале следует принять решение в отношении того, являются ли два кадра fr0 и fr1 вокализированными (V) или невокализированными (UV). Если обнаруживается, что оба кадра fr0 и fr1 вокализированы (V), программа переходит к этапу S 12, где все параметры линейно интерполируются, а видоизмененные параметры кодирования представляются следующим образом:
Figure 00000099
где 0≤l≤L. Следует отметить, что L обозначает максимально возможное количество, которое можно принять в качестве гармоник, и что "0" заполняется в am[n][l], где отсутствуют гармоники. Если количество гармоник различается в кадрах fr0 и fr1, то считается, что при вышеописанном интерполировании значение эквивалентных гармоник равно нулю. Перед прохождением через блок преобразования количества данных, количество L может быть постоянным, например, L=43 при 0≤l<L.
Кроме того, видоизмененные параметры кодирования также воспроизводятся следующим образом:
Figure 00000100
где 0≤i≤1, и I показывает количество порядков ЛСП и обычно равно 10, и
Figure 00000101
Следует понимать, что при установлении различия V-UV, 1 и 0 показывают вокализированный (V ) и невокализированный (UV) кадры, соответственно.
Если на этапе S11 принимается решение, что ни один из двух кадров fr0 и fr1 не вокализируется (V ), дается оценка, аналогичная оценке, полученной на этапе S 13, то есть оценка в отношении того, невокализированы (UV) ли оба кадра fr0 и fr1. Если результат оценки положительный (ДA), то есть если оба кадра невокализируются (UV), схема интерполирования 5 устанавливает Pch на постоянную величину и определяет am и lsp посредством линейного интерполирования следующим образом
Figure 00000102
(максимальный тон)
для фиксирования значения тона на постоянной величине, например, на максимальной величине для невокализированного звука, равной MaxPitch=148;
Figure 00000103
Figure 00000104
Figure 00000105
Если оба кадра fr0 и fr1 невокализированы, программа переходит к этапу S15, где принимается решение в отношении того, вокализируется (V) ли кадр fr0 и не вокализируется (UV) кадр fr1. Если результат оценки положительный (ДА), то есть если кадр fr0 вокализируется (V), а кадр fr1 не вокализируется (UV), программа переходит к этапу S16. Если результат оценки отрицательный (НЕТ), то есть если кадр fr0 не вокализируется (UV), а кадр fr1 вокализируется (V), программа переходит к этапу S17.
Обработка на следующем этапе S 16 относится к случаям, когда fr0 и fr1 отличаются в отношении V-UV, то есть когда один из кадров вокализирован, а другой невокализирован. Это учитывает то, что интерполирование параметров между двумя кадрами fr0 и fr1, отличающимися в отношении V-UV, не имеет значения. В таком случае, используется значение параметра кадра, более близкого к времени m/spd без выполнения интерполирования.
Если кадр fr0 вокализирован (V), а кадр fr1 не вокализирован (UV), программа переходит к этапу S 16, где сравниваются друг с другом размеры "левого" (=m/spd-fr0 ) и "правого" (=fr1-m/spd) кадров, как показано на фиг.10. Это позволяет дать оценку в отношении того, который из кадров fr0 и fr1 находится ближе к m/spd. Вычисление видоизмененных параметров кодирования осуществляется с использованием значений параметров кадра, находящегося ближе к m/spd.
Если результат оценки на этапе S16 положительный (ДА), то это означает, что "правый" размер больше, а отсюда кадр fr1 находится дальше от m/spd. Таким образом, на этапе S18 определяются видоизмененные параметры кодирования, используя параметры кадра fr0, находящиеся ближе к m/spd следующим образом:
Figure 00000106
Если результат оценки на этапе S16 отрицательный (НЕТ), то размеры "левый" ≥ "правого", а отсюда кадр fr1 ближе к m/spd, поэтому программа переходит к этапу S19, где величина тона доводится до максимума и, используя параметры для кадра fr1, устанавливаются видоизмененные параметры следующим образом:
Figure 00000107
Далее, на этапе S17, под действием оценки на этапе S 15, состоящей в том, что два кадра fr0 и fr1 являются невокализированным (UV) и вокализированным (V), соответственно, дается оценка, аналогичная оценке на этапе S16. То есть, в этом случае, интерполирование не выполняется, а используются значения параметров кадра, находящегося ближе к времени m/spd.
Если результат оценки на этапе S 17 положительный (ДА), то высота тона доводится до максимума по величине на этапе S20 и, используя параметры более близкого кадра fr0 для остальных параметров, устанавливаются видоизмененные параметры кодирования следующим образом:
Figure 00000108
Если результат оценки на этапе S17 отрицательный (НЕТ), то, поскольку размеры "левый" ≥ "правого", а отсюда кадр fr1 ближе к m/spd, программа переходит к этапу S 21, где с помощью параметров для кадра fr1 устанавливаются видоизмененные параметры кодирования следующим образом:
Figure 00000109
Таким образом, схема интерполирования 5 выполняет различные интерполирующие операции на этапе S 6 фиг.9 в зависимости от соотношения вокализированных (V) и невокализированных (UV) характеристик между двумя кадрами fr0 и fr1. После окончания операции интерполирования на этапе S 6, программа переходит к этапу S 7, где производится приращение параметра m. Действия в соответствии с этапами S 5 и S 6 повторяются, пока значение m не станет равным N2.
Кроме того, последовательность краткосрочных среднеквадратичных значений невокализированных (UV) частей обычно используется для управления усилением шума. Однако, этот параметр здесь устанавливается на 1.
Работа блока вычисления видоизмененных параметров кодирования схематически показана на фиг.12. Модель параметров кодирования, извлекаемых каждые 20 мс блоком кодирования 2, показана на фиг.12A. Схема изменения периода 4 блока вычисления видоизмененных параметров кодирования 3 устанавливает период на 15 мс и выполняет сжатие по временной оси, как показано на фиг.12B. Показанные на фиг.12C видоизмененные параметры кодирования вычисляются посредством интерполирующего устройства, соответствующего установкам V-UV двух кадров fr0, fr1, как описано выше.
Схема вычисления видоизмененных параметров кодирования 3 может также изменять на обратную последовательность, в которой выполняются операции схемой изменения периода 4 и схемой интерполирования, то есть выполнять интерполирование параметров кодирования, показанное на фиг.13A, как показано на фиг.13B, и выполнять сжатие для вычисления видоизмененных параметров кодирования, как показано на фиг.13C.
Видоизмененные параметры кодирования со схемы вычисления видоизмененных параметров кодирования 3 поступают на схему декодирования 6, показанную на фиг.1. Схема декодирования 6 синтезирует гармонические волны и шум на основании видоизмененных параметров кодирования и выводит синтезированный звуковой сигнал на выходную клемму 37.
Описание работы схемы декодирования производится со ссылкой на фиг.14 и 15. В целях объяснения предполагается, что поступающие на схему декодирования 6 параметры являются обычными параметрами кодирования.
На фиг.14 на клемму 31 поступает выходной сигнал с векторным квантованием линейной спектральной пары (ЛСП), соответствующий выходному сигналу на клемме 15 фиг.3, то есть так называемый указатель.
Этот входной сигнал поступает на инверсный векторный квантователь ЛСП 32 для инверсного векторного квантования с целью вырабатывания данных линейной спектральной пары (ЛСП), которые затем поступают на схему интерполирования ЛСП 33 для интерполирования ЛСП. Получающиеся интерполированные данные преобразуются схемой преобразования ЛСП в α 32 в α - параметры кодов с линейным предсказанием (КЛП), Эти α - параметры поступают на синтезирующий фильтр 35.
На клемму 41 фиг.14 поступают данные показателя взвешенного кодового слова с векторным квантованием спектральной огибающей (Am), соответствующей выходному сигналу на клемме 26 кодирующего устройства, показанного на фиг.3. На клемму 43 поступает информация о тоне с клеммы 28 фиг.3 и данные, показывающие характеристическое качество формы сигнала во времени в блоке UV, тогда как на клемму 46 поступают данные установления различия V-UV с клеммы 29 фиг.3.
Данные с векторным квантованием амплитуды Am с клеммы 41 поступают на инверсный векторный квантователь 42 для обратного векторного квантования. Получающиеся данные спектральной огибающей поступают на схему синтезирования гармоник и шума или схему синтезирования многополосного возбуждения (МПВ) 45. На схему синтезирования 45 подаются данные с клеммы 43, которая переключается переключателем 44 между данными о тоне и данными, показывающими характеристическое значение формы сигнала для кадра UV в зависимости от данных установления различия V-UV. На схему синтезирования 45 поступают также данные установления различия V-UV с клеммы 46.
Ниже приводится описание со ссылкой на фиг.15 компоновки схемы синтезирования МПВ в качестве иллюстративной компоновки схемы синтезирования 45.
Со схемы синтезирования 45 берутся остаточные данные КЛП, соответствующие выходному сигналу инверсной фильтрующей схемы 21 фиг.3. Полученные таким образом остаточные данные поступают на схему синтезирования 35, где выполняется синтезирование КЛП с целью создания данных формы сигнала по времени, которые фильтруются последующим фильтром 36, так что на выходную клемму 37 выводятся воспроизведенные сигналы формы волны временной области.
Иллюстрируемый пример схемы синтезирования МПВ в качестве примера схемы синтезирования 45 описывается со ссылкой на фиг.15.
На фиг.15 показано, что данные спектральной огибающей с инверсного векторного квантователя 42 фиг.14 фактически данные спектральной огибающей остаточных значений КЛП подаются на входную клемму 131. Данные, поступающие на клеммы 43, 46, такие же, как и данные, показанные на фиг.14. Данные, поступающие на клемму 43, выбираются переключателем 44 таким образом, что данные о тоне и данные, показывающие характеристическое качество формы сигнала UV, поступают на блок синтезирования вокализированного звука 137 и на инверсный векторный квантователь 152, соответственно.
Данные спектральной амплитуды остаточных значений КЛП с клеммы 131 поступают на схему обратного преобразования количества данных 136 для обратного преобразования. Схема обратного преобразования количества данных 136 выполняет обратное преобразование, которое представляет обратную функцию преобразования, выполняемого блоком преобразования количества данных 119. Получающиеся амплитудные данные подаются на блок синтезирования вокализированного звука 137 и на блок синтезирования невокализированного звука 138. Данные о тоне, полученные с клеммы 43 через неподвижную клемму
Figure 00000110
переключателя 44, подаются на блоки синтезирования 137, 138. На блоки синтезирования 137, 138 поступают также данные установления различия V-UV с клеммы 46.
Блок синтезирования вокализированного звука 137 синтезирует форму волны вокализированного звука временной области, например, посредством синтезирования косинусоидальной или синусоидальной волны, тогда как блоку синтезирования невокализированного звука 138 фильтрует, например, белый шум посредством полосового фильтра с целью синтезирования невокализированной формы сигнала временной области. Вокализированная форма сигнала и невокализированная форма сигнала суммируются вместе сумматором 141 таким образом, чтобы их можно было вывести на выходную клемму 142.
Если в качестве данных установления различия V и UV передается код V и UV, все полосы можно разделить в единственной точке разграничения на вокализированную (V) область и невокализированную (UV) область, и на основании этой точки разграничения можно получить основанные на полосе данные установления различия V-UV. Если количество полос уменьшается на стороне анализа (кодирующего устройства) до постоянного количества, равного 12 полосам, это уменьшение можно аннулировать для обеспечения изменяющегося количества полос при ширине полосы, соответствующей первоначальному тону.
Ниже приводится описание действия синтезирования невокализированного звука блоком синтезирования невокализированного звука 138.
Форма волны сигнала белого шума временной области с генератора белого шума 143 подается на блок взвешивания 144 для взвешивания с использованием соответственной финитной функции, например, взвешивающей функции Хэмминга, с заранее установленной длительностью, например, равной 256 выборок. Затем взвешенная форма волны сигнала подается на схему краткосрочного преобразования Фурье (КСПФ) 145 для краткосрочного преобразования Фурье с целью создания энергетического спектра частотной области белого шума. Энергетический спектр блока краткосрочного преобразования Фурье 145 подается на блок обработки амплитуды полосы 146, где полагают, что полосы невокализированы (UV) и умножаются на амплитуду
Figure 00000111
, тогда как полагают, что ширина других полос, представляющих V, устанавливается на 0. На блок обработки амплитуды полосы 146 поступают амплитудные данные, данные о тоне и данные установления различия V и UV.
Выходной сигнал блока обработки амплитуды полосы частот 146 подается на блок инверсного краткосрочного преобразования Фурье (КСПФ), где производится инверсное КСПФ, используя в качестве фазы первоначальный белый шум, с целью преобразования в сигналы временной области. Выходной сигнал блока инверсного КСПФ 147 подается через блок формирования распределения мощности 156 и умножитель 157, описываемый ниже, на блок совмещения и сложения 148, где совмещение и добавление повторяются с соответствующим взвешиванием на временной оси для обеспечения возможности восстановления первичной непрерывной формы сигнала. Таким образом, непрерывная форма волны во временной области создается посредством синтеза. Выходной сигнал блока совмещения и добавления 148 поступает на сумматор 141.
Если, по меньшей мере, одна из полос в блоке вокализирована (V), то вышеупомянутая обработка выполняется в соответственном блоке синтезирования 137, 138. Если обнаруживается, что все полосы в блоке невокализированы, подвижный контакт 44 переключателя 44 установлен на неподвижной клемме
Figure 00000112
, так что информация о форме сигнала во времени невокализированного сигнала подается вместо тоновой информации на блок инверсного векторного квантования 152.
То есть, на блок векторного деквантования 152 поступают данные, соответствующие данным, поступающим с блока векторного квантования 127 на фиг.4. Эти данные подвергаются инверсному векторному квантованию с целью вывода данных для извлечения характеристического качества формы волны невокализированного сигнала.
Выходной сигнал блока инверсного КСПФ 147 перед подачей на умножитель 157 подвергается распределению энергии временной области, регулируемому блоком формирования распределения мощности 156. Умножитель 157 перемножает выходной сигнал блока инверсного КСПФ 147 с сигналом, выводимым с блока векторного деквантования 152 через блок сглаживания 153. Быстрые изменения коэффициента усиления, которые кажутся резко выраженными, может подавить блок сглаживания 153.
Синтезированный таким образом невокализированный звуковой сигнал снимается с блока синтезирования невокализированного звукового сигнала 138 и подается на сумматор 141, где он складывается с сигналом, поступающим с блока синтезирования вокализированного звукового сигнала 137, так что с выходной клеммы 142 снимаются остаточные сигналы КЛП в качестве синтезированных выходных синалов МПВ.
Эти остаточные сигналы КЛП поступают на синтезирующий фильтр 35 фиг.14 для создания конечного речевого звукового сигнала воспроизведения.
Устройство воспроизведения речевого сигнала 1 заставляет блок вычисления видоизмененных параметров кодирования 3 производить вычисление видоизмененных параметров кодирования под управлением контроллера (не показанного) и синтезирует речевой звуковой сигнал, который представляет компандированный по временной оси первоначальный речевой сигнал с добавлением видоизмененных параметров кодирования.
В этом случае сигнал
Figure 00000113
с блока вычисления видоизмененных параметров кодирования 3 используется вместо выходного сигнала схемы инверсного векторного квантователя ЛСП. Видоизмененный параметр кодирования
Figure 00000114
используется вместо значения, присущего векторному квантованию. Видоизмененный параметр кодирования
Figure 00000115
подается на схему интерполирования ЛСП 33 для интерполирования линейной спектральной пары (ЛСП), а отсюда подается на схему преобразования ЛСП в α 34, где он преобразуется в α - параметр кодов с линейным предсказанием (KЛП), с которой поступает на синтезирующий фильтр 35.
С другой стороны, видоизмененный параметр кодирования
Figure 00000116
подается вместо выходного сигнала или входного сигнала схемы преобразования количества данных 136. На клеммы 43, 46 поступают сигналы
Figure 00000117
и
Figure 00000118
соответственно.
Видоизмененный параметр кодирования
Figure 00000119
поступает на схему синтезирования гармоник и шума 45 в качестве данных спектральной огибающей. На схему синтезирования 45 поступает сигнал
Figure 00000120
с клеммы 43 через переключатель 44 в зависимости от данных установления различия, тогда как на нее также поступает сигнал
Figure 00000121
с клеммы 46.
Посредством вышеописанной показанной на фиг.15 схемы синтезируются компандированные по временной оси первоначальные речевые сигналы, используя вышеупомянутые видоизмененные параметры кодирования таким образом, чтобы их можно было выводить на выходную клемму 37.
Таким образом, устройство воспроизведения речевых сигналов 1 декодирует матрицу видоизмененных параметров кодирования
Figure 00000122
(где 0≤m<N2) вместо неотъемлемой матрицы *[n] (0≤n<N1). Интервал между кадрами во время декодирования может быть постоянным, обычно равным, например 20 мс. Таким образом, если N2<N1 или N2>N1, производится сжатие временной оси с увеличением скорости или расширение временной оси, соответственно.
Если выполняется изменение временной оси, как описано выше, мгновенный спектр и тон остаются неизменными, так что несмотря на значительное изменение диапазона в пределах 0,5≤spd≤2, едва создается ухудшение.
В случае такой системы, поскольку в конечном итоге полученная последовательность параметров декодируется после расположения их в определенном порядке с неотъемлемым интервалом 20 мс, можно легко реализовать произвольное управление скоростью в направлении увеличения или уменьшения. С другой стороны, увеличение и уменьшение скорости можно выполнять посредством такой же обработки без точек перехода.
Таким образом, плотно записанное содержимое можно воспроизводить со скоростью, в два раза выше скорости в реальном масштабе времени. Поскольку тон и фонема остаются неизменными, несмотря на увеличенную скорость воспроизведения, плотно записанное содержание можно слышать, если воспроизведение выполняется на более высокой скорости. С другой стороны, что касается речевого кодека, то можно исключить дополнительные, например, арифметические операции после декодирования и выведения сигналов, которые требуются при использовании кодирования с линейным предсказанием возбуждаемого кода (ЛПВК).
Хотя блок вычисления видоизмененных параметров кодирования 3 изолируется при вышеописанном первом способе осуществления от блока декодирования 6, блок вычисления 3 можно также обеспечивать в блоке декодирования 6.
При вычислении параметров блоком вычисления видоизмененных параметров кодирования 3 в устройстве воспроизведения речевых сигналов 1, интерполирующие операции по параметру am выполняют на значении с векторным квантованием или на значении с обратным векторным квантованием.
Далее приводится описание устройства передачи речевых сигналов 50, предназначенного для выполнения соответствующего настоящему изобретению способа передачи звуковых сигналов. На фиг.16 видно, что устройство передачи речевых сигналов 50 включает в себя передающее устройство 51, предназначенное для разделения входного речевого сигнала исходя из заранее установленных кадров временной области в качестве элементов, и кодирования входного речевого сигнала на кадровой основе для обнаружения параметров кодирования, интерполирования параметров кодирования с целью обнаружения видоизмененных параметров кодирования и для передачи видоизмененных параметров кодирования. Устройство передачи речевых сигналов 50 включает в себя также приемное устройство 56, предназначенное для приема видоизмененных параметров кодирования и для синтезирования гармонических колебаний и шума.
То есть, передающее устройство 51 включает в себя кодирующее устройство 53, предназначенное для разделения входного речевого сигнала исходя из заранее установленных кадров временной области в качестве элементов и кодирования речевого сигнала на кадровой основе для извлечения параметров кодирования, интерполятор 54, предназначенный для интерполирования параметров кодирования с целью определения видоизмененных параметров кодирования, и блок передачи, предназначенный для передачи видоизмененных параметров кодирования. Приемное устройство 56 включает в себя блок приема 57, интерполятор 58, предназначенный для интерполирования видоизмененных параметров кодирования, и блок декодирования 59, предназначенный для синтезирования гармонических колебаний и шума на основании интерполированных параметров для вывода синтезированных речевых сигналов на выходную клемму 60.
Основная работа блока кодирования 53 и блока декодирования 59 аналогична работе таких же блоков в устройстве воспроизведения речевого сигнала 1, и поэтому здесь, для простоты, подробное их описание опускается.
Описание работы передающего устройства 51 производится со ссылкой на представленный на фиг.17 алгоритм, в котором совместно показаны действия кодирования блоком кодирования 53 и интерполирования интерполятором 54.
Блок кодирования 53 извлекает параметры кодирования, состоящие из ЛСП, тона Pch, V-UV и am на этапах S31 и S33. В частности ЛСП интерполируется и переупорядочивается интерполятором 54 на этапе S 31 и квантуется на этапе S 32, тогда как тон Pch, V-UV и am интерполируются и переупорядочиваются на этапе S 34 и квантуются на этапе S 35. Эти квантованные данные передаются посредством передающего устройства 55 на приемное устройство 56.
Квантованные данные, принимаемые посредством блока приема 57 в приемном устройстве 56, подаются на блок интерполирования 58, где параметры интерполируются и переупорядочиваются на этапе S 36. На этапе S 37 данные синтезируются посредством блока декодирования 59.
Таким образом, для увеличения скорости посредством сжатия временной оси, устройство передачи речевых сигналов 50 интерполирует параметры и изменяет интервал между кадрами параметров во время передачи. Между тем, поскольку воспроизведение выполняется во время приема посредством обнаружения параметров с постоянным интервалом между кадрами, равным 20 мс, алгоритм управления скоростью можно использовать непосредственно для преобразования скорости передачи битов.
То есть, предполагается, что если интерполирование параметров используется для управления скоростью, то это интерполирование выполняется в декодирующем устройстве. Однако, если эта обработка выполняется в кодирующем устройстве, так что данные со сжатой (прореженной) временной осью кодируются и расширяется (интерполируется) временная ось декодирующим устройством, скорость передачи битов можно регулировать по соотношению spd.
Если скорость передачи составляет, например, 1,975 килобитов в секунду, а кодирование выполняется на удвоенной скорости посредством такой установки, что spd=0,5, то поскольку кодирование выполняется со скоростью 5 секунд вместо присущей скорости 10 секунд, скорость передачи становится равной 1,975×0,5 килобитов в секунду.
Кроме того, параметры кодирования, полученные в блоке кодирования 53, показанные на фиг.18A, интерполируются и переупорядочиваются интерполятором 54 с произвольным интервалом, например, равным 30 мс, как показано на фиг.18B. Затем параметры кодирования интерполируются и переупорядочиваются интерполятором 58 приемного устройства 56 до 20 мс, как показано на фиг.18C, и синтезируются блоком декодирования 59.
Если аналогичную схему обеспечить в декодирующем устройстве, то можно восстанавливать скорость до первоначального значения, хотя речевой звуковой сигнал можно также слышать на высокой или низкой скорости. То есть, устройство регулирования скорости можно использовать в качестве кодера-декодера переменной скорости передачи битов.

Claims (12)

1. Способ воспроизведения входного речевого сигнала на основании параметров кодирования, получаемых посредством разделения входного речевого сигнала, исходя из заранее установленных кадров на временной оси и посредством кодирования входного речевого сигнала на кадровой основе, содержащий этапы интерполирования параметров кодирования для определения видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами, и вырабатывания видоизмененного речевого сигнала по временной оси от входного речевого сигнала на основе видоизмененных параметров кодирования.
2. Способ по п. 1, отличающийся, тем, что видоизмененный речевой сигнал создают посредством, по меньшей мере, синтезирования гармонических волн на основании видоизмененных параметров кодирования для воспроизведения речевых сигналов.
3. Способ по п.2, отличающийся тем, что период вывода параметров кодирования изменяют посредством сжатия-расширения временной оси параметров кодирования, получаемых в каждом заранее установленном кадре до или после этапа интерполирования.
4. Способ по п. 1, отличающийся тем, что интерполирование параметров кодирования выполняют линейным интерполированием параметров линейной спектральной пары, высоты тона и остаточной спектральной огибающей, содержащихся в параметрах кодирования.
5. Способ по п.1, отличающийся тем, что параметры кодирования определяют посредством представления остаточных значений краткосрочных предсказаний входного речевого сигнала в качестве синтезированной гармонической волны и шума и посредством кодирования частотной спектральной информации каждого из синтезированных гармонических волн и шума.
6. Устройство воспроизведения речевого сигнала, в котором входной речевой сигнал восстанавливают на основании параметров кодирования, получаемых посредством разделения входного речевого сигнала, исходя из заранее установленных кадров на временной оси и кодирования основанного на кадрах входного речевого сигнала для обнаружения параметров кодирования, содержащее средство интерполирования параметров кодирования, предназначенное для определения видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами, и средство вырабатывания видоизмененного речевого сигнала, предназначенное для выработки видоизмененного речевого сигнала, отличающегося по временной оси от входного речевого сигнала, на основе видоизмененных параметров кодирования.
7. Устройство по п.6, отличающееся тем, что средство вырабатывания видоизмененного речевого сигнала выполнено с возможностью, по меньшей мере, синтезирования гармонической волны в соответствии с видоизмененными параметрами кодирования.
8. Устройство по п.7, отличающееся тем, что дополнительно содержит средство изменения периода, предназначенное для сжатия-расширения временной оси параметров кодирования, получаемых в каждом заранее установленном кадре, для изменения периода вывода параметров кодирования, и установленное до или после средства интерполирования.
9. Устройство по п.6, отличающееся тем, что средство интерполирования параметров кодирования выполнено с возможностью линейного интерполирования параметров линейной спектральной пары, высоты тона и остаточной спектральной огибающей, содержащихся в параметрах кодирования.
10. Устройство по п.6, отличающееся тем, что параметры кодирования определяют посредством представления остаточных величин краткосрочного предсказания входного речевого сигнала в качестве синтезированной гармонической волны и шума и посредством кодирования частотно-спектральной информации каждого из синтизированных гармонических волн и шума.
11. Способ передачи входных речевых сигналов, заключающийся в том, что параметры кодирования получают посредством разделения входного речевого сигнала, исходя из заранее установленных кадров на временной оси в качестве элементов и посредством кодирования разделенного входного речевого сигнала на кадровой основе, причем определенные таким образом параметры кодирования интерполируют для определения видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами, и видоизмененные параметры кодирования передают.
12. Способ по п. 11, отличающийся тем, что параметры кодирования определяют посредством представления остаточных величин краткосрочных предсказаний входного речевого сигнала в качестве синтезированной гармонической волны и шума и посредством кодирования частотно-спектральной огибающей каждого из синтизированных гармонической волны и шума.
RU96111955/09A 1995-06-20 1996-06-19 Способ и устройство воспроизведения речевых сигналов и способ их передачи RU2255380C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPPO7-153723 1995-06-20
JP15372395A JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置
JPP07-153723 1995-06-20

Publications (2)

Publication Number Publication Date
RU96111955A RU96111955A (ru) 1998-09-27
RU2255380C2 true RU2255380C2 (ru) 2005-06-27

Family

ID=15568696

Family Applications (1)

Application Number Title Priority Date Filing Date
RU96111955/09A RU2255380C2 (ru) 1995-06-20 1996-06-19 Способ и устройство воспроизведения речевых сигналов и способ их передачи

Country Status (17)

Country Link
US (1) US5926788A (ru)
EP (1) EP0751493B1 (ru)
JP (1) JP3747492B2 (ru)
KR (1) KR100472585B1 (ru)
CN (1) CN1154976C (ru)
AT (1) ATE205011T1 (ru)
AU (1) AU721596B2 (ru)
BR (1) BR9602835B1 (ru)
CA (1) CA2179228C (ru)
DE (1) DE69614782T2 (ru)
ES (1) ES2159688T3 (ru)
MX (1) MX9602391A (ru)
MY (1) MY116532A (ru)
RU (1) RU2255380C2 (ru)
SG (1) SG54343A1 (ru)
TR (1) TR199600519A2 (ru)
TW (1) TW412719B (ru)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2463674C2 (ru) * 2007-03-02 2012-10-10 Панасоник Корпорэйшн Кодирующее устройство и способ кодирования
RU2483367C2 (ru) * 2008-03-14 2013-05-27 Панасоник Корпорэйшн Устройство кодирования, устройство декодирования и способ для их работы
RU2557469C2 (ru) * 2009-04-16 2015-07-20 Юниверсите Де Монс Способы синтеза и кодирования речи
RU2644123C2 (ru) * 2013-10-18 2018-02-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
JP2000305599A (ja) 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
FR2796191B1 (fr) * 1999-07-05 2001-10-05 Matra Nortel Communications Procedes et dispositifs de codage et de decodage audio
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6535843B1 (en) * 1999-08-18 2003-03-18 At&T Corp. Automatic detection of non-stationarity in speech signals
US20040054525A1 (en) * 2001-01-22 2004-03-18 Hiroshi Sekiguchi Encoding method and decoding method for digital voice data
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
WO2003003345A1 (fr) * 2001-06-29 2003-01-09 Kabushiki Kaisha Kenwood Dispositif et procede d'interpolation des composantes de frequence d'un signal
US6907632B2 (en) * 2002-05-28 2005-06-21 Ferno-Washington, Inc. Tactical stretcher
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
JP4937753B2 (ja) * 2004-09-06 2012-05-23 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
WO2006137425A1 (ja) 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2132733B1 (en) * 2007-03-02 2012-03-07 Telefonaktiebolaget LM Ericsson (publ) Non-causal postfilter
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
JP4999757B2 (ja) * 2008-03-31 2012-08-15 日本電信電話株式会社 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
WO2010111841A1 (zh) * 2009-04-03 2010-10-07 华为技术有限公司 频域脉冲解码的预测方法和预测装置及解码器
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN107369454B (zh) 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US10389994B2 (en) * 2016-11-28 2019-08-20 Sony Corporation Decoder-centric UV codec for free-viewpoint video streaming
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
CN108899008B (zh) * 2018-06-13 2023-04-18 中国人民解放军91977部队 一种对空语音通信杂音模拟干扰方法和***
KR101971478B1 (ko) 2018-09-27 2019-04-23 박기석 차량용 차광막 장치
KR102150192B1 (ko) 2019-04-04 2020-08-31 박기석 차량용 차광막 장치
KR20230114981A (ko) 2022-01-26 2023-08-02 주식회사 스마트름뱅이 차량용 태양광 차단 및 발전 수행 장치
CN114511474B (zh) * 2022-04-20 2022-07-05 天津恒宇医疗科技有限公司 血管内超声图像的降噪方法、***、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
JPH07117562B2 (ja) * 1988-10-18 1995-12-18 株式会社ケンウッド スペクトラムアナライザ
JP2823023B2 (ja) * 1990-09-10 1998-11-11 富士通株式会社 リンク配線用マトリクスプリント板におけるコネクタ接続方法
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
FR2863874B1 (fr) * 2003-12-18 2006-03-17 Oreal Composition demaquillante

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2463674C2 (ru) * 2007-03-02 2012-10-10 Панасоник Корпорэйшн Кодирующее устройство и способ кодирования
RU2483367C2 (ru) * 2008-03-14 2013-05-27 Панасоник Корпорэйшн Устройство кодирования, устройство декодирования и способ для их работы
RU2557469C2 (ru) * 2009-04-16 2015-07-20 Юниверсите Де Монс Способы синтеза и кодирования речи
RU2644123C2 (ru) * 2013-10-18 2018-02-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
US10304470B2 (en) 2013-10-18 2019-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10607619B2 (en) 2013-10-18 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10909997B2 (en) 2013-10-18 2021-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US11798570B2 (en) 2013-10-18 2023-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US11881228B2 (en) 2013-10-18 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Also Published As

Publication number Publication date
MX9602391A (es) 1997-02-28
SG54343A1 (en) 1998-11-16
BR9602835B1 (pt) 2009-05-05
AU5605496A (en) 1997-01-09
CA2179228A1 (en) 1996-12-21
KR970003109A (ko) 1997-01-28
EP0751493A3 (en) 1998-03-04
DE69614782D1 (de) 2001-10-04
TW412719B (en) 2000-11-21
BR9602835A (pt) 1998-04-22
ES2159688T3 (es) 2001-10-16
AU721596B2 (en) 2000-07-06
CN1145512A (zh) 1997-03-19
ATE205011T1 (de) 2001-09-15
CN1154976C (zh) 2004-06-23
EP0751493B1 (en) 2001-08-29
CA2179228C (en) 2004-10-12
JP3747492B2 (ja) 2006-02-22
DE69614782T2 (de) 2002-05-02
MY116532A (en) 2004-02-28
US5926788A (en) 1999-07-20
KR100472585B1 (ko) 2005-06-21
TR199600519A2 (tr) 1997-01-21
EP0751493A2 (en) 1997-01-02
JPH096397A (ja) 1997-01-10

Similar Documents

Publication Publication Date Title
RU2255380C2 (ru) Способ и устройство воспроизведения речевых сигналов и способ их передачи
US7454330B1 (en) Method and apparatus for speech encoding and decoding by sinusoidal analysis and waveform encoding with phase reproducibility
EP0770989B1 (en) Speech encoding method and apparatus
JP3653826B2 (ja) 音声復号化方法及び装置
EP0770987B1 (en) Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus
US5819212A (en) Voice encoding method and apparatus using modified discrete cosine transform
EP0772186B1 (en) Speech encoding method and apparatus
US6108621A (en) Speech analysis method and speech encoding method and apparatus
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US6532443B1 (en) Reduced length infinite impulse response weighting
JP4040126B2 (ja) 音声復号化方法および装置
JPH10214100A (ja) 音声合成方法
JPH10105195A (ja) ピッチ検出方法、音声信号符号化方法および装置
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
EP1164577A2 (en) Method and apparatus for reproducing speech signals
AU7201300A (en) Speech encoding method

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20150620