FI122726B - Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi - Google Patents

Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi Download PDF

Info

Publication number
FI122726B
FI122726B FI20070642A FI20070642A FI122726B FI 122726 B FI122726 B FI 122726B FI 20070642 A FI20070642 A FI 20070642A FI 20070642 A FI20070642 A FI 20070642A FI 122726 B FI122726 B FI 122726B
Authority
FI
Finland
Prior art keywords
speech
rate
coding
coding mode
encoding
Prior art date
Application number
FI20070642A
Other languages
English (en)
Swedish (sv)
Other versions
FI20070642A (fi
Inventor
Andrew P Dejaco
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of FI20070642A publication Critical patent/FI20070642A/fi
Application granted granted Critical
Publication of FI122726B publication Critical patent/FI122726B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

MENETELMÄ JA LAITE ALENNETUN NOPEUDEN MUUTTUVANOPEUK-SISEN VOKOODAUKSEN SUORITTAMISEKSI
Esillä olevan keksinnön kohteena on tietoliikennejärjestelmät. Erityisesti esillä oleva keksintö 5 liittyy uuteen ja kehittyneeseen menetelmään ja laitteeseen muuttuvanopeuksisen lineaarisen ennustavan koodipainotteisen koodauksen suorittamiseksi.
Äänen lähettäminen digitaalisilla menetelmillä on levinnyt laajalle, erityisesti kaukoetäisyyksil-10 lä ja radiopuhelinsovelluksissa. Tämä vuorostaan on lisännyt mielenkiintoa määrittää pienin informaatiomäärä, joka voidaan lähettää kanavalla ja joka ylläpitää halutun laadun uudelleen muodostetussa puheessa. Jos puhetta lähetetään yksinkertaisesti näytteistämäl-15 lä ja digitoimalla, vaaditaan datanopeus luokkaa 64 kilobittiä sekuntia kohden (kbps), jotta saavutetaan analogisten puhelimien puheenlaatua vastaava laatu. Kuitenkin käyttämällä puheen analysointia, sitä seu-raavaa sopivaa koodausta, lähetystä ja syntetisointia 20 vastaanottimessa, voidaan saavuttaa merkittävä datano-peuden pudotus.
Laitteita, jotka suorittavat äänitetyn puheen kompressoinnin parametreillä, jotka liittyvät ihmispu-heen mallin muodostamiseen, kutsutaan tyypillisesti 25 vokoodereiksi. Sellaiset laitteet käsittävät kooderin, joka analysoi tulevan puheen palauttaakseen relevantit parametrit, ja dekooderi, joka uudelleensyntetisoi pu-° heen käyttäen parametreja, jotka se saa lähetyskana- g valla. Ollakseen tarkka, mallin on oltava vakiollises- i cv 30 ti muuttuva. Näin ollen puhe jaetaan aikalohkoihin tai x analyysikehyksiin, jonka aikana parametrit lasketaan.
tr
Parametrit päivitetään kutakin uutta kehystä varten.
v Useista puhekooderiluokista ?(Code Excited ^ Linear Predicitive Coding, CELP), tilastollinen koo- o o 35 daus (Stochastic Coding) tai vektoripainotteinen puhe- koodaus (Vector Excited Speech Coding) ovat yksi luokka. Tämän tietyn luokan koodausalgoritmi esitetään 2 julkaisussa "A 4.8 kbps Code Excited Linear Predictive Coder", Thomas E Tremain et al., Proceedings of the Mobile Satellite Conference. 1988.
Vokooderi toimii kompressoimalla digitoitua 5 puhesignaalia alemman bittinopeuden signaaliksi poistamalla kaikki puheeseen kuulumattomat luonnolliset redundanssit. Puheessa on tyypillisesti lyhyitä redundansseja johtuen pääasiassa äänitraktaatin suodatuksesta ja pitkiä redundansseja johtuen äänijänteiden 10 kiihottamista äänitraktaateista. CELP kooderissa näitä toimintoja mallinnetaan kahdella suodattimena, for-manttisuodattimella ja pitkäkestoisella astesuodatti-mella. Koska nämä redundanssit poistetaan, saatu resi-duaalisignaali voidaan kuvata valkoisena Gaussin kohi-15 nana, joka myös on koodattava. Tämän menetelmän taustalla on laskea parametrit suodattimelle, jota kutsutaan LPC-suodattimeksi ja joka suorittaa lyhytaikaisen puheen aaltomuotojen ennustamisen käyttäen ihmisen ää-nitraktaattimallia. Lisäksi pitkäkestoiset vaikutuk-20 set, liittyen puheen asteeseen, mallinnetaan laskemalla parametrit suodattimelle, joka olennaisesti mallintaa ihmisen äänijänteitä. Lopulta suodattimet on käynnistettävä, ja se tehdään määrittämällä mikä satun-naiskäynnistyksen aaltomuoto koodikirjassa johtaa al-25 kuperäisen puheen lähimpään approksimaatioon, kun aaltomuoto käynnistää kaksi ylläkuvattua suodatinta. Näin cm ollen lähetetyt parametrit liittyvät kolmeen kohtaan ^ (1) LPC-suodatin, (2) astesuodatin ja (3) koodikirja- οό käynnistys.
30 Vaikka vokoodaustekniikoiden käytön kohteena on yrittää vähentää kanavalla lähetetyn informaation £ määrää ylläpitäen palautetun puheen laatu, tarvitaan muita tekniikoita lisävähennyksen aikaansaamiseksi, o Eräs aikaisemmin käytetty tekniikka lähetetyn infor- o 35 maation vähentämiseksi on ääniaktiviteetin portitus.
CM
Tässä menetelmässä ei lähetetä informaatiota puheessa olevien taukojen aikana. Vaikka tällä menetelmällä 3 saavutetaan haluttu tulos datan vähentämisessä, siinä on useita haittapuolia.
Useissa tapauksissa puheen laatu heikkenee johtuen sanojen alkuperäisten osien leikkautumisesta.
5 Toinen kanavan kiinniportitukseen epäaktiivisuuden aikana liittyvä ongelma on, että järjestelmän käyttäjät huomaavat taustakohinan puuttumisen, mikä yleensä liittyy puheeseen, ja pitävät kanavan laatua heikompana kuin normaalissa puhelussa. Aktiivisen portituksen 10 lisäongelma on, että satunnaiset äkilliset kohinat taustalla saattava liipaista lähettimen vaikka puhetta ei ole, mikä johtaa epämiellyttäviin purskeisiin vas-taanottimessa.
Yritettäessä parantaa syntetisoidun puheen 15 laatua puheaktiivisuuden portitusjärjestelmissä, syn tetisoitu huojentava kohina lisätään dekoodausproses-sin aikana. Vaikka huojentavan kohinan lisäämisellä saavutetaan hieman laadun parantumista, se ei olennaisesti kehitä koko laatua, koska huojentava kohina ei 20 mallinna todellista taustakohinaa kooderissa.
Edullinen menetelmä datakompression suorittamiseksi lähetettävän tiedon vähentämiseksi, on suorittaa muuttuvanopeuksinen vokoodaus. Koska puhe luonnostaan sisältää hiljaisia jaksoja eli taukoja, voidaan 25 näitä jaksoja edustavan datan määrää pienentää. Muut- tuvanopeuksinen vokoodaus hyödyntää kaikkein tehok-c\j kaimmin tätä tosiasiaa vähentämällä datanopeutta hil- ^ jäisillä jaksoilla. Datanopeuden alentaminen, vastata kohtana täydelliselle katkolle lähetyksessä, hiljai- i cm 30 silla jaksoilla poistaa puheaktiviteetin portitukseen x liittyviä ongelmia toteuttaen samalla vähennystä lähe- CC . ' tetyssä informaatiossa.
Patenttijulkaisussa US 08/00,484, jätetty
CO
° 14.1.1993, "Muuttuvanopeuksinen vokooderi", jossa ha- o o 35 kijana on sama kuin tässä hakemuksessa ia loka lute-
C\l J J
tään tähän viittauksella, esitetään yksityiskohtaisemmin aikaisemmin mainittujen puheluokkien, ?(Code Exci- 4 ted Linear Fredicitive Coding, CELP), tilastollinen koodaus tai vektoripainotteinen puhekoodaus, vokoode-rin vokoodausalgoritmi. CELP tekniikka itsessään ei aikaansaa merkittävää vähennystä puhetta edustavan 5 tarpeellisen datan määrään tavalla, joka uudelleensyn-tetisoinnin yhteydessä johtaa korkeaan laatuun. Kuten aiemmin mainittiin, vokooderiparametrit päivitetään kullekin kehykselle. Patenttijulkaisussa esitetty vo-kooderi aikaansaa muuttuvanopeuksisen lähtödatan vaih-10 tamalla mallin parametrien taajuutta ja tarkkuutta.
Yllä mainitun patenttijulkaisun vokoodausalgoritmi eroaa merkittävimmin perinteisistä CELP tekniikoista tuottamalla muuttuvanopeuksisen lähtödatan perustuen puheen aktiivisuuteen. Rakenne määritetään 15 siten, että parametrit määritetään harvemmin tai pienemmällä tarkkuudella, puheen taukojen aikana. Tämä tekniikka mahdollistaa jopa vielä suuremman vähentymisen tiedon tarpeeseen. Ilmiö, jota hyödynnetään da-tanopeuden pienentämiseksi, on puheaktiviteettiker-20 roin, joka keskimääräinen aikaprosentti, minkä puhuja puhuu keskustelun aikana. Tyypillisissä kaksisuuntais-sa puhelinkeskusteluissa keskimääräistä datanopeutta pienennetään kertoimella 2 tai enemmän. Puheen taukojen aikana, vokooderilla koodataan vain taustakohina. ! 25 Näillä hetkillä, joitain ihmisen äänitraktiin liittyviä parametrejä ei tarvitse lähettää. 1 ^ Kuten aiemmin mainittiin ennalta tapahtuvaa ^ rajoittamista hiljaisuuden aikana lähetettävän infor- § maation vähentämiseksi kutsutaan puheaktiviteetin por- c\J 30 tittamiseksi, tekniikka, jossa informaatiota ei lähe- x tetä hiljaisten hetkien aikana. Vastaanottopuolella jakso voidaan täyttää syntetisoidulla "huojentavalla ^ kohinalla". Sitä vastoin muuttuvanopeuksinen vokooderi
CD
° lähettää jatkuvasti dataa, joka hakemuksen esimerkki en ^ 35 sovellutuksessa on nopeuksilla, jotka vaihtelevat vä lillä noin 8 kbps ja 1 kbps. Vokooderi, joka aikaansaa jatkuvaa datalähetystä, eliminoi "huojentavan kohinan" 5 tarpeen koodaamalla taustakohinaa ja tarjoamalla luonnollisemman laadun syntetisoidulle puheelle. Edellä mainitun patenttihakemuksen keksintö näin ollen aikaansaa merkittävän kehityksen syntetisoidun puheen 5 laadussa puheaktiviteetin portitukseen nähden sallimalla tasaisen siirtymän puheen ja taustan välillä.
Edellä mainitun patenttihakemuksen vokoo-dausalgoritmi mahdollistaa lyhyiden taukojen tunnistamisen puheessa, vähennys puheaktiviteetin tehollisessa 10 kertoimessa realisoidaan. Nopeuspäättelyt voidaan teh- dä kehys kehykseltä periaatteella ilman kanavanvaihtoa (hangover), jolloin datanopeutta voidaan pienentää pu-hetauoilla kehyksen keston mittaiseksi, tyypillisesti 20 millisekunniksi. Näin tauot, kuten tavujen väliset, 15 voidaan siepata. Tämä tekniikka vähentää puheaktivi-| teettikerrointa perinteisen ajattelun edelle, koska ei enää ainoastaa pitkiä lauseiden välisiä taukoja, vaan myös lyhyempiä taukoja voidaan koodata pienemmällä nopeudella.
20 Koska nopeuspäättelyt tehdään kehyspohjalta, ei sanan alkuperäisen osan osalta esiinny leikkautumista, kuten ääniaktiviteetin portitusjärjestelmässä. Tämän tyyppinen leikkautuminen esiintyy ääniaktiviteetin portitusjärjestelmässä johtuen viiveestä puheen 25 tunnistuksen ja datan lähetyksen uudelleenkäynnistyksen välillä. Nopeuspäättelyn käyttö perustuen kuhunkin kehykseen johtaa puheeseen, jossa kaikilla siirtymillä o c'J on luonnollinen kuulo. Aina lähettävän vokooderin yh- o teydessä puhujaa ympäröivä taustakohina kuuluu jatku- £! 30 vasti vastaanottopäässä ja johtaa siten luonnollisem- x paan ääneen puhetaukojen aikana. Näin ollen esillä oleva keksintö aikaansaa pehmeän siirtymän taustakohi-
C\J
^ naan. Se mitä kuuntelija kuulee taustalla puheen aika- ^ na ei äkkinäisesti muutu syntetisoiduksi täytekohinak- ° 35 si taukojen aikana, kuten ääniaktiviteetin portitus järjestelmässä.
6
Koska taustakohinaa vokoodataan jatkuvatoimi-sesti lähetystä varten, mielenkiintoiset tapahtumat taustalla voidaan lähettää täysin selvästi. Tietyissä tapauksissa mielenkiintoinen taustakohina voidaan jopa 5 koodata suurimmalla nopeudella. Maksiminopeuden koodaus saattaa esiintyä esimerkiksi silloin kun joku puhuu taustalla äänekkäästi, tai jos ambulanssi ajaa kadunkulmassa seisovan käyttäjän ohi. Vakio- tai hitaasti muuttuva taustakohina koodataan kuitenkin pienillä no-10 peuksilla.
Muuttuvanopeuksisen koodauksen käyttö enteilee koodijakomonipääsyyn (CDMA) perustuvan digitaalisen matkaviestinjärjestelmän kapasiteetin lisäystä enemmän kuin kaksinkertaisesti. CDMA ja muuttuvanope-15 uksinen vokoodaus sovitetaan tapauskohtaisesti, koska CDMA:n yhteydessö kanavien välinen häiriö vähenee automaattisesti lähetysdatan nopeuden vähentyessä jollain kanavalla. Sitä vastoin, ajatellaan järjestelmiä, joissa lähetysaikavälit ovat osoitettuja, kuten TDMA 20 tai FDMA. Sellaisissa järjestelmissä hyödyn saamiseen datanopeuden vähenemisestä vaaditaan käyttämättömien aikavälien uudelleenosoittamisen muille käyttäjille. Luonnollinen viive sellaisessa toteutuksessa johtaa siihen, että kanavaa voidaan uudelleenosoittaa ainoas-25 taa pitkien taukojen aikana. Näin ollen täyttä hyötyä ei saada puheaktiviteettikertoimesta. Kuitenkin ulkoili sella koordinoinnilla muuttuvanopeuksinen koodaus on ° käyttökelpoinen muissa kuin CDMA:ssa muista mainituis- g ta syistä.
i cm 30 CDMA järjestelmässä puheen laatu voi hieman x heiketä silloin kun ylimääräistä kapasiteettia halu- “ taa. Abstraktisti puhuen vokooderi voidaan ajatella ^ useiksi vokoodereiksi, jotka kaikki toimivat eri nope- co j5 udella,mikä johtaa eri puhelaatuihin. Näin ollen puhe- o o 35 laadut voidaan sekoittaa datalaähetyksen keskimääräi sen nopeuden edelleen pienentämiseksi. Alkuperäiset kokeet osoittavat, että sekoittamalla täydellä ja puo- 7 linopeudella koodattu puhe, ts. maksimi sallittu da-tanopeus vaihtelee kehys kehykseltä 8 kbps:n ja 4 kbps:n välillä, saadun puheen laatu on parempi kuin puolen nopeuden muuttuvalla, 4 kbps maksimina, mutta 5 ei yhtä hyvä kuin täyden nopeuden, 8 kbps, muuttuvalla.
On tunnettua, että useimmiten puhelinkeskustelussa vain yksi ihminen puhuu kerrallaan. Kaksisuuntaisten linkkien lisäominaisuutena voidaan aikaansaada 10 nopeuksien välinen lukitus. Jos linkin toiseen suuntaan ollaan lähettämässä suurimmalla lähetysnopeudella, niin linkin toinen lähetyssuunta pakotetaan alhaisimpaan nopeuteen. Kahden suunnan välinen lukituksella taataan enintään 50 % keskimääräinen käyttö kummalle-15 kin linkille. Kuitenkin, kun kanava on kiinniportitet-tu, kuten on tilanne nopeuslukituksessa aktiviteetti-portituksessa, ei kuuntelijalla ole mitään mahdollisuutta keskeyttää puhujaa ottaakseen puhujan roolin keskustelussa. Yllä mainitun patenttihakemuksen mukai-20 nen vokoodausmenetelmä helposti aikaansaa muuntuvan nopeuslukituksen ohjaussignaaleilla, jotka asettavat vokoodausnopeuden.
Yllä kuvatussa patenttihakemuksessa vokooderi toimii joko puheen läsnäollessa täydellä nopeudella 25 tai kun puhe ei ole läsnä kahdeksasosanopeudella. Vo-koodusalgoritmin toiminta puolella ja neljäsosanopeu-cm della varataan kapasiteettipiikeille tai kun muuta da- n cm taa on lähetettävänä puheen rinnalla.
§ US patenttihakemus 08/118,473, jätetty cm 30 8.9.1993, "Menetelmä ja laite lähetysdatanopeuden mää- x rittämiseksi monen käyttäjän tietoliikennejärjestel ee “ mässä", jossa hakijana on sama kun tässä hakemuksessa ^ ja joka liitetään tähän, esittää yksityiskohtaisemmin co j5 menetelmän, jolla tietoliikennejärjestelmä järjestelee . , .
o 35 män kapasiteettimittauksen perusteella rahoittaa muut- tuvanopeuksisella vokooderilla vokoodattujen kehysten keskimääräistä datanopeutta. Järjestelmä vähentää kes- 8 kimääräistä datanopeutta pakottamalla ennalta määrätyt kehykset sarjaan täyden nopeuden kehyksiä koodattavaksi alemmalla nopeudella eli puolella nopeudella. Ongelma tämän tyyppisessä koodausuopeuden alentamisessa 5 aktiivisilla puhekehyksillä on, että rajoittaminen ei vastaa mitään tulopuheen ominaisuutta eikä näin ole optimoitu puheen kompressointilaadulle.
Lisäksi US patenttihakemuksessa 07/984,602, jätetty 2.12.1992, "Parannettu menetelmä puheen koo-10 dausnopeuden määrittämiseksi muuttuvanopeuksisessa vo-kooderissa", jossa hakijana on sama kun tässä hakemuksessa ja joka liitetään tähän, esitetään menetelmä ei-kuuluvan puheen erottamiseksi kuuluvasta puheesta. Esitetty menetelmä tutkii puheen tehoa ja spektraalis-15 ta kallistusta erottaakseen ei-kuuluvan puheen taustasta .
Muuttuvanopeuksiset kooderit, joiden koodaus-nopeus vaihtelee, perustuvat kokonaan tulopuheen ääni-aktiviteettiin laiminlyöden kompressointitehokkuuden 20 muuttuvanopeuksisessa vokooderissa, joka vaihtaa koo-dausnopeutta perustuen sisällön monimutkaisuuteen tai tietoon, joka vaihtelee dynaamisesti aktiivisen puheen aikana. Sovittamalla koodausnopeudet tuloaaltomuotoon, voidaan rakentaa tehokkaampia koodereita. Edelleen 25 järjestelmien, jotka pyrkivät dynaamisesti säätämään muuttuvanopeuksisen vokooderin lähdön datanopeutta, £! pitäisi vaihtaa datanopeuksia tulopuheen ominaisuuksi- o cm en mukaan saavuttaakseen optimaalisen puhelaadun halu- o tulla keskimääräisellä datanopeudella.
i cm 30 x Esillä oleva keksintö on uusi ja kehittynyt menetelmä ja laite aktiivisten puhekehysten koodaami-
(M
'M- seksi alennetulla datanopeudella koodaamalla puheke- ° hykset nopeuksilla väliltä ennalta määrätty maksimino-
O
^ 35 peus ja ennalta määrätty miniminopeus. Esillä oleva keksintö nimeää aktiivisen puheen toimintatilajoukon. Esillä olevan keksinnön esimerkkisovellutuksessa on 9 neljä aktiivisen puheen toimintatilaa, täyden nopeuden puhe, puolen nopeuden puhe, ei-kuuluva neljännesnopeu-den puhe ja kuuluva neljännesnopeuden puhe.
Esillä olevan keksinnön tarkoituksena on tuo-5 da esiin optimoitu menetelmä koodaustilan valitsemiseksi, mikä aikaansaa tulopuheen nopeudeltaan tehokkaan koodauksen. Esillä olevan keksinnön toisena tarkoituksena on identifioida parametrijoukko, joka sopii ihanteellisesti tällaiseen toiminnallisen tilan valin-10 taan ja antaa välineet tämän parametrijoukon generoimiseksi. Kolmanneksi esillä olevan keksinnön tarkoituksena on aikaansaada kahden erillisen toiminnan tunnistaminen, mikä sallii pieninopeuksisen koodauksen laadun minimiuhrauksin. Kaksi toimintaa ovat ei-15 kuuluvan puheen läsnäolo ja väliaikaisesti maskatun puheen läsnäolo. Esillä olevan keksinnön neljäntenä tarkoituksena on aikaansaada menetelmä puhekooderin } keskimääräisen datalähdön nopeuden dynaaminen säätö minimaalisin vaikutuksin puheen laatuun.
20 Esillä oleva keksintö aikaansaa joukon no- peuspäättelykriteereitä, joita pidetään tilamittoina. Ensimmäinen tilamitta on kohdesovituksen signaali-kohinasuhde (TMSNR) edellisestä koodauskehyksestä, joka antaa tiedon kuinka hyvin syntetisoitu puhe vastaa 25 tulopuhetta, tai toisinsanoen kuinka hyvin koodausmal-li toimii. Toinen tilamitta on normalisoitu autokorre-laatiofunktion (NACF) , joka mittaa puheen jaksolli-cm suutta. Kolmas tilamitta on nollan ylitysten paramet- i o ri, joka on laskennallisesti yksinkertainen menetelmä <m 30 tulopuheen korkeiden taajuuksien selvittämiseen. Nel- x jäs mitta on ennustevahvistuksen ero (PGD) , joka mää- cc “ rittää ylläpitääkö LPC-malli ennustetehokkuutensa.
Viides mitta on tehoero (ED), joka vertaa nykyisen ke- ° hyksen tehoa keskimääräiseen tehoon, o ^ 35 Esillä olevan keksinnön mukaisen vokoodausal- goritmin esimerkkisovellutus käyttää viittä yllä lueteltua tilamittaa valitakseen koodaustilan aktiivisel- 10 le puhekehykselle. Esillä olevan keksinnön mukainen nopeuspäättelylogiikka vertaa NAFC:tä ensimmäiseen kynnysarvoon ja ZC:tä toiseen kynnysarvoon määrittääkseen, onko puhe koodattava ei-kuuluvana neljännesnope-5 udella.
Jos määritetään, että aktiivinen puhekehys sisältää kuuluvaa puhetta, vokooderi tutkii parametrin ED määrittääkseen pitäisikö puhekehys koodata neljän-nesnopeuden kuuluvana puheena. Jos selviää, että pu-10 hetta ei saa koodata neljännesnopeudella, niin vokooderi testaa voidaanko puhe koodata puolella nopeudella. Vokooderi testaa arvon TMSNR:n, PGD:n ja NACF:n arvot määrittääkseen voidaanko puhekehys koodata puolella nopeudella. Jos selviää, että aktiivista puheke-15 hystä ei voi koodata neljännes- tai puolella nopeudella, niin kehys koodataan täydellä nopeudella.
Vielä keksinnön kohteena on tuoda esiin menetelmä kynnysarvojen dynaamiseksi muuttamiseksi nopeus-vaatimusten sovittamiseksi. Vaihtamalla yhtä tai use-20 ampaa tilanvalintakynnystä on mahdollista lisätä tai vähentää keskimääräistä lähetysnopeutta. Näin ollen säätämällä kynnysarvoja dynaamisesti, lähtönopeutta voidaan muuttaa.
Esillä olevan keksinnön muodot, tarkoitukset 25 ja edut tulevat selvemmiksi seuraavasta yksityiskoh taisesta kuvauksesta viitaten oheisiin piirustuksiin, ^ joissa on samat viitenumerot kauttaaltaan ja joissa: '' o kuvio 1 on lohkokaavio, joka esittää esillä co olevan keksinnön mukaista koodausnopeuden määrityslai- 0 ^ 30 tetta,· ja kuvio 2 on vuokaavio, joka esittää nopeus-
X
£ päättelylogiikan koodausnopeuden valintaprosessia.
01 Esimerkkisovellutuksessa koodataan 160 puheen näytteen puhekehyksiä. Esillä olevan keksinnön esi- h-· § 35 merkkisovellutuksessa on neljä datanopeutta; täysino-
CM
peus, puolinopeus, neljäsosanopeus ja kahdeksasosano- peus. Täysinopeus vastaa lähtödatan nopeutta 14.4 11 kbps. Puolinopeus vastaa lähtödatan nopeutta 7.2 kbps.
Neljäsosanopeus vastaa lähtödatan nopeutta 3.6 kbps. Kahdeksasosanopeus vastaa lähtödatan nopeutta 1.8 kbps, ja se varataan hiljaisuuden aikana tapahtuviin 5 lähetyksiin.
On huomattava, että esillä oleva keksintö liittyy ainoastaan aktiivisten kehysten, kehysten, joissa on tunnistettu puhetta, koodaamiseen. Puheen tunnistaminen kehyksessä suoritetaan menetelmällä, jo-10 ka on kuvattu yksityiskohtaisemmin yllä mainituissa patenttijulkaisuissa US 08/004,484 ja 07/948,602.
Viitaten kuvaan l] tilamittauselementti 12 ! määrittää päättelylogiikan 14 aktiivisen kehyksen koo daamiseen käytettävän koodausnopeuden määrittämiseen , 15 käyttämien viiden parametrin arvot. Esimerkkisovellu- I tuksessa tilamittauselementti 12 määrittää viisi para- l metriä, jotka se antaa päättelylogiikalle 14. Perustu en tilamittauselementin 12 antamiin parametreihin, päättelylogiikka 14 valitsee koodausnopeudeksi täyden-20 , puoli- tai neljäsosanopeuden.
Nopeuden päättelylogiikka 14 valitsee yhden neljästä koodaustilasta viiden muodostetun parametrin mukaan. Neljä koodaustilaa käsittää täyden nopeuden tilan, puolen nopeuden tilan ei-kuuluvan neljäsosano-25 peuden tilan ja kuuluvan neljäsosanopeuden tilan. Kuuluva neljäsosanopeuden tila ja ei-kuuluva neljäsosano- ^ peuden tila antavat dataa samalla nopeudella, mutta o . , cm erilaisilla koodaustavoilla. Puolen nopeuden tilaa o käytetään pysyvän, jaksollisen hyvin mallinnetun pu- £! 30 heen koodaamiseen. Sekä kuuluva neljäsosanopeuden, ei- x kuuluva neljäsosanopeuden ja puolen nopeuden koodaus käyttävät hyväkseen puhealueita, jotka eivät vaadi
CM
g suurta tarkkuutta kehyksen koodaamisessa.
° Neljäsosanopeuden ei-kuuluvaa tilaa käytetään
O
^ 35 ei-kuuluvan puheen koodaamiseen. Neljäsosanopeuden kuuluvaa tilaa käytetään väliaikaisesti maskattujen puhekehyksien koodaamiseen. Useimmat CELP puhekooderit 12 käyttävät hyväkseen samanaikaista maskausta, jossa pu-heteho annetulla taajuudella maskaa pois kohinatehon samalla taajuudella ja hetkellä tehden kohinan kuulumattomaksi. Muuttuvanopeuksiset puhekooderit voivat 5 käyttää hyväkseen väliaikaista maskausta, missä pienitehoiset aktiiviset puhekehykset maskataan edeltävällä saman taajuuden sisältävällä suuritehoisella puheke-hyksellä. Koska ihmiskorva integroi tehoa ajan suhteen eri taajuuskaistoilla, pienitehoiset kehykset keskiar-10 voistetaan suuritehoisten kehysten kanssa vähentäen siten koodaustarvetta pienitehoisille kehyksille. Tämän väliaikaisen kuulomaskausilmiön hyväksikäyttö mahdollistaa muuttuvanopeuksisen puhekooderin vähentää , koodausnopeutta tämän puhetilan aikana. Tämä fysioa- i 15 kustinen ilmiö kuvataan yksityiskohtaisemmin artikke- ! lissa Psychoacoustics by E. Zwicker and H. Fasti, pp.
56 - 101.
Tilamittauselementti 12 vastaanottaa neljä tulosignaalia, joilla se generoi viisi tilaparametria. 20 Ensimmäinen signaali, jonka tilamittauselementti 12 vastaanottaa on S(n), joka on koodaamaton tulopuhenäy-te. Esimerkkisovellutuksessa puhenäytteet annetaan kehyksissä, jotka sisältävät 160 puhenäytettä. Puheke- hykset, jotka annetaan tilamittauselementtiin 12 si-25 sältävät kaikki aktiivista puhetta. Hiljaisuuden aikana keksinnön mukainen aktiivinen puhenopeustunnistus- järjestelmä on epäaktiivinen. o ....
cm Toinen signaali, jonka tilamittauselementti o 12 vastaanottaa on syntetisoitu puhenäytesignaali cm 30 (AS), joka on dekoodattua puhetta muuttuvanopeuksisen x CELP kooderin dekooderilta. Kooderin dekooderi dekoo- cc daa koodatun puhekehyksen suodattimen ja muistin para- <M . .........
^ metrien päivittämistä varten synteesipohjaisen CELP
kooderin analyysissä. Sellaisten dekoodereiden suun-
O
° 35 nittelu on tunnettua ja esitetään yksityiskohtaisemmin edellä mainitussa patenttijulkaisussa US 08/004,484.
13
Kolmas signaali, jonka tilamittauselementti 12 vastaanottaa on formanttiresiduaalisignaali e (n). Formanttiresiduaalisignaali on CELP kooderin lineaarisen ennustavan koodauksen (LPC) suodattimena suoda-5 tettu puhesignaali. LPC-suodattimien suunnittelu ja signaalien suodattaminen niillä on tunnettua ja esitetään yksityiskohtaisemmin edellä mainitussa patenttijulkaisussa US 08/004,484. Neljäs tulo tilamittausele-menttiin 12 on A(z), jotka ovat suodattimen kerroin-10 arvoja havainnollisesti painottavassa suodattimessa CELP kooderissa. Kerroinarvojen generointi ja havainnollisesti painottavan suodattimen toiminta on tunnettua ja esitetään yksityiskohtaisemmin edellä mainitussa patenttijulkaisussa US 08/004,484.
15 Kohdesovituksen signaali-kohinasuhteen(SNR)- laskentaelementti 2 vastaanottaa syntetisoidun puhe-signaalin, AS(n), puhenäytteet S (n) ja joukon havainnollisesti painottavan suodattimen kerroinarvoja A(z). Kohdesovituksen SNR laskentaelementti 2 antaa paramet-20 rin, jota pidetään parametrina TMSNR ja joka osoittaa miten hyvin mallinnettu puhe seuraa tulopuhetta. Kohdesovituksen SNR laskentaelementti 2 generoi TMSNR:n alla olevan yhtälön 1 mukaan: 150 EL» TMSNR = 10 \og Ts—Jä--(l) g(S„(n)-§„(«»’ CM L"=0 o 25 missä alaindeksi w tarkoittaa, että siqnaali on suoda-
CM
tettu havainnollisesti painottavalla suodattimena, o
CM
Huomaa, että tämä mitta lasketaan edelliselle puheke-
X
£ hykselle, kun taas NACF, PGD, ED, ZC lasketaan nykyi- cm 30 selle puhekehykselle. TSMNR lasketaan edelliselle pu- o hekehykselle, koska se on valitun koodausnopeuden i^.
g funktio ja siten laskennan monimutkaisuuden vuoksi se ^ lasketaan edelliselle kehykselle koodattavana olevasta kehyksestä.
14
Havainnollisesti painottavien suodattimien suunnittelu ja toteutus on tunnettua ja esitetään yksityiskohtaisemmin edellä mainitussa patenttijulkaisussa US 08/004,484. On huomattava, että havainnollis-5 ta painotusta (perceptual weighting) pidetään puheke-hyksen havainnollisesti merkittävien osien painottamisena, Kuitenkin on havaittu, että mittaus voidaan tehdä ilman signaalien havainnollista painottamista.
Normalisoidun autokorrelaation laskentaele-10 mentti 4 antaa tiedon puheen jaksollisuudesta puheke-hyksessä. Normalisoidun autokorrelaation laskentaelementti 4 generoi parametrin NACF alla olevan yhtälön 2 mukaan: 159 £e(u)-e(n-T) NACF = max —.--- Σ*» (2) Λ2 —0
Te [20,120] 15 On huomattava, että tämän parametrin generointi vaatii edellisen kehyksen koodauksen formanttiresiduaalisig-naalin muistamisen. Tämä mahdollistaa ei ainoastaan jaksollisuuden testaamisen vaan myös nykyisen kehyksen jaksollisuuden testaamisen edelliseen kehykseen näh-20 den.
Syy, että esimerkkisovellutuksessa käytetään formanttiresiduaalisignaalia e (n) puhenäytteiden S (n), joita voitaisiin käyttää NACF:n muodostamisessa, si-S jaan, on eliminoida formanttien vuorovaikutus puhesig-
CM
^ 25 naaliin. Puhesignaalin siirtäminen formanttisuodatti- ^ men lävitse auttaa puheen verhokäyrän alentamisessa ja vaalentaa siten saatavaa signaalia. On huomattava, et-| tä viiveen T arvot esimerkkisovellutuksessa vastaavat cg astetaajuuksia 66 Hz:n ja 400 Hz:n välillä näytteis- g 30 tystaajuudella 8000 näytettä sekunnissa. Astetaajuus o annetulle viivearvolle lasketaan yhtälöllä 3 alla: CM f fste = y , missä f on nä yttestystaajuus. (3) 15
On huomattava, että taajuusaluetta voidaan laajentaa tai supistaa yksinkertaisesti valitsemalla eri vii-vearvojoukko. Lisäksi on huomattava, että esillä oleva keksintö soveltuu samalla tavoin mille tahansa näyt-5 teistystaajuudelle.
Nollan ylitysten lukumäärän laskin 6 vastaanottaa puhenäytteet S(n) ja laskee puhenäytteen merkin-vaihdon kertojen määrän. Tämä on laskennallisesti helppo menetelmä korkeataajuisten komponenttien tun-10 nistamiseksi puhesignaalissa. Tämä laskin voidaan toteuttaa ohjelmallisesti seuraavanlaisella silmukalla: cnt=0 (4) for n=0,158 (5) if (S(n)*S(n+l)<0) cnt++ (6) 15 Yhtälöiden 4-6 muodostama silmukka kertoo peräkkäiset puhenäytteet ja testaa onko tulo pienempi kuin nolla, mikä osoittaa, että kahden peräkkäisen näytteen merkki on eri. Tämä olettaa, että puhesignaalissa ei ole DC-komponenttia. DC-komponentin poistaminen on sinänsä 20 tunnettua.
Ennustevahvistuksen eroelementti 8 vastaanottaa puhesignaalin ja formanttiresiduaalisignaalin e(n). Ennustevahvistuksen eroelementti 8 generoi parametrin PGD, joka määrittää ylläpitääkö LPC-malli en-25 nustustehokkuutensa. Ennustevahvistuksen eroelementti 8 generoi ennustevahvistuksen, Pg, alla olevan yhtälön 7 mukaan:
CVJ
T" 159 8 Zs» ch p — -- /7)
O g 159 \'J
ή Σe» ^ n=0 ϊ Nykyisen kehyksen ennustevahvistusta verrataan edelli-
CL
30 sen kehyksen ennustevahvistukseen generoitaessa lähtö-parametri PGD alla olevalla yhtälöllä 8: o f P (i) 1 o PDG = 10-log —-- . missä i viitaakehystmmeroon (8) 16
Edullisessa sovellutuksessa ennustevahvistuksen eroe-lementti 8 ei generoi ennustevahvistuksen Pg arvoja. LPC vakioiden generoinnissa Durbinin rekursion oheis-tulo on ennustevahvistus Pg, joten laskennan toistami-5 nen ei ole tarpeen.
Kehystehon eroelementti 10 vastaanottaa nykyisen kehyksen puhenäytteet s (n) ja laskee puhesignaalin tehon nykyisessä kehyksessä alla olevan yhtälön 9 mukaan: 159 10 E^^S» (9) n=ö
Nykyisen kehyksen tehoa verrataan edellisten kehysten keskimääräiseen tehoon, Eave. Esimerkkisovellutuksessa keskimääräinen teho generoidaan vuotointegraattorilla, joka on muotoa: 15 Eave = cc«Eave + (l-a)*Eif missä 0<oc<l (10)
Kerroin a määrittää kehykset, jotka ovat relevantteja laskennassa. Esimerkkisovellutuksessa a asetaan arvoon 0.8825, joka antaa kahdeksan kehyksen aikavakion. Kehystehon eroelementti 10 generoi seuraavaksi paramet-20 rin ED alla olevan yhtälön 11 mukaan:
1 E
ED = 10-log—L (11) ®ivs
Viisi parametria, TSMNR, NACF, ZC, PGD ja Ed annetaan nopeuden päättelylogiikalle 14. Nopeuden päättelylogiikka 14 valitsee koodausnopeuden seuraa- 25 valle näytekehykselle parametrien ja ennalta määrätyn o valintasäännöstön mukaan. Viitaten nyt kuvaan 2 esite- c\i ^ tään vuokaavio, joka esittää nopeuden päättelylogiikan o ^ 14 nopeusvalmtaprosessia.
Nopeuden valintaprosessi alkaa lohkosta 18.
X
£ 30 Lohkossa 20 normalisoidun autokorrelaatioelementin 4 cm lähtöä NAFC verrataan ennalta määrättyyn kynnysarvoon § THR1 ja nollan ylitysten laskentaelementin lähtöä ver- |— o rataan toiseen ennalta määrättyyn kynnysarvoon THR2.
^ Jos NAFC on pienempi kuin THR1 ja ZC on suurempi kuin 35 THR2, niin edetään lohkoon 22, joka koodaa puheen nel- 17 jäsosanopeuden ei "kuuluvana. Se että NACF on alle ennalta määrätyn kynnyksen indikoi jaksollisuuden puuttumista puheesta ja että ZC on suurempi kuin ennalta määrätty kynnys indikoi suurta taajuuskomponenttia pu-5 heessa. Näiden kahden tilan yhdistelmä indikoi, että kehys sisältää ei-kuuluvaa puhetta. Esimerkkisovellu-tuksessa THR1 on 0.35 ja THR2 on 50 nollan ylitystä.
Jos NACF ei ole pienempi kuin THR1 tai ZC ei ole suurempi kuin THR2, niin edetään lohkoon 24.
10 Lohkossa 24 kehystehon eroelementin 10 lähtöä ED verrataan kolmanteen kynnysarvoon THR3. Mikäli ED on pienempi kuin THR3, niin nykyinen kehys koodataan neljäsosanopeuden kuuluvana puheena lohkossa 26. Mikäli tehoero nykyisen kehyksen välillä on pienempi kuin 15 keskimäärin enemmän kuin yhden kynnyksen verran, niin tunnistetaan väliaikaisesti maskatun puheen tila. Esi-merkkisovellutuksessa THR3 on -14 dB. Mikäli ED ei ylitä THR3:a, niin edetään lohkoon 28. Lohkossa 28 kohdesovituksen SNR:n laskentaelementin 2 lähtöä TMSNR 20 verrataan neljänteen kynnysarvoon THR4; ennustevahvis-tuksen eroelementin lähtöä PGD verrataan viidenteen kynnysarvoon THR5; ja normalisoidun autokorrelaation laskentaelementin lähtöä verrataan kuudenteen kynnysarvoon THR6. Jos TMSNR ylittää THR4:n,* PGD on pienempi 25 kuin THR5; ja NACF ylittää THR6:n, niin edetään lohkoon 30 ja puhe koodataan puolella nopeudella. Se että ^ TMSNR ylittää kynnyksen indikoi, että malli ja mallin- * o nettava puhe vastasivat toisiaan hyvin edellisessä ke- cö hyksessä. Se että parametri PGD on pienempi kuin en- o ^ 30 naita määrätty kynnys indikoi, että LPC malli ylläpi- tää ennustetehokkuutensa. Se että parametri NACF ylitti: tää sen ennalta määrätyn kynnyksen indikoi, että kehys · w sisältää jaksollista puhetta, joka on jaksollista o edelliseen kehykseen nähden. ; h~ § 35 Esimerkkisovellutuksessa THR4 asetetaan alus-
(M
sa 10 dB:nn, THR5 asetaan -5 dB:nn ja THR6 asetetaan 0.4. Lohkossa 28, jos TMSNR ei ylitä THR4: aä tai PGD
18 ei ylitä THR5: tä tai NACF ei ylitä THR6; ta, niin edetään lohkoon 32 ja nykyinen puhekehys koodataan täydellä nopeudella.
Säätämällä dynaamisesti kynnysarvoja, voidaan 5 saavuttaa mielivaltaisesti kaiken kattava data. Kaiken kattava keskimääräinen aktiivisen puheen datanopeus R voidaan määrittää analyysia varten ikkunan W aktiivisina puhekehyksinä seuraavasti:
Rf #Rf kehykset + Rhkehykset + Rq #Rq - kehykset R= ^ (12) 10 missä Rf on täydellä nopeudella koodattujen kehysten datanopeus,
Rh on puolella nopeudella koodattujen kehysten datanopeus,
Rq, on neljäsosanopeudella koodattujen kehysten da-15 tanopeus, j a ! W=#Rf-kehys ten+#Rh-kehysten+#Rq-kehys ten
Kertomalla kukin koodausnopeus sillä nopeudella koo- i dattujen kehysten lukumäärällä ja tulos jakamalla kehysten kokonaismäärällä näytteessä, voidaan laskea ak-20 tiivisen puheen keskimääräinen datanopeus. On tärkeää, että kehysnäytteen koko, W, on riittävän suuri pitkien ei-kuuluvien puhejaksojen ehkäisemiseksi, kuten esimerkiksi venytetty "s" kuulostaa häiriöltä keskimääräisessä puhetilastossa. Esiraerkkisovellutuksessa ke-25 hysnäytteen koko W laskentaa varten keskimääräisellä nopeudella on 400 kehystä.
CM
q Keskimääräistä datanopeutta voidaan vähentää
CM
^ lisäämällä täydellä nopeudella koodattujen kehysten 9 määrää koodattavaksi puolella nopeudella, ja päinvas-
CM
30 toin keskimääräistä datanopeutta voidaan kasvattaa li- | säämälla puolella nopeudella koodattavien datakehysten ^ määrää koodattavaksi täydellä nopeudella. Edullisessa g sovellutuksessa kynnys, jota säädetään tämän vaikutuk- o sen aikaansaamiseksi on THR4. Esimerkkisovellutuksessa o ^ 35 TSNR:n arvojen histogrammi talletetaan. Esimerkkiso vellutuksessa tallennetut TMSNR arvot kvantisoidaan 19 kokonaislukudesibeliarvoiksi THR:n nykyisistä arvoista. Ylläpitämällä tämän kaltaista histogrammia, voidaan helposti arvioida montako kehystä olisi muuttunut edellisessä analyysissä koodattavaksi puolella nopeu-5 della täyden nopeuden koodauksesta jos THR4:ä olisi pienennetty kokonaisluvulla desibeleinä. Päinvastoin, voidaan helposti arvioida montako kehystä olisi muuttunut edellisessä analyysissä koodattavaksi täydellä nopeudella puolen nopeuden koodauksesta jos THR4:ä 10 olisi kasvatettu kokonaisluvulla desibeleinä.
Kaava, jolla määritetään ^ nopeudesta täyteen nopeuteen muuttuneiden määrä, määritetään yhtälöllä 13 : ^ [kohdenopeus - keskim. nopeus]-W ~ R^-Rh 15 missä Δ on puolella nopeudella olevien kehysten määrä, jotka pitäisi koodata täydellä nopeudella kohdenopeu-den ylläpitämiseksi, ja W=#Rf-kehysten+#Rll-kehysten+#Rq-kehysten.
TMSNR^.,, = TMSNRold + (dB: ien määrä 20 TMSNRolj, : is ta Δ kehyserojen saavuttamiseksi määritettynä yhtälöllä 13 yllä)
Huomaa, että TMSNR:n alkuarvo on halutun kohdenopeuden funktio. Esimerkkisovellutuksen kohdenopeudella 8.7 kbps, järjestelmässä arvoilla Rf = 14.4 kbps, Rf = 7.2 25 kbps, Rq = 3.6 kbps, TMSNRrn alkuarvo on 10 dB. On ^ huomattava, että kvantisoimalla TMSNR arvot kokonaisen lukuihin etäisyydelle kynnyksestä THR4 voidaan helposti ti muodostaa hienompi jaotus, kuten puoli- tai neljäs- o ^ osadesibelejä tai voidaan tehdä karkeammaksi, kuten 30 puolitoista tai kaksi desibeliä.
X
£ On havaittu, että kohdenopeus voidaan joko c\i tallettaa päättelylogiikkaelementin 14 muistiin, jol- o loin kohdenopeus olisi staattinen arvo, jonka mukaan n.
§ THR4 arvo dynaamisesti määritettäisiin. Lisäksi tälle c\j 35 kohdenopeudelle on havaittu, että tietoliikennejärjestelmä voi lähettää nopeuskomentosignaalin koodausno- 20 peuden valitsinlaitteelle perustuen järjestelmän kapasiteetin nykyiseen tilaan.
Nopeuskomentosignaali voi joko spesifioida kohdenopeuden tai se voi yksinkertaisesti vaatia lisä-5 ystä tai pienennystä keskimääräiseen nopeuteen. Jos järjestelmä määrittäisi kohdenopeuden, sitä voitaisiin käyttää määritettäessä THR4:n arvoa yhtälöillä tila-mittauselementti 12 ja 13. Jos järjestelmä spesifioisi vain sen, että käyttäjän pitäisi lähettää suuremmalla 10 tai pienemmällä lähetysnopeudella, nopeuden päättely-logiikka 14 voisi vastata vaihtamalla THR4 arvoa ennalta määrätyllä lisäyksellä tai laskea muutoksen ennalta määrätyn lisäävän lisäyksen tai vähennyksen mukaan nopeudessa.
15 Lohkot 22 ja 26 indikoivat eroa puheen koo dausmenetelmässä perustuen joko puhenäytteisiin, jotka edustavat kuuluvaa tai ei-kuuluvaa puhetta. Ei-kuuluva puhe on hankausäänteen ja konsonanttiäänteen muodossa olevaa puhetta, kuten "f", "s", "sh", "t" ja "z". Nel-20 jäsosanopeuden kuuluva puhe on väliaikaisesti maskat-tua puhetta, missä hiljaa kuuluva puhekehys seuraa suhteellisen voimakasta puhekehystä samalla taajuussi-sällöllä. Ihmiskorva ei kykene kuulemaan puheen hienopisteitä alhaisella voimakkuudella, joka seuraa 25 korkeavoimakkuuksista kehystä, joten bittejä voidaan säästää koodaamalla tämä puhe neljännesnopeudella. Ei-^ kuuluvan neljäsosanopeuden koodauksen esimerkkisovel- o lutuksessa puhekehys jaetaan neljään alikehykseen.
Co Kaikki mikä lähetetään kullekin neljästä alikehyksestä o ^ 30 on vahvistusarvo G ja LPC-suodattimen kertoimet A(z) .
Esimerkkisovellutuksessa lähetetään viisi bittiä edus-
X
£ taen vahvistusta kussakin alikehyksessä. Dekooderissa gj kullekin alikehykselle valitaan koodikirjaindeksi sa- o tunnaisesti. Satunnaisesti valittu koodikirjavektori r- § 35 kerrotaan lähetetyllä vahvistusarvolla ja annetaan
C\J
LPC-suodattimen läpi, A(z), syntetisoiden ei-kuuluvan puheen generoimiseksi.
21
Kuuluvan neljäsosanopeuden koodauksessa puhe-kehys jaetaan kahteen alikehykseen ja CELP kooderi määrittää koodikirjaindeksin ja vahvistuksen kullekin alikehykselle. Esimerkkisovellutuksessa viisi bittiä 5 allokoidaan koodikirjaindeksin spesifioimiseksi ja toiset viisi bittiä allokoidaan vastaavan vahvistusar-von spesifioimiseksi. Esimerkkisovellutuksessa kuuluvan neljäsosanopeuden koodauksessa käytetty koodikirja on puolen ja täyden nopeuden koodauksen käytetyn koo-10 dikirjan vektorialijoukko. Esimerkkisovellutuksessa seitsemää bittiä käytetään koodikirjaindeksin spesifi-oimiseksi täyden ja puolen nopeuden koodaustiloissa.
Kuvassa 1 lohkot voidaan toteuttaa rakenteellisina lohkoina haluttujen toimintojen suorittamiseen 15 tai lohkot voivat edustaa funktioita, jotka on suoritettu digitaalisten signaaliprosessorien (DSP) tai sovelluskohtaisten integroitujen piirien ohjelmoimiseksi. Esillä olevan keksinnön toiminnan kuvaus antaa ammattimiehelle edellytykset toteuttaa esillä oleva kek-20 sintö DSP:lie tai ASICille ilman kohtuutonta kokemusta.
Edellä oleva edullisten sovellutusten kuvaus annetaan, jotta ammattimies voisi käyttää tai valmistaa esillä olevan keksinnön mukaista laitetta. Näiden sovel-25 lutusten eri modifikaatiot ovat ammattimiehille ilmeisiä ja tässä kuvatut yleiset periaatteet ovat sovelletrevises sa muihin sovellutuksiin keksimättä mitään uutta. Näin δ ollen esillä olevaa keksintöä ei rajata tässä esitettyä- cf) hin sovellutuksiin vaan tässä esitettyjen periaatteiden o ^ 30 ja uusien hahmojen käsittämään suojapxirin.
X
cc
CL
C\l
V
CD
O
h-·
O
O
(V

Claims (23)

22
1. Menetelmä puhekehyksen koodaamiseksi, tunnettu siitä, että se käsittää vaiheet: 5 johdetaan useita kehysparametreja; valitaan (20) ensimmäinen koodausmoodi, jos normalisoitu autokorrelaation mittausparametri (NACF) ylittyy ensimmäisellä kynnysarvolla ja jos nollaylitysten lukemaparametri (ZC) 10 ylittää toisen kynnysarvon; valitaan (24) toinen koodausmoodi, jos ensimmäistä koodausmoodia ei valita ja jos ener-giadifferentiaalimittausparametri (ED) ylittyy kolmannella kynnysarvolla; 15 valitaan (28) kolmas koodausmoodi, jos ensim mäistä ja toista koodausmoodia ei valita ja jos koodauslaatuparametri (TMSNR) ylittää neljännen kynnysarvon ja jos ennustevahvis-tusdifferentiaalimittausparametri (PGD) ylit-20 tyy viidennellä kynnysarvolla ja jos normali soitu autokorrelaation mittausparametri (NACF) ylittää kuudennen kynnysarvon; valitaan neljäs koodausmoodi, jos ensimmäistä, toista ja kolmatta koodausmoodia ei ole 25 valittu; ja c\i o koodataan puhekehys valitun koodausmoodin mu- kaisesti. cp (M X cc CL cvj 30
2. Patenttivaatimuksen 1 mukainen menetelmä, £§ tunnettu siitä, että ensimmäinen koodausmoodi on i'- o neljasosanopeuksinen, soinnittoman puheen koo- 0X1 dausmoodi, toinen koodausmoodi on neljäsosano- 23 peuksinen, soinnillisen puheen koodausmoodi, kolmas koodausmoodi on puolinopeuksinen koodausmoodi, ja neljäs koodausmoodi on täysinopeuksinen koodausmoodi. 5
3. Patenttivaatimuksen 2 mukainen menetelmä, tunnettu siitä, että neljäsosanopeuksinen, soinnittoman puheen koodausmoodi käsittää puhekehyk-sen jakamisen neljään alikehykseen ja vahvis- 10 tusarvon ja useiden lineaarisen ennustavan kooda uksen suodattimen vakioiden lähettämisen jokaiselle alikehykselle.
4. Patenttivaatimuksen 3 mukainen menetelmä, 15 tunnettu siitä, että vahvistusarvoa edustetaan viidellä digitaalibitillä.
5. Patenttivaatimuksen 4 mukainen menetelmä, tunnettu siitä, että neljäsosanopeuksinen, soin- 20 nillisen puheen koodausmoodi käsittää puhekehyk- sen jakamisen kahteen alikehykseen ja koodikir-jaindeksin ja vahvistusarvon määräämisen jokaiselle alikehykselle. cm 25
6. Patenttivaatimuksen 5 mukainen menetelmä, ^ tunnettu siitä, että vahvistusarvoa edustetaan g viidellä digitaalibitillä ja koodikirjaindeksiä cm edustetaan viidellä digitaalibitillä. x cc CL cm 30
7. Patenttivaatimuksen 6 mukainen menetelmä, g tunnettu siitä, että koodauslaatuparametri on o suhde, joka ilmaisee vastaavuudesta aikaisemman CM 24 puhekehyksen ja siitä johdetun syntetisoidun pu-hekehyksen välillä.
8. Patenttivaatimuksen 7 mukainen menetelmä, 5 tunnettu siitä, että lisäksi käsittää vaiheen ai nakin yhden kynnysarvoista vaihtelemiseksi keskimääräisen koodausnopeuden säätämiseksi useille puhekehyksille.
9. Patenttivaatimuksen 8 mukainen menetelmä, tunnettu siitä, että ainakin yksi kynnysarvo on neljäs kynnysarvo.
10. Patenttivaatimuksen 8 mukainen menetelmä, 15 tunnettu siitä, että keskimääräistä koodausnope- utta alennetaan koodaamalla useita puhekehyksiä puolinopeudella, jossa puolinopeudella koodatut useat puhekehykset ovat puhekehyksiä, jotka valittiin koodattavaksi täysinopeudella. 20
11. Patenttivaatimuksen 8 mukainen menetelmä, tunnettu siitä, että keskimääräistä koodausnope-utta nostetaan koodaamalla useita puhekehyksiä täysinopeudella, jossa täysinopeudella koodatut cm 25 useat puhekehykset ovat puhekehyksiä, jotka va- ^ Iittiin koodattavaksi puolinopeudella. i co o CM
12. Koodausnopeuden määräämislaite puhekooderissa x £ koodaamaan puhekehys käsittäen: §! 30 välineet (12) johtamaan useita kehysparamet- CD ^ reja; ja tunnettu: o o ... , cm vaimeista (14) valitsemaan ensimmäinen koo- dausmoodi, jos normalisoitu autokorrelaation 25 mittausparametri ylittyy ensimmäisellä kynnysarvolla ja jos nollaylitysten lukemapara-metri ylittää toisen kynnysarvon, valitaan toinen koodausmoodi, jos ensimmäistä koodaus-5 moodia ei valita ja jos energiadifferentiaa- limittausparametri ylittyy kolmannella kynnysarvolla, valitaan kolmas koodausmoodi, jos ensimmäistä ja toista koodausmoodia ei valita ja jos koodauslaatuparametri ylittää neljän-10 nen kynnysarvon ja jos ennustevahvistusdiffe- rentiaalimittausparametri ylittyy viidennellä kynnysarvolla ja jos normalisoitu autokorrelaation mittausparametri ylittää kuudennen kynnysarvon, ja valitaan neljäs koodausmoodi, 15 jos ensimmäistä, toista ja kolmatta koodaus- moodia ei valita.
13. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että ensimmäinen koodausmoodi on 20 neljäsosanopeuksinen, soinnittoman puheen koo dausmoodi, toinen koodausmoodi on neljäsosano-peuksinen, soinnillisen puheen koodausmoodi, kolmas koodausmoodi on puolinopeuksinen koodausmoodi, ja neljäs koodausmoodi on täysinopeuksinen 25 koodausmoodi. OJ
14. Patenttivaatimuksen 13 mukainen laite, tun- c\j ^ nettu siitä, että neljäsosanopeuksinen, soinnit- o ^ toman puheen koodausmoodi käsittää puhekehyksen 30 jakamisen neljään alikehykseen, ja vahvistusarvon X £ ja useiden lineaarisen ennustavan koodauksen suo- (M dattimen vakioiden lähettämisen jokaiselle alike- g hykselle. N- O O (M 26
15. Patenttivaatimuksen 14 mukainen laite, tunnettu siitä, että vahvistusarvoa edustetaan viidellä digitaalibitillä.
16. Patenttivaatimuksen 13 mukainen laite, tun nettu siitä, että neljäsosanopeuksinen, soinnillisen puheen koodausmoodi käsittää puhekehyksen jakamisen kahteen alikehykseen ja koodikirjain-deksin ja vahvistusarvon määräämisen jokaiselle 10 alikehykselle.
17. Patenttivaatimuksen 16 mukainen menetelmä, tunnettu siitä, että vahvistusarvoa edustetaan viidellä digitaalibitillä ja koodikirjaindeksiä 15 edustetaan viidellä digitaalibitillä.
18. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että koodauslaatuparametri on suhde, joka ilmaisee vastaavuudesta aikaisemman puheke- 20 hyksen ja siitä johdetun syntetisoidun puhekehyk sen välillä.
19. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että lisäksi käsittää välineet vaih- cvj 25 telemaan ainakin yhtä kynnysarvoista keskimääräi- o cm sen koodausnopeuden säätämiseksi useille puheke- § hyksille. (M X a.
20. Patenttivaatimuksen 19 mukainen laite, tun— cm 30 nettu siitä, että ainakin yksi kynnysarvo on nel- 't o jäs kynnysarvo, r^. o o CM 27
21. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että keskimääräistä koodausnopeutta alennetaan koodaamalla useita puhekehyksiä puoli-nopeudella, jossa puolinopeudella koodatut useat 5 puhekehykset ovat puhekehyksiä, jotka valittiin koodattavaksi täydellä nopeudella.
22. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että keskimääräistä koodausnopeutta 10 nostetaan koodaamalla useita puhekehyksiä täysi- nopeudella, jossa täysinopeudella koodatut useat puhekehykset ovat puhekehyksiä, jotka valittiin koodattavaksi puolinopeudella.
23. Jonkin patenttivaatimuksen 12-22 laite, tun nettu siitä, että sanotut välineet (12) useiden kehysparametrien johtamiseksi käsittävät: moodimittauksen (12) laskin, joka on konfigu-roitu johtamaan sanottuja useita kehyspara- 20 metrejä; ja jossa sanotut välineet (14) va litsemaan käsittävät nopeuden määräämislogii-kan (14). OJ o (M 00 cp (M X en CL (M CD O N· O O (M 28
FI20070642A 1994-08-05 2007-08-24 Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi FI122726B (fi)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US28684294A 1994-08-05 1994-08-05
US28684294 1994-08-05
PCT/US1995/009780 WO1996004646A1 (en) 1994-08-05 1995-08-01 Method and apparatus for performing reduced rate variable rate vocoding
US9509780 1995-08-01

Publications (2)

Publication Number Publication Date
FI20070642A FI20070642A (fi) 2007-08-24
FI122726B true FI122726B (fi) 2012-06-15

Family

ID=23100400

Family Applications (2)

Application Number Title Priority Date Filing Date
FI961445A FI120327B (fi) 1994-08-05 1996-03-29 Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi
FI20070642A FI122726B (fi) 1994-08-05 2007-08-24 Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi

Family Applications Before (1)

Application Number Title Priority Date Filing Date
FI961445A FI120327B (fi) 1994-08-05 1996-03-29 Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi

Country Status (19)

Country Link
US (3) US5911128A (fi)
EP (2) EP1339044B1 (fi)
JP (4) JP3611858B2 (fi)
KR (1) KR100399648B1 (fi)
CN (1) CN1144180C (fi)
AT (2) ATE388464T1 (fi)
AU (1) AU689628B2 (fi)
BR (1) BR9506307B1 (fi)
CA (1) CA2172062C (fi)
DE (2) DE69535723T2 (fi)
ES (2) ES2343948T3 (fi)
FI (2) FI120327B (fi)
HK (1) HK1015184A1 (fi)
IL (1) IL114819A (fi)
MY (3) MY137264A (fi)
RU (1) RU2146394C1 (fi)
TW (1) TW271524B (fi)
WO (1) WO1996004646A1 (fi)
ZA (1) ZA956078B (fi)

Families Citing this family (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW271524B (fi) 1994-08-05 1996-03-01 Qualcomm Inc
CA2247427C (en) * 1996-03-27 2001-06-05 Motorola, Inc. Method and apparatus for providing a multi-party speech connection for use in a wireless communication system
US6765904B1 (en) 1999-08-10 2004-07-20 Texas Instruments Incorporated Packet networks
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
US6466912B1 (en) * 1997-09-25 2002-10-15 At&T Corp. Perceptual coding of audio signals employing envelope uncertainty
US6366704B1 (en) 1997-12-01 2002-04-02 Sharp Laboratories Of America, Inc. Method and apparatus for a delay-adaptive rate control scheme for the frame layer
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
US6912637B1 (en) * 1998-07-08 2005-06-28 Broadcom Corporation Apparatus and method for managing memory in a network switch
US6226618B1 (en) * 1998-08-13 2001-05-01 International Business Machines Corporation Electronic content delivery system
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP4308345B2 (ja) 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6574334B1 (en) 1998-09-25 2003-06-03 Legerity, Inc. Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
JP3152217B2 (ja) * 1998-10-09 2001-04-03 日本電気株式会社 有線伝送装置及び有線伝送方法
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
AU754877B2 (en) * 1998-12-28 2002-11-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and devices for coding or decoding an audio signal or bit stream
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
KR100648872B1 (ko) * 1999-02-08 2006-11-24 퀄컴 인코포레이티드 가변 레이트 음성 코딩에 기초한 음성 합성기
US6519259B1 (en) * 1999-02-18 2003-02-11 Avaya Technology Corp. Methods and apparatus for improved transmission of voice information in packet-based communication systems
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6954727B1 (en) * 1999-05-28 2005-10-11 Koninklijke Philips Electronics N.V. Reducing artifact generation in a vocoder
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6766291B2 (en) * 1999-06-18 2004-07-20 Nortel Networks Limited Method and apparatus for controlling the transition of an audio signal converter between two operative modes based on a certain characteristic of the audio input signal
US6868257B1 (en) * 1999-07-05 2005-03-15 Nokia Networks Oy Method for selection of coding method
CA2341577C (en) * 1999-07-08 2005-01-11 Samsung Electronics Co., Ltd. Data rate detection device and method for a mobile communication system
US6393394B1 (en) 1999-07-19 2002-05-21 Qualcomm Incorporated Method and apparatus for interleaving line spectral information quantization methods in a speech coder
US6324503B1 (en) 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6330532B1 (en) 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6757256B1 (en) 1999-08-10 2004-06-29 Texas Instruments Incorporated Process of sending packets of real-time information
US6801499B1 (en) 1999-08-10 2004-10-05 Texas Instruments Incorporated Diversity schemes for packet communications
US6744757B1 (en) 1999-08-10 2004-06-01 Texas Instruments Incorporated Private branch exchange systems for packet communications
US6804244B1 (en) 1999-08-10 2004-10-12 Texas Instruments Incorporated Integrated circuits for packet communications
US6801532B1 (en) 1999-08-10 2004-10-05 Texas Instruments Incorporated Packet reconstruction processes for packet communications
US6678267B1 (en) 1999-08-10 2004-01-13 Texas Instruments Incorporated Wireless telephone with excitation reconstruction of lost packet
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
AU2003262451B2 (en) * 1999-09-22 2006-01-19 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
US7574351B2 (en) * 1999-12-14 2009-08-11 Texas Instruments Incorporated Arranging CELP information of one frame in a second packet
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US7127390B1 (en) * 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
WO2001082293A1 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6477502B1 (en) 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
ATE333751T1 (de) * 2000-11-09 2006-08-15 Koninkl Kpn Nv Messen einer übertragungsqualität einer telefonverbindung in einem fernmeldenetz
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7072908B2 (en) * 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
JPWO2003021573A1 (ja) * 2001-08-31 2004-12-24 富士通株式会社 コーデック
US20040199383A1 (en) * 2001-11-16 2004-10-07 Yumiko Kato Speech encoder, speech decoder, speech endoding method, and speech decoding method
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
US7321559B2 (en) * 2002-06-28 2008-01-22 Lucent Technologies Inc System and method of noise reduction in receiving wireless transmission of packetized audio signals
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
AU2003278013A1 (en) * 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
FI20021936A (fi) * 2002-10-31 2004-05-01 Nokia Corp Vaihtuvanopeuksinen puhekoodekki
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US7277031B1 (en) * 2003-12-15 2007-10-02 Marvell International Ltd. 100Base-FX serializer/deserializer using 10000Base-X serializer/deserializer
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
WO2006008817A1 (ja) * 2004-07-22 2006-01-26 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
GB0416720D0 (en) * 2004-07-27 2004-09-01 British Telecomm Method and system for voice over IP streaming optimisation
US8010349B2 (en) * 2004-10-13 2011-08-30 Panasonic Corporation Scalable encoder, scalable decoder, and scalable encoding method
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060200368A1 (en) * 2005-03-04 2006-09-07 Health Capital Management, Inc. Healthcare Coordination, Mentoring, and Coaching Services
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US8611305B2 (en) * 2005-08-22 2013-12-17 Qualcomm Incorporated Interference cancellation for wireless communications
US8630602B2 (en) * 2005-08-22 2014-01-14 Qualcomm Incorporated Pilot interference cancellation
US8743909B2 (en) * 2008-02-20 2014-06-03 Qualcomm Incorporated Frame termination
US8594252B2 (en) * 2005-08-22 2013-11-26 Qualcomm Incorporated Interference cancellation for wireless communications
US9071344B2 (en) * 2005-08-22 2015-06-30 Qualcomm Incorporated Reverse link interference cancellation
KR101019936B1 (ko) 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8219392B2 (en) 2005-12-05 2012-07-10 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
KR100770895B1 (ko) * 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
US8920343B2 (en) 2006-03-23 2014-12-30 Michael Edward Sabatino Apparatus for acquiring and processing of physiological auditory signals
US9583117B2 (en) * 2006-10-10 2017-02-28 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
EP1918909B1 (en) * 2006-11-03 2010-07-07 Psytechnics Ltd Sampling error compensation
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101217037B (zh) * 2007-01-05 2011-09-14 华为技术有限公司 对音频信号的编码速率进行源控的方法和***
US8553757B2 (en) * 2007-02-14 2013-10-08 Microsoft Corporation Forward error correction for media transmission
JP2008263543A (ja) * 2007-04-13 2008-10-30 Funai Electric Co Ltd 記録再生装置
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
EP2198424B1 (en) 2007-10-15 2017-01-18 LG Electronics Inc. A method and an apparatus for processing a signal
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
US8015002B2 (en) 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8995417B2 (en) 2008-06-09 2015-03-31 Qualcomm Incorporated Increasing capacity in wireless communication
US9237515B2 (en) 2008-08-01 2016-01-12 Qualcomm Incorporated Successive detection and cancellation for cell pilot detection
US9277487B2 (en) 2008-08-01 2016-03-01 Qualcomm Incorporated Cell detection with interference cancellation
KR101797033B1 (ko) 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
EP2237269B1 (en) 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
US9160577B2 (en) * 2009-04-30 2015-10-13 Qualcomm Incorporated Hybrid SAIC receiver
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8787509B2 (en) 2009-06-04 2014-07-22 Qualcomm Incorporated Iterative interference cancellation receiver
EP2460157B1 (en) 2009-07-27 2020-02-26 Scti Holdings, Inc. System and method for noise reduction in processing speech signals by targeting speech and disregarding noise
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8831149B2 (en) 2009-09-03 2014-09-09 Qualcomm Incorporated Symbol estimation methods and apparatuses
CN102668628B (zh) 2009-11-27 2015-02-11 高通股份有限公司 增加无线通信中的容量的方法和装置
JP6091895B2 (ja) 2009-11-27 2017-03-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 無線通信における容量の増加
US8924222B2 (en) * 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
KR20120116137A (ko) * 2011-04-12 2012-10-22 한국전자통신연구원 음성 통신 장치 및 그 방법
RU2648595C2 (ru) 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
BR112014009338B1 (pt) * 2011-10-19 2021-08-24 Koninklijke Philips N.V. Aparelho de atenuação de ruído e método de atenuação de ruído
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
US9570095B1 (en) * 2014-01-17 2017-02-14 Marvell International Ltd. Systems and methods for instantaneous noise estimation
US9793879B2 (en) * 2014-09-17 2017-10-17 Avnera Corporation Rate convertor
US10061554B2 (en) * 2015-03-10 2018-08-28 GM Global Technology Operations LLC Adjusting audio sampling used with wideband audio
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法
US10269375B2 (en) * 2016-04-22 2019-04-23 Conduent Business Services, Llc Methods and systems for classifying audio segments of an audio signal
CN113314133A (zh) * 2020-02-11 2021-08-27 华为技术有限公司 音频传输方法及电子设备
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US32580A (en) * 1861-06-18 Water-elevatok
US3633107A (en) * 1970-06-04 1972-01-04 Bell Telephone Labor Inc Adaptive signal processor for diversity radio receivers
JPS5017711A (fi) * 1973-06-15 1975-02-25
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
DE3023375C1 (fi) * 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
US4379949A (en) * 1981-08-10 1983-04-12 Motorola, Inc. Method of and means for variable-rate coding of LPC parameters
EP0076233B1 (de) * 1981-09-24 1985-09-11 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
USRE32580E (en) 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
DE3276651D1 (en) * 1982-11-26 1987-07-30 Ibm Speech signal coding method and apparatus
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
CA1337217C (en) * 1987-08-28 1995-10-03 Daniel Kenneth Freeman Speech coding
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
EP0331858B1 (en) * 1988-03-08 1993-08-25 International Business Machines Corporation Multi-rate voice encoding method and device
EP0331857B1 (en) * 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4864561A (en) * 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
CA1321645C (en) * 1988-09-28 1993-08-24 Akira Ichikawa Method and system for voice coding based on vector quantization
JP3033060B2 (ja) * 1988-12-22 2000-04-17 国際電信電話株式会社 音声予測符号化・復号化方式
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
EP0392126B1 (en) * 1989-04-11 1994-07-20 International Business Machines Corporation Fast pitch tracking process for LTP-based speech coders
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
JPH03181232A (ja) * 1989-12-11 1991-08-07 Toshiba Corp 可変レート符号化方式
US5103459B1 (en) * 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH0580799A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 可変レート音声符号化器
JP3327936B2 (ja) * 1991-09-25 2002-09-24 日本放送協会 話速制御型補聴装置
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5774496A (en) * 1994-04-26 1998-06-30 Qualcomm Incorporated Method and apparatus for determining data rate of transmitted variable rate data in a communications receiver
TW271524B (fi) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US5974079A (en) * 1998-01-26 1999-10-26 Motorola, Inc. Method and apparatus for encoding rate determination in a communication system
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method

Also Published As

Publication number Publication date
ZA956078B (en) 1996-03-15
FI961445A0 (fi) 1996-03-29
US20010018650A1 (en) 2001-08-30
JPH09503874A (ja) 1997-04-15
JP4851578B2 (ja) 2012-01-11
MY129887A (en) 2007-05-31
EP1339044B1 (en) 2010-06-09
WO1996004646A1 (en) 1996-02-15
MY137264A (en) 2009-01-30
ES2343948T3 (es) 2010-08-13
US5911128A (en) 1999-06-08
AU689628B2 (en) 1998-04-02
US6484138B2 (en) 2002-11-19
JP2010044421A (ja) 2010-02-25
JP2004361970A (ja) 2004-12-24
BR9506307B1 (pt) 2011-03-09
IL114819A (en) 1999-08-17
MY114777A (en) 2003-01-31
DE69535723D1 (de) 2008-04-17
RU2146394C1 (ru) 2000-03-10
IL114819A0 (en) 1995-12-08
JP3611858B2 (ja) 2005-01-19
EP1339044A2 (en) 2003-08-27
CN1144180C (zh) 2004-03-31
EP0722603B1 (en) 2008-03-05
FI120327B (fi) 2009-09-15
JP2008171017A (ja) 2008-07-24
DE69536082D1 (de) 2010-07-22
US6240387B1 (en) 2001-05-29
CA2172062A1 (en) 1996-02-15
EP1339044A3 (en) 2008-07-23
CA2172062C (en) 2010-11-02
TW271524B (fi) 1996-03-01
KR960705306A (ko) 1996-10-09
EP0722603A1 (en) 1996-07-24
FI20070642A (fi) 2007-08-24
FI961445A (fi) 1996-04-02
DE69535723T2 (de) 2009-03-19
ATE470932T1 (de) 2010-06-15
BR9506307A (pt) 1997-08-05
HK1015184A1 (en) 1999-10-08
AU3209595A (en) 1996-03-04
ATE388464T1 (de) 2008-03-15
ES2299175T3 (es) 2008-05-16
JP4444749B2 (ja) 2010-03-31
KR100399648B1 (ko) 2004-02-14
JP4778010B2 (ja) 2011-09-21
CN1131994A (zh) 1996-09-25

Similar Documents

Publication Publication Date Title
FI122726B (fi) Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi
EP1554718B1 (en) Methods for interoperation between adaptive multi-rate wideband (amr-wb) and multi-mode variable bit-rate wideband (wmr-wb) speech codecs
EP1340223B1 (en) Method and apparatus for robust speech classification
ES2288950T3 (es) Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable.
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2002536694A (ja) 音声コーダのための、1/8レート乱数発生のための方法と手段
EP1808852A1 (en) Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
Chen Adaptive variable bit-rate speech coder for wireless applications

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 122726

Country of ref document: FI

Kind code of ref document: B

MA Patent expired