SE467429B - Talprocessor foer aastadkommande av talmeddelande - Google Patents

Talprocessor foer aastadkommande av talmeddelande

Info

Publication number
SE467429B
SE467429B SE8704178A SE8704178A SE467429B SE 467429 B SE467429 B SE 467429B SE 8704178 A SE8704178 A SE 8704178A SE 8704178 A SE8704178 A SE 8704178A SE 467429 B SE467429 B SE 467429B
Authority
SE
Sweden
Prior art keywords
signal
interval
speech
excitation
frame
Prior art date
Application number
SE8704178A
Other languages
English (en)
Other versions
SE8704178D0 (sv
SE8704178L (sv
Inventor
B S Atal
J R Remde
Original Assignee
Western Electric Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co filed Critical Western Electric Co
Publication of SE8704178D0 publication Critical patent/SE8704178D0/sv
Publication of SE8704178L publication Critical patent/SE8704178L/sv
Publication of SE467429B publication Critical patent/SE467429B/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Analogue/Digital Conversion (AREA)

Description

467 429 Alternativa kodningsarrangemang, varvid talexciteringen erhålles fràn det som resterar efter prediktion, exempelvis ADPCM eller APC, åstadkommer en markerad förbättring, emedan exciteringen inte beror pa en inexakt modell. Excitationsbit- hastigheten hos dessa anläggningar är àtminstone en storleks- ordning högre än hos den linjärpredikativa modellen. Försök att minska excitationsbithastigheten i resttypanläggningar har vanligen resulterat i en väsentlig kvalitetsförsämring. Ett ändamål med uppfinningen är att åstadkomma en talprocessor, som har bättre talkodning med hög kvalitet vid lägre bithas- tigheter än vid restkodningsscheman.
Vi har funnit att de tidigare problemen med restkodning kan lösas genom bildande av ett mönster, som är prediktativt för ett mönster (exmpelvis talmönster), som skall kodas, och jämförande av det för kodning avsedda mönstret med det predik- tativa mönstret pà ram-för-ram-bas. Skillnaderna mellan det för kodning avsedda mönstret och det predikativa mönstret över varje ram används för att bilda en kodad signal av ett före- skrivet format, vilken kodade signal ändrar det predikativa mönstret för minskning av ramskillnaderna. Bithastigheten hos den föreskrivna formatkodade signalen väljs pà sådant sätt, att det modifierade predikativa mönstret approximerar tal- mönstret till en önskad nivà, som är förenlig med kodnings- kraven.
Den för lösning av ovanstående problem avsedda tal- processorn inkluderar de i patentkravets kännetecknande del angivna särdragen. 40 .Pa O\ Q -Pz 1\ 7 \O Ritningsbeskrivning Pig. 1 visar ett blockschema för en talprocessorkrets, som åskådliggör uppfinningen.
Fig. 2 visar ett blockschema för en excitationssignalbildan- de processor, som kan användas í kretsen enligt fig. 1.
Fig. 3 visar ett strömningsschema, som åskådliggör driften av den excitationssignalbildande kretsen enligt fig. 1.
Fig. 4 och 5 visar flödesscheman, som åskådliggör driften av kretsen enligt fig. 2. " ' Fig. 6 visar ett tidsstyrningsdiagram, som åskådliggör driften av den excitationssígnalbildande kretsen enligt fig. 1 och 2.
Fig. 7 visar vågformer, som åskådliggör talbehandlingen enligt uppfinningen.
Detaljerad beskrivning Fig. 1 visar ett generellt blockschema för en talprocessor, som åskådliggör uppfinningen. I fig. 1 mottages ett talmönster, t.ex. ett talat meddelande, av mikrofonomvandlaren 101. Den mot- svarande analoga talsignalen därifrån bandbegränsas och omvand- las till en sekvens av pulssamplar i filter- och samplerkretsen 113 hos prediktionsanalysatorn 110. Filtreringen kan arrangeras för att avlägsna frekvenskomponenter hos talsignalen över 4,0 kHz och samplingen kan ske med en frekvenshastighet av 8,0 kHz, så- som är välkänt inom tekniken. Tidsstyrningen av samplarna styres genom sampelklockan CL från klockgeneratorn 103.Varje sampel ' från kretsen 113 transformeras till en amplitudrepresentativ digitalkod i analog/digital-omvandlaren 115.
Sekvensen av talsamplar matas till prediktivparameterdatorn 119, vilken, såsom är väl känt inom tekniken, arbetar för att uppdela talsignalerna i intervall om 10-20 ms och för att gene- rera en grupp linjärprediktionskoefficientsignaler ak, k = 1,2,..., p som representerar det förutsagda korta tídsspekt- ret hos de N >> p talsamplarna i varje intervall. Talsamplarna från analog/digital-omvandlaren 115 fördröjes i fördröjningsan- ordningen 117 för att ge tid för bildandet av signaler ak. De fördröjda samplarna matas till ingången hos prediktionsrest- generatorn 118. Prediktionsrestgeneratorn reagerar, såsom är väl- känt inom tekniken, för de fördröjda talsamplarna och predik- tionsparametrarna ak för att bilda en signal, vilken motsvarar 40 Skillnaden däremellan. Bildandet av prediktivparametrarna och prediktionsrestsignalen för varje ram, som visas i prediktiv- analysatorn 110, kan utföras enligt det arrangemang, som visas -i det amerikanska patentet 3 740 476 eller i andra inom tekniken välkända arrangemang.
Ehuru prediktivparametersignalerna ak bildar en ändamåls- enlig representation av korttidstalspektret varierar restsigna- len vanligen mycket från intervall till intervall och uppvisar en hög bithastighet, som är olämplig för många applikationer. I den tonhöjdsexciterade vokodern sändes endast topparna av resten såsom tonhöjdspulskoder. Den resulterande kvalitén är emeller- tid vanligen dålig. Vågformen 701 i fig. 7 åskådliggör ett nor- malt talmönster över två tidsramar. Vågformen 703 visar den A prediktivrestsignal, som erhålles från mönstret enligt vågform 701 och ramarnas prediktivparametrar. Såsom lätt framgår är vågformen 703 relativt komplex, så att kodning av tonhöjdspulser, motsvarande topparna däri, inte åstadkommer en adekvat approxi-. mering av prediktivresten. Enligt uppfinningen mottager excita- tionskodprocessorn 120 restsignalen dk rarna och prediktionsparamet- ak hos ramen och genererar en intervallexcitatíonskod, som har ett förutbestämt antal bitpositioner. Den resulterande excitationskoden, vilken visas i vågform 705, uppvisar en rela- tivt låg bithastighet, vilken är konstant. En kopia av talmönst- ret i vågform 701, konstruerad från excitationskoden och ramar- nas prediktionsparametrar, visas i vågform 707. Såsom framgår vid en jämförelse av vågformerna 701 och 707 erhålles mera hög- kvalitativ talkarakteristik av adaptiv prediktivkodning vid mycket lägre bithastigheter.
Prediktionsrestsignalen dk samt prediktivparametersignaler- na ak för varje efterföljande ram sändes från kretsen 110 till den excitationssignalbildande kretsen 120 vid början av den efterföljande ramen. Kretsen 120 arbetar för att producera en multielementramexcitationskod EC med ett förutbestämt antal bitpositioner for varje ram. Varje excitationskod motsvarar en sekvens av 1 5 i 5 I pulser, som representerar ramens excita- tionsfunktion. Amplituden ßi samt läget mi för varje puls i ramen bestämmes i den excitationssignalformande kretsen för att tillåta konstruktion av en kopia av ramtalsignalen ur excita- tionssignalen och ramens prediktivparametersignaler. 6 i' °Ch mi-signalerna kodas i kodaren 131 och multipliceras med ram6HS =20 3S 467 429 prediktionsparametersignaler i multiplexorn 135 för åstadkom- mande av en digital signal, som motsvarar ramtalmönstret.
I den excitationssignalbildande kretsen 120 matas predik- tivrestsignalen dk och prediktivparametersignalerna ak hos en ram till filtret 121 via grinden 122 respektive 124. Vid början av varje ram öppnar ramklocksignalen FC grindarna 122 och 124, varigenom dk-signalerna matas till filtret 121 och ak-signalerna till filtren 121 och 123. Filtret 121 är avpassat att modifiera signalen dk, så att kvantiseringsspektrum för felsignalen koncentreras i dess formantområden. Såsom visas i det amerikanska patentet 4 133 976 är detta filterarrangemang lämpligt för att maskera felet i spektrets högsignalenergidelar.
Filtrets 121 överföringsfunktion uttryckes i z-transforma- tionsform såsom _-_l_-__ H(Z) = 1-B(z) där B(z) styres av ramprediktivparametrarna' ak. (1) Prediktivfiltret 123 mottager ramprediktívparametersignaler- na från datorn 119 och en artificiell excitationssignal EC från excitationssignalprocessorn 127. Filtret 123 har överförings- funktionen enligt ekvation 1. Filtret signal X, som reagerar för prediktivresten dk, under det att 121 bildar en vägd ramtal- filtret 123 genererar en vägd artificiell talsignal §,'som rea- gerar för excitationssignalen från signalprocessorn 127. Signa- lerna X och 4 genererar en signal E, vilken motsvarar den vägda skillnaden där- emellan.
A y korreleras i korrelationsprocessorn 125, som Signalen E sändes till signalprocessorn 127 för juste- ring av excitationssignalen EC, så att skillnaderna mellan den Vägda talrepresentativa signalen från filtret 121 och den vägda Signal från filtret 123, vilken representerar artificiellt tal, reduceras.
Excitationssignalen är en sekvens av 1 5 i 5 I pulser. pulslmr en amplitud ßi samt ett läge mi. avsedd att successivt bilda ßi-, mi-signaler, som reducerar skillnaden mellan den vägda talrepresentativa ramsignalen från filtret 121, samt den vägda ramsignal från filtret 123, vilken representerar artificiellt tal. Den vägda talrepresentativa ram- signalen kan nttryckas såsom: Varje Processorn 127 är d h 1 < n 5 N k n-k - (2) n Yn _k¿â_ k 467 429 och den vägda signal hos ramen, representerande artificiellt tal, kan uttryckas såsom: Yn _ (3) "MH- 14 j 1 J där hn är pulssvaret hos filtret 121 eller filtret 123.
Den i kretsen 120 bildade excitationssignalen är en kodad signal med elementen ßi 1,2,...,I. Varje element _ representerar en puls i tidsramen. ßi är pulsens amplitud och mi är läget för pulsen i ramen. 9 min i = Korrelationssignalgenerator- kretsen 125 verkar för att successivt generera en korrelations- signal för varje element. Varje element kan lokaliseras vid tidpunkten 1 5 q 5 Q i tidsramen. Följaktligen bildar korre- lationsprocessorkretsen Q möjliga kandidater för element i överensstämmelse med ekvation 4 _ N N = - Z ^ . h 4 iq nšq yn n-q n=q yn,1-1 n-q C ) .~ där yn,í_1 I: ßjhnqnj ' Excitationssignalgeneratorn 127 mottager Cíq-signalerna från korrelationssignalgeneratorkretsen och utväljer den Ciq-signal, som har det maximala absolutvärdet, och bildar det i:te elementet av den kodade signalen K ß. = C.'* hz Ö 1 1q kšo k ( ) mi = Q* där q* är läget för den korrelationssignal, som har det maximala absolutvärdet. Indexet i är tillägget till i+1 och signalen Yn vid prediktiv-filtrets 123 utgång är modifierad. Processen enligt ekvatíonerna 4, 5 och 6 upprepas för bildande av elemen- ïen ß. m, , 1+1' 1+1 den signal, som har elementen @ïm1, @2m2,..., ßlml till koda- ren 131. Såsom är välkänt inom tekniken arbetar kodaren 131 för att kvantisera ßimi-elementen och för att bilda en kodad sig- nal, Som är lämplig för överföring till nätet 140.
Efter bildandet av elementen 31, ml, överföresl 40 7 467 429 Varje filter 121 och 123 i fig. 1 kan innefatta ett trans- versalfílter av den i det ovannämnda amerikanska patentet nr 4 133 976 beskrivna typen. Varje processor 125 och 127 kan inne- fatta ett av de processorarrangemang, välkända inom tekniken och avsedda att utföra den behandling, som kräves enligt ekva- tíonerna 4 och 6, t.ex. C.S.P., Inc. Macro Arithmetic Processor System 100 eller andra inom tekniken välkända processorarrange- mang.
Processor 125 innefattar ett läsminne, som permanent lagrar programmerade instruktioner för att styra Cíq-signalbildningen i överensstämmelse med ekvation 4, och processorn 127 innefattar ett läsminne, som permanent lagrar programmerade instruktioner för att välja ßí-, m.-signalelementen enligt ekvation 6, såsom är välkänt inom tekniken. Programinstruktionerna i processorn 125 är angivna i FORTRAN-språkform i Appendix A och programin- struktionerna i processorn 127 är angivna i FORTRAN-spràkform i Appendix B.
Pig. 3 visar ett flödesschema, som åskådliggör driften hos processorerna 125 och 127 för varje tidsram. Under hänvisning till fig. 3 genereras de hk impulssvarssignalerna i ruta 305 såsom svar på ramprediktivparametrarna för överföringsfunktionen i ekvation 1. Detta sker efter mottagande av FC-signalen från klockan 103 i fig. 1, enligt vänteruta 303. Elementindexet i samt excitationspulslägeindexet 3 är initialt inställda på 1 i ruta 307.Vid mottagande av signalerna yn,í_1 från enligt ruta yn och prediktivfiltren 121 och 123 bildas signalen Ci 309. Lägesindexet 9 tillägges i ruta 311 och bildandet av nästa lägessignal Ciq Efter det att elementet i initieras.
Ci -signalen bildats för excitationssignal- i processorn 125 aktiveras processorn 127. 9-indexet i processorn 127 inställes initialt på 1 i ruta 315 och i indexet samt de i processorn 125 bildade Cíq-signalerna iq*_ den Ciq-signal, vilken har det maximala absoluta värdet, och dess läge q* inställes på noll i ruta 317. De absoluta värdena -signalerna jämföres med signalen Ci överföres till processorn 127. C signalen, som representerar av Ciq * och maximum av dessa absolutvärden lagras såsom signalen Ci * i den slinga, som innefattar rutorna 319, 321, 323 och 325.
Efter det att Ci -signalen från processorn 125 har behand- lats sker överföring från ruta 325 till ruta 327. Excitations- m' 40 467 429 kodelementläget mi inställes på q* och excitationselementets ßí storlek genereras enligt ekvation 6. till prediktivfiltret 123 enligt ruta 329 och indexet i lägges enligt ruta 329. Vid bildande av ramens ßimi-elementet utmatas till- ßlml -element sker ny överföring från vänterutan 303 från beslutsrutan 331.
Processorerna 125 och 127 placeras då i vänttillstånd fram till den efterföljande ramens FC-ramklockpuls.
Excitationskoden i processorn 127 matas också till kodaren 131. processorn 127 till en form, som är lämplig för användning i nätet 140. Prediktionsparametersignalerna Kodaren arbetar för att transformera excitationskoden från ak för ramen sändes till en ingång hos multiplexorn 135 via fördröjningsanordningen 133 såsom prediktionssignaler. Den excitationskodade signalen ECS från kodaren 131 sändes till multiplexorns andra ingång. De multiplicerade excitations- och prediktivparameterkoderna från ramen sändes sedan till nätet 140.
Nätet 140 kan vara .en kommunikationsanläggning, meddelande- minnet hos ett ljudlagringsarrangemang eller en apparat, som är avsedd att lagra ett komplett meddelande eller en vokabulär av föreskrivna meddelandeenheter, t.ex. ord, fonem, etc för använd- ning i talsyntetiserare. Vilken meddelandeenheten än är fram- matas den resulterande sekvensen av ramkoder från kretsen 120 via nätet 140 till talsyntetiseraren 150. Syntetiseraren utnytt- jar i sin tur ramexcitationskoderna från kretsen 120 samt ram- prediktivparameterkoderna för att konstruera en kopia av tal- mönstret. Å Demultiplexorn 152 i syntetiseraren 150 separerar excita- tionskoden EC i_en första rad från dess prediktionsparametrar ak. Efter det att excitationskoden har avkodats i en excitations- pulssekvens i avkodaren 153 sändes koden till excitationsin- gången hos talsyntetiserarfiltret 154. ak-koderna sändes till filtrets 154 parameteringångar. Filtret 154 arbetar såsom svar på excitations- och prediktivparametersignalerna för att bilda en kodad kopia av ramtalsignalen, såsom är välkänt inom området.
Digital/analog-omvandlaren 156 är avsedd att transformera den kodade kopian till en analog signal, som föres genom lågpass- filtret 158 och transformeras till ett talmönster via omvandla- ren 160.
Ett alternativt arrangemang för att utföra excitationskod- bíldningsoperationerna hos kretsen 120 kan baseras på det vägda 416 .(7 A00 UI “TL/ medelkvadratfelet mellan signalerna yn och vn. Detta vägda medel- kvadratfel vid bildande av ßi och mi för den izte excitations- sígnalpulsen är N i 2 m B. = 2 y '- Z _ 9 1 n=1 <\n j=1 J n mj där hn är den nzte sampel hos pulssvaret för H(z), m. är läget för den jzte pulsen i excitationskodsignalen och ßj är styrkan av den jzte pulsen.
Pulslägena och pulsamplituderna genereras sekventiellt.
Excitationens izte element bestämmes genom minskning av Ei i ekvation 7 till ett minimum. Ekvation 7 kan omskrivas såsom N 1-1 Si = 2 (Yn- 2 B hn-m;f + ßâhzn-m + n=1 j=1 3 ' 'i i-1 _ '_ 4 . 9 2ßi (Ynhn-mi 5:1 'Jhn-mj ha-mä] ( ) så att de kända excitatíonskodelementen, som föregår ßi, mi endast uppträder i det första uttrycket.
Såsom är väl känt kan det värde på ßi, som minskar Ei till ett minimum, bestämmas genom differentieríng av ekvation 8 med avseende på ßi och genom att sätta ---- -= 0 (9) = ----- _ 50 - (10) där 6. = I “ h ^ = n O < k 5 5 (11) 467 429 är autokorrelationskoefficienterna hos prediktivfilterpulssvars- signalen hk. ßí i ekvation 10 är en funktion av pulsstället och bestäm- mes för varje möjligt värde därav. Maximum för \ßíl-värdena över de möjliga pulsställena väljes sedan. Efter det att värdena för ßi och mi +1 och mí+1 genom att ekvation 10 löses på samma sätt. Det första uttrycket i ekvation 10, dvs har erhållits genereras värdena ßi m +K ä dk “hk-m ' motsvarar den talrepresentativa signalen hos ramen vid predik- tivfiltrets 121 utgång. Den andra termen i ekvation 10, dvs i-1 Z fi=1 -m i! motsvarar den signal hos ramen, vilken representerar artifi- ciellt tal, vid prediktivfiltrets 123 utgång. ßi är amplituden hos en excitationspuls vid läget mi , vilket minskar skillnaden mellan den första och den andra termen till ett minimum.
Den i fig. 2 visade databehandlingskretsen ger ett alterna- tivt arrangemang för excitationssignalformningskretsen 120 i fig. 1. Kretsen i fig. 2 ger excitationskoden för varje ram hos talmönstret såsom svar på ramprediktionsrestsignalen dk och ramprediktionsparametersignalerna ak i enlighet med ekvation 10 och kan innefatta det tidigare kända arrangemanget C.S.P., Inc.
Macro Arithmetic Processor System 100 eller andra processor- arrangemang, såsom är välkänt inom området.
Såsom framgår av fig. 2 mottager processorn 210 predíktiv- hos varje efterföljande ram av talmönstret från kretsen 110 via min- parametersignalerna ak och prediktionsrestsignalerna dn net 218. Processorn arbetar för att bilda excitationskodsignal- 1, ßz, mz, ..., Öl, ml nent lagrade instruktioner i prediktivfilterunderprogramläsmin- elementen 61 m under styrning av perma- net 201 och excitationsbehandlingsunderprogramläsminnet 205.
Prediktivfilterunderprogrammet hos minnet ROM 201 angives i Appendix C och excitationsbehandlingsunderprogrammet hos minnet ROM 205 angives i Appendix D.
Processorn 210 innefattar den gemensamma bussledningen 225, dataminnet 230, centralprocessorn 240, den aritmetiska processorn 250, kontrollgränssnittet 220 samt ingång-utgång-gränssnittet260. 03' 40 “ 467 429 Såsom är välkänt inom området är centralprocessorn 240 avsedd att styra frekvensen av operationer hos processorns 210 andra enheter såsom svar på kodade instruktioner från kontrdflern 215.
Den aritmetiska processorn 250 är avsedd att styra den aritme- tiska behandlingen beträffande kodade signaler från dataminnet 230 såsom svar på styrsignaler från centralprocessorn 240.
Datamínnet 230 styr signaler, vilka dirigerats via centralpro- cessorn 240, och tillhandahåller dessa signaler för den aritme- tiska processorn 250 och ingångs-utgångs-gränssnittet 260. Kon- trollgränssnittet 220 utgör en kommunikationslänk för program- instruktionerna i minnet ROM 201 och minnet ROM 205 till central- processorn 240 via kontrollern 215 och ingångs-utgångs-gräns- snittet 260 tillåter signalerna dk och ak att matas till dataminnet 230 samt matar utsignaler net till kodaren 131 i fig. 1.
Driften av kretsen enligt fig. 2 åskådliggöres i det filter- parameterbehandlande flödesdiagrammet enligt fig. 4, det excita- tionskodbehandlande flödesdiagrammet enligt fig. 5 och tidsstyr- ningsdíagrammet enligt fig. 6. Vid början av talsignalen passe- Gi och mi från datamin- rar man in i ruta 410 i fig. 4 via ruta 405 och ramräknevärdet 3 inställes för den första ramen genom en enda puls ST från klockgeneratorn 103. Pig. 6 illustrerar driften av kretsen en- ligt fig. 1 och Z för två efter varandra följande ramar. Mellan tidpunkterna to och t7 analysatorn 110 talmönstersamplarna hos ramen i den första ramen bildar prediktions- r+2 såsom i vågform 605 under styrning av sampelklockpulserna med vågform 601. Analysatorn 110 genererar de Tamell ak-signaler, som motsvarar och t3 tivrestsignalen dk mellan tidpunkterna ts antydes i vågform 607. Signalen FC (vågform 603) uppträder mel- lan tidpunkterna to och t1. r+1, mellan tidpunkterna to och bildar predik- och tó, såsom Signalerna dk från restsignal- generatorn 118, vilka tidigare lagrats i minnet 218 under den föregående ramen, placeras i dataminnet 230 via ingångs-utgångs- -gränssnittet 260 och den gemensamma bussledningen 225 under styrning av centralprocessorn 240. Såsom antydes med arbets- rutan 415 i fig. 4 reagerar dessa operationer för ramklocksig- nalen RC. Ramprediktionsparametersignalerna ak från predik- tionsparameterdatorn 119, vilka tidigare placerats i minnet 218 under den föregående ramen, införes också i minnet 230 enligt arbetsrutan 420. Dessa operationer uppträder mellan tidpunkterna 467 429 to och t1 i fig. 6. i minnet 230 övergår man till ruta 425 och de prediktivfilterkoefficien- ter bk, vilka motsvarar överföringsfunktionen i ekvation 1, Efter införande av ramsignalerna dk och ak bk =°¿kak k = 1,z,...,p (12) genereras i den aritmetíska processorn 250 och placeras i data- minnet 230. p är normalt 16 och oc är normalt 0,85 för en samplingshastighet av 8 kHz. Prediktivfilterpulssvarssignalerna hk min(k-1,p] _ k _21 bkhk_í k= 1,2,...,K (13) 1: h genereras sedan i den aritmetiska processorn 250 och lagras i dataminnet 230. När hk-pulssvarssiguflen.är lagrad går man till ruta 435 och prediktivfilterautokorrelationssignalerna enligt ekvation 11 genereras och lagras.
Vid tidpunkten tz i fig. 6 kopplar kontrollern 215 min- net ROM 201 från gränssnittet 220 och ansluter excitationsbe- handlingsunderprogramminnet ROM 205 till gränssnittet. Bildandet av excitationspulskoderna ßi och mi, vilka visas i flödes- díagrammet enligt fig. 5, initieras sedan. Mellan tidpunkterna tz och t4 i fig. 6 bildas excitationspulssekvensen. Excita- tionspulsindexet i inställes initialt på 1 och pulsläges- indexet 3 inställes på 1 i ruta 505. 51 inställes på noll i ruta 510 och man går till operationsrutan 515 för att bestämma ßíq = 511. ß11 är den optimala excitationspulsen vid läget q = 1 hos ramen. Absolutvärdet för Ö11 jämföres sedan med det tidigare lagrade värdet för 51 i beslutsrutan 520. Eftersom 51 från början är noll inställes mi-koden pâ q = 1 0Ch ßí-koden på 611 1 ruta 525.
Lägesindexet 3 tillägges sedan i ruta 530 och man går till ruta 515 via beslutsrutan 535 för att generera signalen 512. Den slinga, som innefattar rutorna 515, 520, 525, S30 och 535 itereras för alla pulslägesvärden 1 5 q 5 Q. Efter den Qzte iterationen lagrasden första excitationspulsamplituden 51 = ßiq* och dess läge i ramen m1 = q* i minnet 230. På detta sätt bestämmes den första av de I excitationspulserna. Under ö' 40 1: 467 429 hänvisning till vågformen 705 i fig. 7 uppträder ramen r mellan tídpunkterna to och t står av 8 pulser.
Den första pulsen med amplituden ßï och läget m1 uppträder vid tidpunkten tmí i fig. 7, såsom är be- stämt i flödesdiagrammet i fig. 5 för index i = 1. i tillägges till den efterföljande excitationspul- sen i ruta 545 och man fortsätter till operationsrutan 515.via rutan S50 och rutan 510.
Index Vid avslutande av varje iteration av slingan mellan rutorna 510 och 550 modifieras excitationssignalel för att ytterligare reducera signalen i ekvation 7. Vid avslu- tande av den andra iterationen bildas pulsen tmz i vågform 705). Excitationspulserna ß3m3 (tidpunkten tms), ß4m4 (tidpunkten tm4), ßsms (tidpunkten tms), ßómó (tidpunkten tmó), ß7m7 (tidpunkten tm7) och Ûàms (tidpunkten tms) bildas sedan successivt allt eftersom index i tillägges.
Efter den Izte iterationen (vågformen 609 vid t4) fortsät- ter man till rutan SS5 från beslutsrutan 550 och den aktuella ramexcitationskoden ß1m1, Bzmz, ßz m2 (tidpunkten .., ßlml genereras däri. Ram- indexet tillägges i ruta 560 och prediktivfilteroperationerna enligt fig. 4 för nästa ram startas i rutan 415 vid tidpunkten» t7 i fig. 6. Vid uppträdande av FC-klocksignalen för nästa ram vid t7 i fig. 6 bildas prediktivparametersígnalerna för ramen r + 1 (vâgform 605 mellan tídpunkterna t7 och t14) och ak- samt (vågform 607 mel- och t13) och excitationskoden för ramen dk-signalerna genereras för ramen r+Z lan tídpunkterna t7 r + 1 åstadkommes (vågform 609 mellan tídpunkterna t7 och t _ J! 12 Ramexcitationskoden från processorn i fig. 2 matas via ingångs-utgångs-gränssnittet 260 till kodaren 131 i fig. 1 såsom är välkänt inom omrâdet. Kodaren 131 arbetar såsom tidi- 9 gare nämnts för att kvantisera och formatbestämma excitations- koden för applicering på nätet 140. ak-prediktionsparameter- signalerna hos ramen sändes till en ingång hos multíplexorn 135 via fördröjningsanordningen 133, så att ramexcitatíonskoden från kodaren 131 kan på lämpligt sätt multipliceras därmed.
Uppfinningen har beskrflñts under hänvisning till speciella illustrativa utföringsformer. Det är uppenbart för fackmannen inom området att olika modifikationer kan åstadkommas utan att uppfinningens ram överskrides. Exempelvis har de här beskrivna utföringsformerna utnyttjat linjärprediktiva parametrar samt 1. Excitationskoden för ramen be- 14 467 429 en prediktivrest. De linjärpredíktiva parametrarna kan ersättas med formantparametrar eller andra talparametrar, som är välkända inom området. Preditivfiltren anordnas då för att reagera för de talparametrar, som utnyttjas, och för talsignalen, så att den i kretsen 120 enligt fig. 1 bildade excitationssignalen an- vändes i kombination med talparametersignalerna för konstruktion av en kopia av talmönstret hos ramen i överensstämmelse med uppfinningen. Kodningsarrangemanget enligt uppfinningen kan ut- _ sträckas till sekventialmönster, t.ex. biologiska och geologiska mönster, för erhållande av ändamålsenliga representationer därav. 'l

Claims (1)

1. 5 467 429 Patentkrav Talprocessor för àstadkommande av talmeddelande, k ä n n e t e c k n a d av organ (11) för att mottaga en sekvens av talmeddelandetidsintervallsignaler, varvid varje talintervallsignal innefattar ett flertal spektralrepresenta- tiva signaler samt en excitationsrepresentativ signal för nämnda tidsintervall, samt organ (135) som gemensamt reagerar för nämnda intervallspektralrepresentativa signaler, och nämnda intervallexcitationsrepresentativa signal, för genere- ring av ett talmönster, som motsvarar talmeddelandet, varvid nämnda intervallexcitationstalsignal är bildad genom uppdel- ning av ett talmeddelandemönster i successiva tidsintervall (119), generering av en grupp signaler, representerande nämnda talmeddelandemönster för varje tidsintervall, svarande mot nämnda intervalltalmönster (119), generering av en signal, representerande skillnaderna mellan nämnda intervalltalmönster och nämnda representativa signalgrupp, som svarar mot nämnda intervalltalmönster och nämnda intervallrepresentativa signa- ler (118), bildande av en första signal, motsvarande inter- valltalmeddelandemönstret sàsom svar pà nämnda talmeddelande- mönsterintervallrepresentativa signaler och skillnadsrepresen- tativ signal (121), bildande av en andra intervallmotsvarande signal sasom svar pá nämnda intervallmeddelandemönsterre- presentativa signaler (123), genererande av en signal svarande mot skillnaderna mellan nämnda första och andra intervallmot- svarande signaler, (125), samt àstadkommande av en tredje signal svarande mot nämnda intervallskillnadsmotsvarande signal för ändring av nämnda andra intervallmotsvarande signal (127) i och för att minska den intervallskillnadsmotsvarande signalen, varvid den tredje signalen utgöres av nämnda inter- vallexcitationsrepresentativa signal.
SE8704178A 1981-12-01 1987-10-27 Talprocessor foer aastadkommande av talmeddelande SE467429B (sv)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/326,371 US4472832A (en) 1981-12-01 1981-12-01 Digital speech coder

Publications (3)

Publication Number Publication Date
SE8704178D0 SE8704178D0 (sv) 1987-10-27
SE8704178L SE8704178L (sv) 1987-10-27
SE467429B true SE467429B (sv) 1992-07-13

Family

ID=23271926

Family Applications (2)

Application Number Title Priority Date Filing Date
SE8206641A SE456618B (sv) 1981-12-01 1982-11-22 Forfarande och talprocessor for att behandla en talsignal for att bilda en digital kod, som representerar talmonstret
SE8704178A SE467429B (sv) 1981-12-01 1987-10-27 Talprocessor foer aastadkommande av talmeddelande

Family Applications Before (1)

Application Number Title Priority Date Filing Date
SE8206641A SE456618B (sv) 1981-12-01 1982-11-22 Forfarande och talprocessor for att behandla en talsignal for att bilda en digital kod, som representerar talmonstret

Country Status (8)

Country Link
US (1) US4472832A (sv)
JP (2) JPS6046440B2 (sv)
CA (1) CA1181854A (sv)
DE (1) DE3244476A1 (sv)
FR (1) FR2517452B1 (sv)
GB (1) GB2110906B (sv)
NL (1) NL193037C (sv)
SE (2) SE456618B (sv)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59153346A (ja) * 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
DE3463192D1 (en) * 1983-03-11 1987-05-21 Prutec Ltd Speech encoder
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US4638451A (en) * 1983-05-03 1987-01-20 Texas Instruments Incorporated Microprocessor system with programmable interface
CA1219079A (en) * 1983-06-27 1987-03-10 Tetsu Taguchi Multi-pulse type vocoder
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
CA1236922A (en) * 1983-11-30 1988-05-17 Paul Mermelstein Method and apparatus for coding digital signals
CA1223365A (en) * 1984-02-02 1987-06-23 Shigeru Ono Method and apparatus for speech coding
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement
JPS60239798A (ja) * 1984-05-14 1985-11-28 日本電気株式会社 音声信号符号化/復号化装置
US4872202A (en) * 1984-09-14 1989-10-03 Motorola, Inc. ASCII LPC-10 conversion
CA1249061A (en) * 1984-12-25 1989-01-17 Takashi Mochizuki Method and apparatus for encoding/decoding image signal
US4675863A (en) 1985-03-20 1987-06-23 International Mobile Machines Corp. Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
FR2579356B1 (fr) * 1985-03-22 1987-05-07 Cit Alcatel Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation
US4944013A (en) * 1985-04-03 1990-07-24 British Telecommunications Public Limited Company Multi-pulse speech coder
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
US4890328A (en) * 1985-08-28 1989-12-26 American Telephone And Telegraph Company Voice synthesis utilizing multi-level filter excitation
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
USRE34247E (en) * 1985-12-26 1993-05-11 At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4935963A (en) * 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
CA1323934C (en) * 1986-04-15 1993-11-02 Tetsu Taguchi Speech processing apparatus
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
US5285520A (en) * 1988-03-02 1994-02-08 Kokusai Denshin Denwa Kabushiki Kaisha Predictive coding apparatus
JP2625998B2 (ja) * 1988-12-09 1997-07-02 沖電気工業株式会社 特徴抽出方式
SE463691B (sv) * 1989-05-11 1991-01-07 Ericsson Telefon Ab L M Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
US5263119A (en) * 1989-06-29 1993-11-16 Fujitsu Limited Gain-shape vector quantization method and apparatus
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
JPH0365822A (ja) * 1989-08-04 1991-03-20 Fujitsu Ltd ベクトル量子化符号器及びベクトル量子化復号器
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
SE467806B (sv) * 1991-01-14 1992-09-14 Ericsson Telefon Ab L M Metod att kvantisera linjespektralfrekvenser (lsf) vid beraekning av parametrar foer ett analysfilter ingaaende i en talkodare
US5301274A (en) * 1991-08-19 1994-04-05 Multi-Tech Systems, Inc. Method and apparatus for automatic balancing of modem resources
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
US5546383A (en) 1993-09-30 1996-08-13 Cooley; David M. Modularly clustered radiotelephone system
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
SE508788C2 (sv) * 1995-04-12 1998-11-02 Ericsson Telefon Ab L M Förfarande att bestämma positionerna inom en talram för excitationspulser
JP3137176B2 (ja) * 1995-12-06 2001-02-19 日本電気株式会社 音声符号化装置
DE19643900C1 (de) * 1996-10-30 1998-02-12 Ericsson Telefon Ab L M Nachfiltern von Hörsignalen, speziell von Sprachsignalen
US5839098A (en) 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US7392180B1 (en) 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US6516207B1 (en) * 1999-12-07 2003-02-04 Nortel Networks Limited Method and apparatus for performing text to speech synthesis
US7295614B1 (en) 2000-09-08 2007-11-13 Cisco Technology, Inc. Methods and apparatus for encoding a video signal
JP4209257B2 (ja) 2003-05-29 2009-01-14 三菱重工業株式会社 分散型コントローラとその動作方法、及び、分散型コントローラを備えるフォークリフト
EP2595146A1 (en) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3346695A (en) * 1963-05-07 1967-10-10 Gunnar Fant Vocoder system
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
DE2435654C2 (de) * 1974-07-24 1983-11-17 Gretag AG, 8105 Regensdorf, Zürich Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
JPS5246642A (en) * 1975-10-09 1977-04-13 Mitsubishi Metal Corp Swimming pool
JPS5343403A (en) * 1976-10-01 1978-04-19 Kokusai Denshin Denwa Co Ltd System for analysing and synthesizing voice
US4130729A (en) * 1977-09-19 1978-12-19 Scitronix Corporation Compressed speech system
US4133976A (en) * 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
JPS5648690A (en) * 1979-09-28 1981-05-01 Hitachi Ltd Sound synthesizer

Also Published As

Publication number Publication date
FR2517452A1 (fr) 1983-06-03
SE456618B (sv) 1988-10-17
US4472832A (en) 1984-09-18
SE8704178D0 (sv) 1987-10-27
SE8206641D0 (sv) 1982-11-22
JPS6156400A (ja) 1986-03-22
FR2517452B1 (fr) 1986-05-02
NL193037C (nl) 1998-08-04
JPS58105300A (ja) 1983-06-23
JPS6046440B2 (ja) 1985-10-16
NL8204641A (nl) 1983-07-01
NL193037B (nl) 1998-04-01
DE3244476C2 (sv) 1988-01-21
SE8704178L (sv) 1987-10-27
GB2110906B (en) 1985-10-02
JPH0650437B2 (ja) 1994-06-29
GB2110906A (en) 1983-06-22
CA1181854A (en) 1985-01-29
SE8206641L (sv) 1983-06-02
DE3244476A1 (de) 1983-07-14

Similar Documents

Publication Publication Date Title
SE467429B (sv) Talprocessor foer aastadkommande av talmeddelande
EP0175752B1 (en) Multipulse lpc speech processing arrangement
USRE32580E (en) Digital speech coder
KR0143076B1 (ko) 다중-요소 신호 코딩 방법 및 장치
SE518319C2 (sv) Förfarande och anordning för vektorkvantisering
EP1008982B1 (en) Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
JPS61220000A (ja) マルチパルス励起線形予測符号器
IT9068029A1 (it) Sistema di codifica del segnale vocale con sottocodice annidato
EP0342687B1 (en) Coded speech communication system having code books for synthesizing small-amplitude components
EP0232456A1 (en) Digital speech processor using arbitrary excitation coding
SE463691B (sv) Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen
SE517793C2 (sv) Sätt att åstadkomma ett spektralbrusviktningsfilter att använda i en talkodare
KR100371977B1 (ko) 음성처리를위한개선된코드북검색방법
Patil Multilayered network for LPC based speech recognition
EP0282518A1 (en) Method of speech coding
David et al. Two-sided filters for frame-based prediction
US5202953A (en) Multi-pulse type coding system with correlation calculation by backward-filtering operation for multi-pulse searching
EP0903729B1 (en) Speech coding apparatus and pitch prediction method of input speech signal
NO862602L (no) Vocoder innebygd i digitale signalbehandlingsenheter.
CA1336841C (en) Multi-pulse type coding system
EP0341271A1 (en) Coded communications system
CA2083469A1 (en) Voicing decision method and device for vocoder with very low bit rate
Picone et al. Joint estimation of the LPC parameters and the multi-pulse excitation
US5058165A (en) Speech excitation source coder with coded amplitudes multiplied by factors dependent on pulse position
KR970003035B1 (ko) 음성신호의 피치정보 검출 방법

Legal Events

Date Code Title Description
NAL Patent in force

Ref document number: 8704178-6

Format of ref document f/p: F

NUG Patent has lapsed