FI66268C - Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator - Google Patents

Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator Download PDF

Info

Publication number
FI66268C
FI66268C FI803928A FI803928A FI66268C FI 66268 C FI66268 C FI 66268C FI 803928 A FI803928 A FI 803928A FI 803928 A FI803928 A FI 803928A FI 66268 C FI66268 C FI 66268C
Authority
FI
Finland
Prior art keywords
model
transfer function
acoustic
filters
bus
Prior art date
Application number
FI803928A
Other languages
English (en)
Swedish (sv)
Other versions
FI803928L (fi
FI66268B (fi
Inventor
Unto Laine
Original Assignee
Euroka Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Euroka Oy filed Critical Euroka Oy
Priority to FI803928A priority Critical patent/FI66268C/fi
Priority to JP57500212A priority patent/JPS57502140A/ja
Priority to EP82900108A priority patent/EP0063602A1/en
Priority to PCT/FI1981/000091 priority patent/WO1982002109A1/en
Priority to US06/413,342 priority patent/US4542524A/en
Publication of FI803928L publication Critical patent/FI803928L/fi
Priority to DK354582A priority patent/DK354582A/da
Priority to NO822711A priority patent/NO822711L/no
Publication of FI66268B publication Critical patent/FI66268B/fi
Application granted granted Critical
Publication of FI66268C publication Critical patent/FI66268C/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

, 66268
Malli ja suodinkytkentä akustisen ääniväylän mallintamiseksi, mallin käytöt ja mallia soveltava puhesyntetisaattori Mönster och filterkoppling för ätergivning av akustisk ljudväg, användningar av mönstret och mönstret tillämpande tal-syntetisator
Keksinnön kohteena on ihmisen Mäntöjärjestelmän ja/tai musiikki-inst-rumentteihin liittyvän akustisen ääniväylän malli, joka on toteutettu sähköisellä suodinjärjestelmällä.
5 Keksinnön kohteena on lisäksi keksinnön mukaisten mallien uudenlaiset käyttökohteet sekä keksinnön mukaisia malleja soveltava puhesyntetisaattori.
Keksinnön kohteena on myös suodinkytkentä akustisen ääniväylän mallin-10 tamiseksi.
Tämä keksintö liittyy tyypillisimmillään puhesynteesiin ja puheen keinotekoiseen tuottamiseen elektronisin menetelmin.
15 Keksinnön eräänä tarkoituksena on luoda uusi malli esim. ihmisen puhe-mekanismin akustisten ominaisuuksien eli puheen tuottamisen mallintamiseksi. Menetelmällä aikaansaatuja malleja voidaan myös käyttää puheentunnistuksessa, aidon puhesignaalin parametrien estimoinnissa sekä ns. VOCODER-laitteissa, joissa puhesignaalin analyysin ja synteesin 20 avulla puheviestejä siirretään pienellä informaatiomäärällä esim. pieni-kapasiteettista kanavaa pitkin samalla kun puheen laatu ja ymmärrettävyys pyritään säilyttämään mahdollisimman korkeatasoisina.
Koska keksinnön mallin on tarkoitus soveltua akustisessa putkessa ta-25 pahtuvien ilmiöiden mallintamiseen yleensä, voidaan keksintöä myös soveltaa elektronisiin musiikkisyntetisaattoreihin.
Ennestään tunnetut puheen keinotekoisen tuottamisen menetelmät voidaan jakaa kahteen pääryhmään. Ensimmäisen ryhmän menetelmillä kyetään tuot- 2 66268 tamaan vain sellaisia puheviestejä, jotka on aikaisenmin vastaavista aidoista puhetuotoksista analysoitu, koodattu ja tallennettu. Tunnetuimpia näistä menetelmistä ovat PCM (Pulse Code Modulation), DPCM (Differential Pulse Code Modulation), DM (Delta Modulation) sekä ADPCM 5 (Adaptive Differential Pulse Code Modulation) ja APC (Adaptive Predictive Coding) Näille tunnetuille menetelmille on yhteistä on se, että ne liittyvät läheisesti signaaliteoriaan ja sen pohjalta kehitettyihin yleisiin signaalinkäsittelymenetelmiin, eivätkä siten edellytä yksityiskohtaisempaa tietoa puhesignaalin luonteesta tai sen syntytavasta.
10
Toisen ryhmän muodostavat tunnetut menetelmät, joissa aitoa puhesignaalia ei sellaisenaan eikä koodattuna ole tallennettu, vaan puhe synnytetään laitteistolla, joka mallintaa ihmisen puhemekanismin toimintoja. Aidosta puheesta ensinnä analysoidaan toistuvia, suhteellisen invariant-15 teja elementtejä, äänneyksiköitä eli foneemeja sekä näiden muunnoksia eli foneemien variantteja eri äänneympäristöissä. Puhetta syntetisoitaessa ohjataan ihmisen ääntöeysteemin elektronista vastinetta eli ns. terminaalianalogiaa siten, että aitoa puhetta vastaavia äänteitä ja niiden yhdistelmiä saadaan muodostettua. Toistaiseksi vain näillä mene-20 telmillä on ollut mahdollista tuottaa synteettistä puhetta rajoittamattomasta tekstistä.
Mainittujen kahden tunnetun menetelmäryhmän välimaastoon sijoittuu li-neaarlprediktointi ell LPC (Linear Predictive Coding) /1/ J.D. Markel, 25 A.H. Gray Jr.; Linear prediction of Speech New York, Springer-Verlag 1976. Tämä menetelmä, muista koodausmenetelmistä poiketen, edellyttää puheen tuottamisen mallin hyväksikäyttöä. Llneaariprediktoinnissa läh-töoletuksena on, että puhesignaalin synnyttää lineaarinen systeemi, minkä sisäänmenoon on syötetty soinnillisissa äänteissä säännöllinen 30 impulssljono ja soinnittomissa äänteissä satunnainen impulssijono.
Yleensä identifioitavana siirtofunktiona käytetään napamallia (all-pole-model, vrt. kaskadimalll). Puhesignaalin analyysin avulla voidaan laskea estimaatit siirtofunktion nimittäjäpolynomln kertoimille (a^). Mitä korkeamman asteluvun, joka on sama kuin prediktolnnin asteluku, 35 polynomi omaa, sitä tarkemmin aito puhesignaali saadaan karakterisoitua kertoimien a^ avulla.
3 66268
Mainitut suodinkertoimet a£ ovat kuitenkin foneettiselta kannalta epä-havainnollisiä. Myös digitaalisen suotimen realisoiminen näitä kertoimia käyttäen on ongelmallista mm. suotimien kovorakenteita (hardware) ja Stabiilisuustarkasteluja ajatellen. Osin näistä syistä on lineaari-5 prediktoinnissa ryhdytty käyttämään vastaavan siirtofunktion omaavaa, mutta erilaisella sisäisellä rakenteella varustettua ja erityyppisiä kertoimia käyttävää ristikkosuodinta.
Tunnetussa ristikkosuotimessa on kaksisuuntaisesti toimivia, rakenteelli-10 sesti samanlaisia elementtejä kytketty kaskadiin. Tämä suodintyyppi saadaan tietyin edellytyksin vastaamaan samanmittaisista homogeenisista putkista muodostetun ääniväylän siirtolinjamallia. Suodinkertoimet vastaavat tällöin heijastuskertoimia (| b^ | < 1). Kertoimet b^ saadaan määritettyä puhesignaalista ns. PARCOR (Partial Correlation) menetel-15 mää käyttäen. Vaikka heijastuskertoimet b^ liittyvätkin jo läheisemmin puheen tuottamiseen, eli sen artikulatoriseen puoleen, on näidenkin kertoimien generoiminen sääntösynteesiperiaattein osoittautunut vaikeaksi.
20 Ennestään tunnetut terminaalianalogia-tyyppiset puhesynteesilaitteet edellyttävät siis puheen tuottamisen mallintamista akustis-foneettiselta perustalta. Akustiselle ääntösysteemille, joka koostuu kurkunpäästä, nielusta sekä suu- ja nenäonteloista, on löydettävä sellainen elektroninen vastine, suodin, jonka siirtofunktio noudattelee akustisen sys-25 teemin siirtofunktiota kaikissa ääntötilanteissa. Tällaista aikavariant-tia suodinta kutsutaan terminaalianalogiaksi, koska sen kokonaissiirto-funktio sisäänmenosta ulostuloon eli terminaalien välillä, pyrkii analogisuuteen vastaavan ihmisen ääntöjärjestelmän akustisen siirtofunktion kanssa. Terminaalianalogian keskeisintä osaa kutsutaan ääniväylämalliksi. 30 Tämä on tunnetusti käytössä mm. vokaaliäänteissä ja osittain myös muita äänteitä syntetisoitaessa käytettävän mallin tyypistä riippuen.
Koska ihmisen ääntösysteemi on akustisilta ominaisuuksiltaan erittäin monimutkainen, käytäntöön sovellettavia malleja muodostettaessa joudu-35 taan suorittamaan useita yksinkertaistuksia ja approksimaatioita. Eräs keskeinen periaatteellinen ongelma näiden mallien laadinnassa on se, että ääniväylä on jakautunut systeemi, jonka akustinen siirtofunktio 4 66268 koostuu transkendentaalisista funktioista. Jotta vastaava terminaali-analogia voitaisiin luoda keskitetyistä sähköisistä komponenteista, akustista siirtofunktiota on kyettävä approksimoimaan rationaalisten, meromorfisten funktioiden avulla.
5
Toinen keskeinen seikka on mallin ohjattavuus, eli kuinka monta ja minkä tyyppisiä ohjausparametreja malli vaatii jatkuvan puheen synnyttämiseksi sekä miten optimaalinen, "ortogonaalinen", ja foneettisesti selväpiirteinen valittu ohjausparametrien joukko on.
10
Seuraavassa keksintöön liittyvää tekniikan tasoa ja sen teoreettista perustaa selostetaan yksityiskohtaisesti viittaamalla oheisten piirustusten kuvioihin A-F.
15 Kuvio A esittää tekniikan tason mukaista sarja-(kaskadi) mallia.
Kuvio B esittää tekniikan tason mukaista rinnakkais-mallia.
Kuvio C esittää tekniikan tason mukaista yhdistelmämallia.
20
Kuviot D,E ja F esittävät, keksinnön lähtökohtana olevien ongelmien havainnollistamiseksi, tietokonesimuloinnin graafisia tuloksia.
Ääniväylämalleja muodostettaessa akustinen ääniväylä tunnetusti yksin-25 kertaistetaan suoraksi homgeeniseksi putkeksi sekä lasketaan tälle siirtolinjayhtälöt (vrt. /2/ G. Fant: Acoustic Theory of Speech Production, The Hague, Mouton 1970, luvut 1.2 ja 1.3, sekä /3/ J.L. Flanagan: Speech Analysis Synthesis and Perception, Berlin, Springer-Verlag 1972, ss. 214-228). Tällöin oletetaan, että putki on 30 pienihäviöinen ja suljettu toisesta päästä, glottis 1. äänirako suljettu, toisen pään avautuessa vapaaseen kenttään. Suuaukon akustista kuor-maä voidaan yksinkertaisesti mallintaa joko oikosululla tai äärellisellä impedanssilla Zr· Approksimoitava akustinen siirtofunktio saa tällöin muodon: 35 1 (1) HA(s)--2- cosh y (s) l + ~ sinh γ (s) £ o 5 66268 missä γ (s) = α + jB = etenemiskerroin a = vaimennuskerroin 3 = ω/c = vaihekerroin ω = kulmataajuus 5 c äänen nopeus = akustisen kuorman impedanssi Zq * väylän ominaisimpedanssi I * väylän pituus 10 Kun oletetaan, että väylän häviöt ovat pienet ja että väylä on päätetty oikosulkuun (Zf 0) tai että väylä on häviötön ja Z^_ resistiivinen saa yhtälö (1) muodon (2) ΗΑ(ω) = ---—-:—r A cos kw + j a sm km 15 missä A,a ja k ovat reaalisia. Siirtofunktion Η^(ω) itseisarvon logaritminen amplitudikäyrä on esitetty oheisessa kuviossa 7. Approksimaatioiden lähtökohdaksi valittu homogeeninen ääniväylä vastaa lähinnä neutraali-vokaalin l3l ääntötilannetta. Muissa vokaaliäänteissä ääniväylän profiili 20 ja sen siirtofunktio muuttuvat.
Yleisesti ennestään tunnettu menetelmä idealisoidun akustisen siirtofunktion H (ω) approksimoimiseksi rationaalifunktioilla on elektronisen
A
suotimen konstruoiminen resonanssin omaavista toisen kertaluvun ali-25 tai kaistanpäästösuodinelementeistä. Yleisimmin on käytetty kuviossa A esitettyä alipäästÖsuotimien kaskadikytkentää ja kaistanpäästösuotimien rinnankytkentää, joka on lohkokaaviona esitetty kuviossa B.
Jos akustisessa ääniväylässä väylän profiilin muuttuessa vierekkäiset 30 resonanssit lähenevät toisiaan, vahvistuvat niiden ympäristön signaali-komponentit samoin kuin sarjaankytketyissä elektronisissa resonanssi-piireissä tapahtuu. Tästä johtuen on tunnettu kaskadimalli (kuvio A) rinnakkaismall ia (kuvio B) edullisempi. Jotta resonanssien (eli formant-tien) amplitudisuhteet asettuisivat toivotulla tavalla, joudutaan rin-35 nakkaismallissa säätämään jokaisen amplitudia erikseen (kuviossa B kertoimet A1...A4). Kaskadimallissa amplitudisuhteet asettuvat automaattisesti likimain oikein eikä erillisiä säätöjä välttämättä tarvita. Tosin 6 66268 tässäkin mallissa syntyy tietyissä tilanteissa huomattavia virheitä formaattien amplitudisuhteissa, kuten tuonnempana osoitetaan.
Konsonanttiäänteiden synteesiä ajatellen on puolestaan rinnakkaismalli 5 kaskadimallia edullisempi. Erillisten amplitudisäätöjen ansiosta sen siirtofunktio saadaan aina vastaamaan suhteellisen hyvin akustista siirtofunktiota. Kaskadimallilla ei konsonanttiäänteiden synteesi onnistu ilman väylän rinnalle ja/tai sarjaan kytkettyjä lisäpiirejä. Eräs kaskadi-mallin ongelma, edellisten lisäksi, on valkeus saavuttaa opti-10 maalinen signaali-kohinasuhde. Signaalia joudutaan vuoroin derivoimaan ja vuoroin Integroimaan, jolloin ylemmillä taajuuksilla kohina ja häiriöt lisääntyvät. Malli on tästä perusominaisuudestaan johtuen epäoptl-maalinen myös ajatellen digitaalisia realisaatioita. Mallin vaatima laskentatarkkuus on suurempi kuin rinnankytketyssä mallissa.
15
Kuviossa C on esitetty eräs varsin uusi ennestään tunnettu ratkaisu, ns. Klatt-malll, missä rinnan- ja sarjaankytkettyjen mallien hyvät puolet on pyritty yhdistämään /4/ J. Allen, R. Carlson, B. Granströra, S. Hunnicutt, D. Klatt, D. Flsoni: Conversion of Unrestricted English 20 Text to Speech, Massachusetts Institute of Technology 1979. Tämä tunnettu yhdistelmästäni vaatii saman ohjausparametrljoukon kuin rinnakkais-mallikin. Kaskadlhaaraa F1-F4 käytetään pääasiassa soinnillisten äänteiden ja rinnakkaishaaraa Fl'-F4' frlkatliviäänteiden ja transienttien synteesiin. Tällä yhdistelmämallilla syntetisoitu englanninkielinen 25 puhe on ehkä korkealaatulsinta, mitä tunnetulla sääntösynteeslllä on tähän mennessä saatu aikaan. YhdistelmämalIin käytännöllisiä sovellutuksia vaikeuttaa sen rakenteellisen toteutuksen monimutkaisuus. Yhdistelmämal li vaatii kaksinkertaisen formanttipiirijoukon vastaaviin kaskadi-ja rinnakkaismalleihin verrattuna. Vaikka yhdistelmän eri haaroissa ole-30 via samoihin formantteihin liittyviä piirejä voidaan ohjata samoilla muuttujilla (taajuus, Q-arvo) hankaloittaa rakenteen monimutkaisuus niin digitaalisia kuin analogistakin realisaatioita.
Akustisen siirtofunktion approksimointi rlnnakkalsmallilla on periaat-35 teessä yksinkertaista. Kalstanpäästösuotimien resonanssitaajuudet F1...F4 ja Q-arvot Q1...Q4 säädetään vastaamaan akustisen siirtofunktion arvoja, suotimien ulostulot summataan vaiheistettuina siten, ettei siir- 7 66268 tofunktioon synny nollakohtia ja lopuksi amplitudisuhteet säädetään oikeiksi kertoimien A1...A4 avulla. Rinnakkaismallin käyttö on varsin suoraviivaista approksimointia, eikä siihen liity sen vahvempaa matemaattista taustaa.
5
Sen sijaan menetelmä, millä kaskadimalli luodaan, perustuu selvemmin matemaattiseen analyysiin (kts. /3/ s. 214- ). Kun pienihäviöisen akustisen putken kuorma kuvataan oikosululla, saa yhtälö (1) muodon 10 (3) H (s) = -r-7-v·".
a cosh γ (s) i.
Soveltamalla tähän kompleksimuuttujien funktioille johdettua sarjakehi-telmää, saa lauseke muodon 2 1 00 ω 15 (4) -i- = Π --- cosh γ (s) £ n=l (s-s )(s-s *) n n missä s s funktion cosh γ (s) 1. nollakohta n s» edellisen kompleksikonjugaatti 20 ui^ nollakohtaa vastaava resonanssit aa j uus
Yhtälön (4) mukaan ääniväylän akustinen siirtofunktio, mikä käsittää äärettömän määrän taajuusasteikolla tasavälein sijaitsevia saman kaistaleveyden omaavia resonansseja (kts. kuvio 7), voidaan saattaa ratio-25 naalilausekkeiden tulon muotoon. Kukin rationaalilauseke edustaa resonanssin omaavan toisen kertaluvun alipäästösuotimen siirtofunktiota. Täten haluttu siirtofunktio saadaan periaatteessa syntymään kytkemällä ääretön joukko mainitun tyyppisiä alipäästösuotimia kaskadiin. Käytännön realisaatioissa mukaan tunnetusti otetaan kolmesta neljään alinta reso-30 nanssia, jolloin tätä ylempien formanttien vaikutuksia alemmille taajuuksille approksimoidaan derivoivalla korjaustekijällä (correction of higher poles kts. /2/ ss. 50-51). Sarjakehitelmästä laskettu korjaus-tekijä on esitetty graafisesti kuviossa D (käyrä a). Kaskadimallin koko-naissiirtofunktio korjaustekijöineen on esitetty samassa kuviossa D 35 käyränä b. Kuviossa D käyrä c kuvaa mallin virhettä akustiseen siirto-funktioon verrattuna. Approksimointivirhe on erittäin pieni mallissa mukana olevien formanttien alueella.
8 66268 » i
Todellisuudessa puhetta muodostettaessa ääniväylän profiili ja sen siirtofunktio varioituvat laajassa mitassa. Puhesynteesin kannalta on tärkeää, että käytettävä terminaalianalogia kykenee mallintamaan akustisia ilmiöitä puheen kaikissa vaiheissa ja variaatioissa. Tunnetussa 5 kaskadikytketyssä mallissa on aiemmin kuvattujen vaikeuksien lisäksi havaittu ongelmia epähomogeenisen ääniväylän siirtofunktioiden mallintamisessa. Epähomogeenisen väylän tapauksissa, mitkä muodostavat valtaosan reaalipuheen tilanteista, kaskadimalli aiheuttaa virheitä formant-tien amplitudisuhteisiin. VOCODER-sovellutuksia ajatellen on tätä on- 10 gelmaa pyritty poistamaan spektrin jälkikäteiskorjaukseen perustuvalla patentoidulla ratkaisulla /5/ G. Fant: Vocoder System, US Patent Nr 3,346,695, Oct. 10, 1967. Erityisen ristiriitaisia vaatimuksia aiheuttavat etu- ja takavokaalien saattaminen sävytasapainoon keskenään.
15 Kuvioissa E ja F on edellä kosketeltua ongelmaa havainnollistettu tietokonesimuloinnein. Simuloinneissa akustista ääniväylää on mallinnettu kahdella eri poikkipinnan ja pituuden omaavalla pienihäviöisellä homogeenisella putkella (vrt. /3/ s. 69-72). Tämän epähomogeenisen väylän akustiseen siirtofunktioon on kaskadimalli sovitettu siten, että for- 20 mänttien taajuudet ja Q-arvot ovat samat kuin akustisessa siirtofunktiossa. Kaskadimallin siirtofunktio on kuvissa esitetty käyrinä a ja syntynyt virhe käyrinä b. Kuvio E edustaa lähinnä takavokaalia /o/ ja kuvio F etuvokaalia /e/.
25 Kuvioista E ja F on todettavissa, että kaskadimalli aiheuttaa varsin huomattavaa virhettä niin etu- kuin takavokaaleissakin. Lisäksi virheet ovat erityyppisiä, mikä vaikeuttaa niiden kompensoimista.
| Edellä on tarkasteltu yleisimmin tunnettuja menetelmiä puheen tuotta- t 30 misen mallintamiseksi. Tiivistetysti voidaan todeta, että tunnetuissa malleissa ilmenee seuraavia ongelmia, joiden ainakin osittainen ratkaisu on eräänä esillä olevan keksinnön tarkoituksena.
»
Kaskadimallit (kuvio A): 35 - ei sovellu sellaisenaan frikatiivien eikä useiden muidenkaan konso nanttiäänteiden synteesiin 66268 9 - aiheuttaa dynamiikkaongelmia - aiheuttaa virheitä vokaaliäänteidenkin amplitudisuhteisiin, erityisenä ongelmana on löytää sävybalanssi etu- ja takavokaalien kesken 5 Rinnakkaismallit (kuvio B): - tarvittava ohjausparametrien joukko on suuri - amplitudiparametrien arvot vaikeasti generoitavissa sääntösynteesillä - malli ei toteuta akustisen ääniväylän kaskadiperiaatetta 10 Yhdistelmämallit (Klatt) (kuvio C): - rinnakkais- ja kaskadihaaran osalta ongelmat ovat periaatteessa samat kuin vastaavassa rinnakkais- ja kaskadimalleissa, mainitut haarat kuitenkin täydentävät toisiaan siten, että moni ongelma voidaan välttää kahden erityyppisen haaran rinnakkaisuuden ansiosta 15 - rakenteellinen monimutkaisuus ja parametrien vaikea hallittavuus LPC-synteesi: - suodinparametrit vaikeasti generoitavissa sääntösynteesillä - LPC-synteesin käyttämään puheentuottamisen malliin liittyvät ongelmat, 20 jotka heikentävät synteettisen äänen laatua (vrt. esim. D.Y. Wong:
On Understanding the Quality Problems of LPC Speech, ICA SSP 80,
Denver, Proc., ss. 725-728).
Keksinnön mukaisella menetelmällä aikaansaatuja ääniväylämalleja voidaan 25 soveltaa myös puheanalyysissä ja puheentunnistuksessa, jossa puhesignaalien piirteiden ja parametrien estimoinnilla on keskeinen asema.
Tällaisia parametrejä ovat mm. formanttitaajuudet, formanttien Q-arvot, amplitudisuhteet, soinnillisuus/soinnittomuus sekä soinnillisten ääntei-30 den perustaajuus. Yleensä tähän tarkoitukseen sovelletaan Fourier- muunnosta tai lähinnä säätötekniikan alueelta tuttua estimointiteoriaa. Lineaariprediktointi on yksi estimointimenetelmä.
Estimointiteorioiden perusideana on, että estimoitavasta systeemistä on 35 olemassa jokin apriorinen malli. Estimoinnin periaatteena on, että kun malliin syötetään samankaltainen signaali kuin identifioitavaan systeemiin, saadaan mallin ulostulo vastaamaan sitä paremmin identifioitavan ίο 6 6268 systeemin ulostulosignaalia mitä tarkemmin mallin parametrit vastaavat analysoitavaa järjestelmää. Täten on selvää, että mitä tarkemmin estimoinnissa käytettävä malli vastaa identifioitavaa systeemiä, sitä luotettavampia ovat mallin avulla saatavat estimointitulokset.
5
Esillä olevan keksinnön tarkoitus on tarjota uudenlainen menetelmä puheen tuottamisen mallintamiseksi. Keksinnön menetelmää soveltaen voidaan luoda joukko rakenteellisesti toisistaan eroavia terminaalianalogioita. Keksinnön menetelmällä aikaansaatavien mallien sisäinen organisaatio voi 10 vaihdella puhtaasti kaskadikytketystä puhtaasti rinnankytkettyyn käsittäen myös näiden välimuotoja eli ns. sekamalleja (mixed type models). Kaikissa konfiguraatioissa keksinnön menetelmä antaa kuitenkin yksikäsitteisen ohjeen siitä, millainen yksittäisen formantin siirtofunktion tulee olla yhtälöön (2) nähden parhaan approksimaation aikaansaamiseksi. 15
Esillä olevan keksinnön yleistarkoituksena on edellä ilmenneisiin päämääriin pääseminen sekä aiemmin kosketeltujen epäkohtien välttäminen. Tässä tarkoituksessa keksinnön mukaiselle mallille on pääasiallisesti tunnusomaista se, 20 että mainitun sähköisen suodinjärjestelmän siirtofunktio on olennaisesti yhdenmukainen sellaisen mainittua ääniväylää mallintavan akustisen siirtofunktion kanssa, joka on approksimoitu jakamalla alla olevan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio 25 (5) H. - --:- A cos x + j a sm x kahdeksi tai useammaksi (n kpl) osasiirtofunktioksi H.., joissa on mukana enää joka n:s alkuperäisen siirtofunktion formantti (taulukko 1), 30 että ääniväylän malli vastaa sitä mallia, joka on saatavissa approksimoimalla mainittuja osasiirtofunktioita H.. realisoituvilla rationaa- ij lisiirtofunktioilla, joita kutakin erikseen vastaa sähköisen suodinjärjestelmän elektroninen suodin, että mainitut suotimet on kytketty keskenään sekä rinnan että sarjaan akustisen ääniväylän mallin edellyttämällä tavalla ja 35 11 66268 että suotimien mainittu kytkentä on järjestetty siten, että taajuus-asteikolla vierekkäiset formanttipiirit ovat kaskadissa keskenään.
Lisäksi keksinnön kohteena on keksinnön mukaisten väylämalllen käyttö 5 puhesyntetisaattorin ääniväylämalllna, puheen analyysissä ja tunnistuksessa, keksinnön mukaisten väylämalllen käyttö estimointimallina puhesignaalin parametrejä estimoitaessa sekä myöhemmin esitettävää kaavaa (6) toistuvasti käyttämällä aikaansaatavan, yksittäistä, ideaalia akustista resonanssia kuvaavan siirtofunktion käyttö puhesignaalin 10 analyysissä, parametroinnissa ja puheen tunnistuksessa.
Lisäksi keksinnön kohteena on puhesyntetisaattori, joka käsittää syöttölaitteet, mikrotietokoneen, pulsslgeneraattorin ja kohinageneraattorin, ääniväylämallin sekä laitteet, joilla sähköiset signaalit muutetaan 15 akustisiksi signaaleiksi ja jossa syntetisaattorissa mainitun syöttölaitteen välityksellä mikrotietokoneelle annetaan syntetisoitava teksti ja jonka syöttölaitteen lähettämä koodattu teksti siirtyy sarja- tai rinnakkaismuotoisina signaaleina mainitun mikrotietokoneen ottopli-rien kautta sen väliaikaiemuistiin ja jonka mikrotietokoneen aritmeettis-20 looginen yksikkö toimii pysyväismulstin talletetun ohjelman määräämällä tavalla ja jossa puhesyntetisaattorissa mikrotietokone lukee ottopli-relltä sisäänsyötetyn tekstin ja tallentaa sen väliaikaiemuistiin ja jossa puhesyntetisaattorissa sen jälkeen kun syntetisoitava merkkijono on tallennettu, käynnistetään sääntösynteesiohjelma, joka analysoi tal-25 lennetun tekstin sekä muodostaa taulukolta ja säännöstöjä käyttäen ohjaussignaalit terminaallanaloglalle, joka koostuu pulssi- ja kohina-generaattorista sekä äänlväylämallista. Edellä määritellylle, keksinnön kohteena olevalle puhesyntetisaattorille on pääasiallisesti tunnusomaista se, että ääniväylämalllna puhesyntetisaattorissa on keksinnön mukai-30 nen rinnakkais-sarja-malli.
Keksintö eroaa ennestään tunnetuista vastaavista menetelmistä ja malleista olennaisesti siinä, että muotoa (2) olevaa akustista siirtofunktiota el approksimoida yhtenä kokonaisuutena, vaan se ensin jaetaan eksaktein 35 menetelmin spektrirakenteeltaan yksinkertaisempiin osasiirtofunktioihln. Vasta tämän jälkeen suoritetaan varsinainen approksimointi. Näin edeten menetelmä minimoi approksimointlvlrheen, jolloin saatujen mallien siirto- 12 66268 funktiot eivät enää vaadi korjaustekijöitä epähomogeenisissäkään tapauksissa.
Keksinnön menetelmän sopivin keksijän tiedossa oleva käyttöalue on seka-5 mallien toteutuksessa. Selostuksessa keksinnön mukaisista sekamalleis-ta, jotka ovat määrätynlaisia rinnakkais-sarja-malleja, käytetään nimitystä FARCAS-malli, mikä on johdettu sanayhdistelmästä PARALLEL & CASCADE.
Keksinnön mukaiset PARCAS-mallit ovat realisoitavissa rakenteellisesti 10 yksinkertaisilla suotimilla. Yksinkertaisuudestaan huolimatta keksinnön malleilla saavutetaan aiempaa parempi vastaavuus ja tarkkuus ihmisen ääntöjärjestelmän akustisten ilmiöiden mallintamisessa. Keksinnössä sama rakenne kykenee mallintamaan efektiivisesti kaikkia ihmisen puheeseen liittyviä ilmiöitä ilman huomattavaa määrää ulkopuolisia lisäsuotimia 15 tai vastaavia lisärakenteita. PARCAS-mallien tarvitsema ohjausparametrien joukko on suhteellisen kompakti ja ortogonaalinen. Kaikki parametrit ovat akustis-foneettisesti relevantteja sekä sääntösynteesiperiaattein helposti generoitavissa.
20 Keksinnön mukaisesti PARCAS-malleissa yhdistyvät sarja- ja rinnakkais-mallien edut haittojen samalla monilta osin eliminoituessa.
Keksinnön mukainen malli antaa yksityiskohtaiset ohjeet siitä, minkä tyyppisiä esim. kuvion 1 mallissa käytettävien yksittäisten formantti-25 piirien F1...F4 tulee suodinominaisuuksiltaan olla, jotta mallin koko-naissiirtofunktio approksimoisi mahdollisimman tarkkaan yhtälön (2) mukaista akustista siirtofunktiota. Keksinnön menetelmä perustuu nimenomaan yhtälön (2) jakamiseen yksinkertaisempiin osasiirtofunktioihin, joissa tarkastellulla taajuuskaistalla esiintyy alkuperäiseen nähden vä-30 hemmän resonansseja. Jako osasiirtofunktioihin voidaan homogeenisen ääniväylän tapauksessa tehdä täysin eksaktisti. Menetelmän seuraavan vaiheen muodostaa osasiirtofunktioiden approksimointi esim. toisen kertaluvun suotimilla.
35 Seuraavassa keksintöä selostetaan yksityiskohtaisesti viittaamalla oheisen piirustuksen kuvioissa esitettyihin keksinnön eräisiin sovellutus-esimerkkeihin, joiden yksityiskohtiin keksintö ei ole mitenkään ahtaasti rajoitettu.
13 66268
Kuvio 1 esittää keksinnön mukaista rinnakkais-sarja-(PARCAS)-mallia lohkokaaviona.
Kuvio 2 esittää erästä keksinnön mukaisen yksittäisen formanttipiirin 5 toteutusta ali-, yli- ja kaistanpäästösuotimien siirtofunktioiden yhdistelmällä.
Kuvio 3 esittää lohkokaaviona keksinnön mukaista mallia käyttävää puhe-syntetisaattoria.
10
Kuvio 4 esittää lohkokaaviona kuvion 3 mukaisen puhesyntetisaattorin mikrotietokoneen tarkempaa toteutusta ja sen eri yksiköiden välistä kommunikointia.
15 Kuvio 5 esittää keksinnön mukaiseen PARCAS-malliin perustuvan terminaa-lianalogian tarkempaa toteutusta.
Kuvio 6 esittää erästä vaihtoehtoista keksinnön mukaisen mallin toteutusta.
20 Kuviot 7,8,9,10,11,12 ja 13 esittävät erilaisia tietokonesimuloinnilla aikaansaatuja, taajuuden funktiona olevia amplitudikäyriä, joiden tarkoituksena on havainnollistaa keksinnön mukaisella mallilla aikaansaatavia etuja tekniikan tasoon verrattuna.
25 Kuviossa 1 on esitetty eräs tyypillinen keksinnöllä luotu PARCAS-malli. Kuviosta 1 on välittömästi todettavissa, että PARCAS-malli toteuttaa ääniväylän kaskadiperiaatteen, ts. vierekkäiset formaatit (lohkot F1...F4) ovat edelleen kaskadissa keskenään (F1 ja F2, F2 ja F3, F3 ja F4 jne.). Samanaikaisesti kuvion 1 malli toteuttaa myös sen rinnakkaismallien omi-30 naisuuden, että signaalin alempia ja ylempiä taajuuskomponentteja voidaan käsitellä toisistaan riippumatta parametrien A^,A^,k^,k2 säädön avulla. Tämän mahdollistaa suodinelementteissä A ja B olevat rinnakkaiset formanttipiirit F1,F3 ja F2,F4. Tästä rakenteellisesta ominaisuudesta johtuen kuvion 1 PARCAS-malli soveltuu soinnillisten äänteiden lisäksi 35 hyvin myös mm. frikatiivien, sekä soinnillisten että soinnittomien, että transienttityyppisten efektien synteesiin. Esimerkiksi s-äänteen mahdollisesti vaatima viides formanttipiiri voidaan kytkeä joko kuvion 1 lohkon A rinnalle tai koko suodinjärjestelmän kanssa kaskadiin. Nasaalien 14 66268 vaatima 250 Hz:n formanttipiiri voidaan myös lisätä peruskonstruktioon usealla eri tavalla. Kuvion 1 lohkojen A ja B rinnakkaisrakenteiden ansiosta PARCAS-mallilla on saavutettavissa rinnakkaismallin tasoinen signaalidynamiikka ja hyvä signaali-kohinasuhde. Samasta syystä malli 5 on edullinen myös puhtaasti digitaalisten realisaatioiden kannalta.
Seuraavassa käsitellään yksityiskohtaisesti keksinnön mallin analyyttistä perustaa.
10 Yhtälön (2) mukaisesta siirtofunktiosta voidaan jatkotarkasteluissa jättää amplituditekijä A pois, jolloin approksimoitava akustinen siirtofunktio saa muodon (5) H (ω) = --J-,-,- A cos x + j a sm x 15 missä a on väylän häviöistä ja/tai sen akustisesta kuormasta riippuva reaalinen kerroin (a < 1) ja x = km. Yhtälön (5) mukainen lauseke voidaan esittää täsmällisesti kahden osasiirtofunktion tulona seuraavasti: 20 (6) .....-....4_,___,_i_,_,_ cos x + j a sin x (b cos x_ + j c sin x_) (b cos x+ + j c sin x+) missä x_ = (χ-π/2)/2 25 x+ = (x+it/2)/2 b * ( V 1+a + \A.-a)/ n/T"
c = (/Ϊ+2 - VT^a)/ \TP
Yhtälön (6) osasiirtofunktiot voidaan esittää myös muodossa: 30 (7) _1_ = _v ' ’ b cos x+ + j a sin x+ cos x+ + j a’ sin x+ missä a' = (1- 'Z 1-a^)/a b* = 1/b = c/a * ( V 1+a - 1-a)/( '/ι - a)
Yhtälöt (6) ja (7) osoittavat, että alkuperäinen siirtofunktio (2) voidaan jakaa kahdeksi osasiirtofunktioksi, jotka ovat periaatteessa saman 35 15 66268 tyyppisiä kuin alkuperäinen. Osasiirtofunktioissa on kuitenkin mukana vain joka toinen alkuperäinen funktion resonanssi.
Edellä esitetyssä analyysissä alkuperäinen akustinen siirtofunktio on 5 jaettu kahteen osaan. Soveltamalla samaa menettelyä uudestaan osiin, voidaan kumpikin hajottaa edelleen vähemmän resonansseja sisältäviin osasiirtofunktioihin.
Kuvioissa 7 on esitetty graafisesti alkuperäinen akustinen siirtofunktio 10 Η^(ω) tapauksessa = 100 Hz (kaistaleveydet vakiot). Funktio Η^(ω) edustaa toista ensimmäisestä osituksesta saaduista osasiirtofunktioista ja funktio Η^(ω) tästä edelleen osittamalla saatua siirtofunktiota. Osasiirtofunktio Η2^(ω) on funktion Η^(ω) muotoinen formanttihuippujen sijaitessa toisen ja neljännen formantin kohdalla. Vastaavasti saadaan 15 osasiirtofunktiot Η^(ω), Η^ίω) ja Η^(ω) kuvaajaa Η^(ω) taajuusasteikon suuntaisesti siirtämällä.
Edellä esitetyn kaltaisin periaattein on alkuperäinen akustinen siirto-funktio jaettavissa kahden asemesta myös kolmeen, neljään jne. keskenään 20 samankaltaiseen osasiirtofunktioon. Jako kahteen osaan on kuitenkin käytännöllisin ajatellen neljästä formantista koostuvia väylämalleja.
Yhtälöä (6) ensimmäisen kerran yhtälöön (2) sovellettaessa päädytään kuvion 1 mukaiseen PARCAS-rakenteeseen. Kun yhtälöä (6) sovelletaan 25 toistamiseen osasiirtofunktioihin ja H^^ päädytään puhtaasti kaska-dikytkettyyn malliin, missä jokaisen formanttipiirin siirtofunktio on, tai tulisi olla, muotoa H^. Kyseisellä mallintamismenetelmällä voitaisiin siis luoda myös puhtaasti kaskadikytketty malli, joka ei kuitenkaan ole edullinen. Aikaisemmista poiketen olisi tämän uuden mallin formantit 30 lähempänä kaistanpäästö- kuin alipäästötyyppiä. Mikäli H^n mukaisia siirtofunktioita onnistuttaisiin approksimoimaan riittävän tarkasti, ei muodostettu kaskadimalli vaatisi enää spektriä korjaavia lisäsuotimia. Samalla olisi kuitenkin suodinkokonaisuuden dynamiikka muuttunut huomattavasti paremmaksi verrattuna esim. tunnettuun kaskadimalliin (kuvio A). 35
Yleisesti ottaen edellä kuvattua periaatetta noudattamalla voidaan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio H
A
ie 66268 jakaa n kpl osasiirto£unktioksi, joissa on mukana joka n:s alkuperäisen siirtofunktion formantti ja joiden kaskadikytkentänä syntyy täsmälleen alkuperäinen siirtofunktio H^. Seuraavassa taulukossa 1 on esitetty, minkälaisia osasiirtofunktioita syntyy erityistapauksissa n » 2 ja 5 n = 3 sekä yleisessä tapauksessa. Taulukko 1 ilmaisee myös, mitkä formantit kuuluvat mihinkin osasiirtofunktioon: TAULUKKO 1 10 n = 2 V H13 Δ { Fx, F3, F5,...} »24 i { F2* F4· F6.....> n * 3 15 Ha: Hu Δ { Yv F4, F7,...} H25 - * F2* F5* F8’···^ H36 - * F3’ F6* F9*"* ** yleinen muoto: 20 HA: Hl(n+1) - { Fl’ F(n+1)’ Ρ(2η+1)’·',} H2(n+2) - { F2* F(n+2) ’ F(2n+2)’",}
Hn(2n) ± < Fn* F2n’ F3n’*--} 25 Yhtälö (5) on myös jaettavissa kahteen siirtofunktioon, joiden suomana alkuperäinen funktio muodostuu.
cos x_ + j sin x_ (Q\ _} rn 1 t + v ' cos x + j a sin x b-c b cos x + j c sin x^ 30 cos x+ + j sin x+ b cos x_ + j c sin x missä x_, x+, b ja c ovat kuteh yhtälössä (6).
Saadut siirtofunktiot poikkeavat yhtälössä (6) esitetyistä vain osoittajassa olevien vaihetekijöiden osalta. Soveltamalla yhtälöä (8) ensin yhtälöön (2) ja tämän jälkeen saatuihin osasiirtofunktioihin muodostuu 35 17 66268 rinnakkaismalli, jossa yksittäisten formanttipiirien siirtofunktiot ovat muotoa H^. Yhtälöä (8) voidaan soveltaa myös osasiirtofunktioiden ja H24 jakamiseen rinnakkaisiin elementteihin ja l^· Täten voidaan saada tarkempi kuva miten alempi ja ylempi formantti tulee approksimoida ja 5 miten vaihesuhteet järjestää, jotta tavoitteena oleva yhdistetty siirto-funktio syntyisi.
On ilmeistä, että tarkan ja samalla yksinkertaisen polynomiapproksimaation löytäminen tyyppiselle funktiolle on vaikeaa. Akustisen resonanssin 10 amplitudikäyrä on lineaarisella taajuusasteikolla symmetrinen, mitä useimmat yksinkertaiset toisen kertaluvun suotimien siirtofunktiot eivät ole. Samoin on vaikea löytää approksimaatio, mikä olisi tarkka koko tarkastelulla taajuuskaistalla. Tämä tarkkuusvaatimus on oleellinen puhtaassa kaskadimallissa, sensijaan puhdas rinnakkaismalli ei ole tässä 15 suhteessa kriittinen.
Keksinnön mukaisia ääniväylämalleja voidaan soveltaa mm. puhesyntetisaattoreissa esim. kuvion 3 esittämällä tavalla. Syöttölaitteen 10 (input device) välityksellä mikrotietokoneelle 11 annetaan sähköiseen muotoon 20 saatettu syntetisoitava teksti Cl (coded text). Syöttölaitteena 10 voi toimia joko alfanumeerinen näppäimistö tai jokin laajempi tietojenkäsittelyjärjestelmä. Syöttölaitteen 10 lähettämä koodattu teksti Cl siirtyy sarja- tai rinnakkaismuotoisina signaaleina mikrotietokoneen 11 ottopiirien (input) kautta sen väliaikaismuistiin (RAM). Mikrotietoko-25 neelta 11 saadaan ohjaussignaalit C2, jotka ohjaavat sekä pulssigene-raattoria 13 ja kohinageneraattoria 14, jotka viimemainitut on kytketty yhteillä C3 keksinnön mukaiseen PARCAS-malliin 15. PARCAS-mallin lähtö-signaalina C4 saadaan sähköinen puhesignaali, joka muutetaan kaiutti-mella 16 akustiseksi signaaliksi C5.
30
Mikrotietokoneen 11 muodostaa joukko kuvion 4 mukaisia integroituja piirejä tai yksi integroitu piiri, mikä sisältää mainitut yksiköt. Yksiköiden välinen kommunikointi tapahtuu data-, osoite- ja kontrollilinjojen välityksellä. Mikrotietokoneen 11 aritmeettis-looginen yksikkö (C.P.U.) 35 toimii pysyväismuistiin (ROM) tallennetun ohjelmän määräämällä tavalla. Prosessori lukee ottopiireiltä (input) sisäänsyötetyn tekstin ja tallentaa sen väliaikaismuistiin (RAM). Kun syntetisoitava merkkijono on tallennettu, sääntösysteemiohjelma käynnistyy. Tämä analysoi tallennetun 18 66268 tekstin sekä muodostaa taulukoita ja säännöstöjä käyttäen ohjaussignaalit (controls) terminaalianalogialle, mikä koostuu pulssi- ja kohina-generaattorista 13,14 sekä keksinnön mukaisesta ääniväylämallista 15.
5 PARCAS-malliin perustuvan terminaalianalogian tarkempi rakenne on esitetty kuvassa 5. Soinnillisissa äänteissä toimii pääasiallisena signaali-lähteenä pulssigeneraattori 13, minkä värähtelytaajuutta F0 ja pulssien amplitudia A0 voidaan erikseen ohjata. Frikatiiviäänteissä lähteenä toimii kohinageneraattori 14 (noise generator). Soinnillisissa frikatii-10 veissa molemmat signaalilähteet 13,14 toimivat samanaikaisesti. Lähteistä saatavat herätteet syötetään kolmeen rinnankytkettyyn suotimeen F^,F^ ja F^,- amplitudisäätimien kautta. Sekä soinnillisten että frikatiivi-äänteiden spektrien ylempien ja alempien taajuuksien amplitudeja voidaan säätää erikseen ohjauksilla VL,VH ja vastaavasti FL,FH. Suotimilta F^, 15 F^ Ja tulevat signaalit summataan. Joko ennen summausta tai summauksen yhteydessä suotimesta F^ saatavaa signaalia vaimennetaan kertoimella k,, ja suotimesta F, _ saatavaa kertoimella k,„. Suotimista 11 15 13 F11...F15 saatu summattu signaali viedään suotimille F^ Ja ^4· Rinnan edellä mainittujen suotimien kanssa on kytketty nasaaliresonaattori N 20 (resonanssitaajuus 250 Hz), minkä ulostulo summataan suotimilta F^ ja F^ saatavien signaalien kanssa, samalla kun suotimen F^ kautta kulkenutta signaalikomponenttia vaimennetaan kertoimella k^· Terminaali-analogian muita parametreja ovat formanttien Q-arvot (Qll,Q12,Q13,Q14,QN). Terminaalianalogian parametreja sopivasti ohjaamalla saadaan ulostulo-25 signaali vastaamaan haluttuja äänteitä.
Kuvan 5 terminaalianalogia edustaa yhtä keksinnön mukaisen PARCAS-peri-aatteen realisaatiota. Samaa perusratkaisua voidaan modifioida mm. for-manttipiirien F^,. ja N asemaa muuttamalla. Kuviossa 6 on esitetty eräs 30 tällainen variantti.
Sekä tietokonesimuloinnein että käytännön laboratoriokokein on voitu todeta, että keksinnön mukaisella PARCAS-mallilla on mahdollista saavuttaa muita ratkaisuja suurempi tarkkuus siirtofunktion approksimoinnissa.
35 Tämä johtuu pääasiassa suodinelementtien A ja B (kuvio 6) sisäisistä rakenteista. Jos esim. halutaan muodostaa puhdas kaskadimalli H^ tyyppisistä siirtofunktioista (kuvio 7), olisi tällaista siirtofunktiota 19 66268 kyettävä approksimoimaan tarkasti koko tarkastellulla taajuuskaistalla. Tämä kuitenkin osoittautuu käytännössä vaikeaksi.
Kuviossa 2 on havainnollistettu H2:n approksimointia alipäästösuotimella 5 LP, ali- ja kaistanpäästösuodinyhdistelmällä LP/BP sekä ali-ylipäästö-suodinyhdistelmällä LP/HP. Mainitut suotimet voidaan realisoida esim. kuvion 2 mukaisella parametrisuodinperiaatteella. Kuvion 8 toteutusesi-merkissä alipäästöapproksimaatio aiheuttaa suurimman ja LP/HP yhdistelmä keskimäärin pienimmän virheen. Kaikissa tapauksissa approksimointivirhe 10 on suuri taajuuskaistan yläpäässä.
PARCAS-malleissa, missä approksimoitavat siirtofunktiot ovat muotoa (kuvio 9), on approksimointivirhe mahdollista saada laajalla kaistalla hyvin pieneksi. Kuviossa 9 on approksimoitu LP/BP ja HP/BP suotimien 15 rinnankytkennällä ja virheen voidaan todeta jäävän erittäin pieneksi keskeisellä taajuuskaistalla. Kuvio 10 esittää H24:n approksimointia pelkillä ali- ja ylipäästösuotimilla. Tässäkin virhe E24 jää keskimäärin pieneksi.
20 Kuviossa 11 on esitetty kuvien 9 ja 10 mukaisten approksimaatioiden yhteistuloksena syntyvän keksinnön periaatteiden mukaisen PARCAS-mallin kokonaissiirtofunktio ja virhe E akustiseen siirtofunktioon verrattuna. Mallin kertoimet (kts. kuvio 1) ovat tässä tapauksessa k^ = -0,2, k2 = 0,43 ja A^ = A^. Kyseiset kertoimien k^ arvot edustavat neutraali-25 vokaalitapausta. Epähomogeenisen väylän tapauksessa mainittuja kertoimia tulee säätää formanttien Q-arvoja vastaten seuraavasti· (9) kt = Q1/Q3 k2 = Q2/Q4.
30 Mikäli kaistaleveydet pysyvät vakiona, esim. Bi * 100 Hz, kertoimet voidaan määritellä suoraan resonanssitaajuuksista (10) kx - P1/P3 k2 = F2/F4.
35 Säätämällä kertoimia k^ yhtälöiden (10) mukaisesti saavutetaan PARCAS-mallilla suurempi tarkkuus kaikissa vokaaliäänteissä. Kuvioissa 12 ja 13 on noudatettu tätä periaatetta simuloitaessa vokaaleja /o/ ja lii ja voidaan todeta, että approksimointivirhe jää näissä epähomogeenisen 20 66268 väylän tapauksissa keskeisimmällä taajuusalueella merkittävästi pienemmäksi kuin kaskadimallilla (vrt. kuviot E ja F).
Edellä oleva esimerkki osoittaa, että keksinnön mukainen PARCAS-ratkaisu 5 poistaa monet kaskadimallin ongelmat. Samalla keksinnön mukainen malli on tunnettua kaskadimallia olennaisesti yksinkertaisempi, esim. koska se ei vaadi korjaavaa suodinta ja lisäksi se on tarkempi epähomogeenisten ääniväyläprofiilien tapauksissa.
10 Kuten aiemmin selityksen johdanto-osassa todettiin, keksintöä voidaan soveltaa myös puheentunnistuksen yhteydessä. Tämän keksinnön mukaisella menetelmällä luodut mallit on voitu todeta yksinkertaisiksi ja tarkoiksi akustisen ääniväylän malleiksi. Täten on ilmeistä, että näiden mallien käyttö myös puhesignaalin parametrien estimoinnissa on edullista. Tämän 15 keksinnön suojapiiriin kuuluvat täten myös keksinnön mukaisten mallien käyttö puheentunnistuksessa, sen parametrien estimointiprosessissa.
Lisäksi käyttämällä kaavaa (6) toistuvasti (rajatta) saadaan syntymään yksittäistä (ideaalia) akustista resonanssia kuvaava siirtofunktio.
20 Myös tällä siirtofunktiolla ja sen polynomiapproksimaatiolla on käyttöä puhesignaalin parametrien, lähinnä formanttitaajuuksien, estimoinnissa. Sovittamalla mainittua ideaalia resonanssia puhesignaalin spektriin ovat formanttitaajuudet efektiivieesti identifioitavissa. Tämän keksinnön suojapiiriin kuuluvat myös mainitun ideaaliformantin käyttö puhesignaa-25 Iin analyysissä.
Seuraavassa esitetään patenttivaatimukset, joiden määrittelemän keksinnöllisen ajatuksen puitteissa keksinnön eri yksityiskohdat voivat vaihdella.

Claims (12)

21 66268
1. Ihmisen ääntöjärjeetelmän ja/tal muslikki-instrumenttelhin liittyvän akustisen ääniväylän malli· joka on toteutettu sähköisellä suodin-järjestelmällä, tunnettu siitä· 5 että mainitun sähköisen suodinjärjestelmän siirtofunktio on olennaisesti yhdenmukainen sellaisen mainittua ääniväylää mallintavan akustisen siirtofunktion kanssa, joka on aproksimoitu jakamalla alla olevan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio 10 (5) H - _i- Λ cos x + j a sin x kahdeksi tai useammaksi (n kpl) osasiirtofunktioksl H^» joissa on mukana enää joka n:s alkuperäisen siirtofunktion formanttl (taulukko 1), 15 että ääniväylän malli vastaa sitä vallia, joka on saatavissa approksimoimalla mainittuja osasilrtofunktloita realisoituvilla ratlonaa-lisiirtofunktloilla, jolta kutakin erikseen vastaa sähköisen suodinjärjestelmän elektroninen suodin, 20 että mainitut suotimet on kytketty keskenään sekä rinnan että sarjaan akustisen ääniväylän mallin edellyttämällä tavalla ja että suotimien mainittu kytkentä on järjestetty siten, että taajuus-asteikolla vierekkäiset foxmanttiplirit (F1 ja F2; F2 ja F3; F3 ja F4; ...) 25 ovat kaekadlsea keskenään.
2. Patenttivaatimuksen 1 mukainen akustisen ääniväylän malli, tunnettu siitä, että rinnankytkettyjen formanttipllrien lähtöampli-tudien summauksessa niiden painokertoimet ovat vakioineet. 30
3. Patenttivaatimuksen 1 tai 2 mukainen kertalukua n 2 oleva rinnak-kaissarjamalll, tunnettu siitä, että sähköisen suodinjärjestelmän siirtofunktiolta ja on approksimoitu alipääetösuotlmella (LP), ali- ja kaistanpääetösuodinyhdistelmällä (LP/BP) sekä ali- ja ylipääs- 35 tösuodinyhdistelmällä (LP/HP) (kuviot 2,10 ja 11). 22 66268
4. Patenttivaatimuksen 3 mukainen rinnakkaisearj amalii, tunnet-t u siltä, että k-kertoimet (kuvio 1) on valittu yhtälön (9,10) mukaan seuraavasti: k^ 4 0,5/2,5 ja k^ * 1,5/3,5.
5. Patenttivaatimuksen 3 mukainen rlnnakkaissarjamalli, tunnet- t u siltä, että mallin eri haarojen summauspleteisiin on järjestetty myös signaalien erotus niin, että siirtofunktioon syntyy nollakohtia eli antlresonaneseja,
6. Patenttivaatimuksen 3 mukainen rlnnakkaissarjamalli, tunnet- t u siitä, että suodlnelementtlln (H^j) slsäänmenevlen signaalien amplitudeja kontrolloidaan toisistaan riippumatta (A^ ja A^, kuvio 1).
7, Patenttivaatimuksen 1,2,3,4,5 tai 6 mukaisen äänlväylämallin käyttö 15 puheentunnistuksessa.
8. Patenttivaatimuksen 1,2,3,4,5 tai 6 mukaisen äänlväylämallin käyttö estlmointimallina puhesignaalin parametreja estimoitaessa.
9. Patenttivaatimuksen 1,2,3,4,5 tai 6 mukaisen äänlväylämallin käyttö puhesyntetisaattorin ääniväylämallina (15).
10. Puhesyntetisaattori, joka käsittää syöttölaitteet (10), mikrotietokoneen (11), pulssigeneraattorin (13) ja kohinageneraattorin (14), äänl-25 väylämallln (15) sekä laitteet (16), joilla sähköiset signaalit muutetaan akustisiksi signaaleiksi Ja jossa syntetisaattorissa mainitun syöttölaitteen (10) välityksellä mikrotietokoneelle (11) annetaan syntetisoitava teksti (cp ja jonka syöttölaitteen (10) lähettämä koodattu teksti (C^ siirtyy sarja- tai rinnakkaismuotoisina signaaleina mai-30 nitun mikrotietokoneen (10) ottopilrien kautta sen välialkalsmuistiin (RAM) Ja jonka mikrotietokoneen (11) arltmeettis-looginen yksikkö (CPU) toimii pysyväismuistin (ROM) talletetun ohjelman määräämällä tavalla ja jossa puhesyntetisaattorissa mikrotietokone lukee ottopiirelltä sisääneyötetyn tekstin ja tallentaa sen välialkalsmuistiin (RAM) ja 35 jossa puhesyntetisaattorissa sen jälkeen kun syntetisoitava merkkijono on tallennettu, käynnistetään säätösynteesiohjelma, joka analysoi tallennetun tekstin sekä muodostaa taulukolta ja säännöstöjä käyttäen oh- 66268 23 jaussignaalit (C^) terminäniianalogialle (13,14,15), joka koostuu pulssi- ja kohinageneraattorista (13,14) sekä ääniväylämallista, tunnettu siitä, että mainittu ääniväylämalli koostuu sähköisestä suodinjärjestelmästä, jonka siirtofunktio on olennaisesti yhdenmukainen sellaisen mainittua ääniväylää mallintavan akustisen 5 siirtofunktion kanssa, joka on approksimoitu jakamalla alla olevan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio (5) H = _\_____ cos x + j a sin x 10 kahdeksi tai useammaksi (n kpl) osasiirtofunktioksi , joissa on mukana enää joka n:s alkuperäisen siirtofunktion formantti (taulukko 1), että ääniväylän malli vastaa sitä mallia, joka on saatavissa approksimoimalla mainittuja osasiirtofunktioita IL realisoituvilla rationaali lisiirtofunktioilla, joita kutakin erikseen vastaa sähköisen suodin-järjesfelmän elektroninen suodin, että mainitut suotimet on kytketty keskenään sekä rinnan että sarjaan akustisen ääniväylän mallin edellyttämällä tavalla ja .'0 että suotimien mainittu kytkentä on järjestetty siten, että taajuus-asteikolla vierekkäiset formanttipiirit (Il ja F2; F2 ja F3; F3 ja F4; ...) ovat. kaskadissa keskenään.
11. Patenttivaatimuksen 10 mukainen puhesyntetisaattori, tunnet- t u siitä että signaalilähteenä soinnillisissa äänteissä on järjestetty toimimaan pääasiallisesti pulssigeneraattori (14), jonka värähtely-taajuutta (F0) ja pulssien amplitudia (A0) erikseen ohjataan ja että frikatiiviäänteiden lähteenä on järjestetty toimimaan pääasiallisesti 10 kohinageneraattori (14) sekä että soinnillisissa frikatiiveissa molemmat signaalilähteet (13,14) on järjestetty toimimaan samanaikaisesti.
12. Patenttivaatimuksen 1.1 mukainen puhesyntetisaattori, tunnet-t u siitä, että mainituista signaalilähteistä (13,14) saatavat herät-?5 teet syötetään kolmeen rinnankytkettyyn suotimeen (Fjj.F^.. ja Fj^) amplitu-disäätimlen (Vh, VI!, F]-, FII) kautta, että mainituilta suotimilta 24 66268 ja Κ|Γ) tulevat signaalit: summataan (Σ), että joko ennen mainittua summausta tai sen jälkeen yhdestä mainitusta suotimesta (F^) saatava signaali vaimenne ti; an tietyllä kertoimella (kjj), että toisesta mainitusta suotimesta (Fj r) saatavaa signaalia vaimennetaan toisella kertoimella (k.,.), että mainituista suotimista (F. ....F,,) saatu summattu 1 .< L 1 1 ) signaali viedään toisille suotimille (F^ ja ) ja että edellä mni· ς tuttujen suotimien kanssa on kytketty rinnan nasaali- resonaattori (N), jonka ulostulo summataan jälkimmäisiltä suotimilla »FI . ja 1’|ή) saatavien signaalien kanssa samalla kun toisen viimemainitun suotimen (F^) kautta kulkenutta signaalikomponenttia vaimennetaan tietyllä kertoimella (k^). 10 II. Patenttivaatimuksen 12 mukainen puhesyntetisaattori, tunnet-t u siitä, että mainitun terminaalianalogian muina parametreinä käytetään formant tien Q-arvoja (Qjj ^ Ja etta kaikkia tei" minaalianalogian parametreja ohjataan siten, että terminaalianalogian 1l' ulostulosignaali saadaan riittävällä tarkkuudella vastaamaan kulloinkin syntetisoi tavia äänteitä. 66268
FI803928A 1980-12-16 1980-12-16 Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator FI66268C (fi)

Priority Applications (7)

Application Number Priority Date Filing Date Title
FI803928A FI66268C (fi) 1980-12-16 1980-12-16 Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator
JP57500212A JPS57502140A (fi) 1980-12-16 1981-12-15
EP82900108A EP0063602A1 (en) 1980-12-16 1981-12-15 Filter system for modelling a sound channel and speech synthesizer using the same
PCT/FI1981/000091 WO1982002109A1 (en) 1980-12-16 1981-12-15 Method and system for modelling a sound channel and speech synthesizer using the same
US06/413,342 US4542524A (en) 1980-12-16 1981-12-15 Model and filter circuit for modeling an acoustic sound channel, uses of the model, and speech synthesizer applying the model
DK354582A DK354582A (da) 1980-12-16 1982-08-06 Model og filterkreds til dannelse af model af en akustisk lydkanal,anvendelser af modeller og talesyntesizer,hvori modellen anvendes
NO822711A NO822711L (no) 1980-12-16 1982-08-09 Fremgangsmaate og system for utforming av en lydkanal og talesyntetiserer som bruker denne

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI803928A FI66268C (fi) 1980-12-16 1980-12-16 Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator
FI803928 1980-12-16

Publications (3)

Publication Number Publication Date
FI803928L FI803928L (fi) 1982-06-17
FI66268B FI66268B (fi) 1984-05-31
FI66268C true FI66268C (fi) 1984-09-10

Family

ID=8513987

Family Applications (1)

Application Number Title Priority Date Filing Date
FI803928A FI66268C (fi) 1980-12-16 1980-12-16 Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator

Country Status (6)

Country Link
US (1) US4542524A (fi)
EP (1) EP0063602A1 (fi)
JP (1) JPS57502140A (fi)
FI (1) FI66268C (fi)
NO (1) NO822711L (fi)
WO (1) WO1982002109A1 (fi)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58161000A (ja) * 1982-03-19 1983-09-24 三菱電機株式会社 音声合成器
US4644476A (en) * 1984-06-29 1987-02-17 Wang Laboratories, Inc. Dialing tone generation
FR2632725B1 (fr) * 1988-06-14 1990-09-28 Centre Nat Rech Scient Procede et dispositif d'analyse, synthese, codage de la parole
JP2564641B2 (ja) * 1989-01-31 1996-12-18 キヤノン株式会社 音声合成装置
NL8902463A (nl) * 1989-10-04 1991-05-01 Philips Nv Inrichting voor geluidsynthese.
KR920008259B1 (ko) * 1990-03-31 1992-09-25 주식회사 금성사 포만트의 선형전이구간 분할에 의한 한국어 합성방법
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5300838A (en) * 1992-05-20 1994-04-05 General Electric Co. Agile bandpass filter
US5339057A (en) * 1993-02-26 1994-08-16 The United States Of America As Represented By The Secretary Of The Navy Limited bandwidth microwave filter
JPH08263094A (ja) * 1995-03-10 1996-10-11 Winbond Electron Corp メロディを混合した音声を発生する合成器
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6385581B1 (en) 1999-05-05 2002-05-07 Stanley W. Stephenson System and method of providing emotive background sound to text
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
JP2011066570A (ja) * 2009-09-16 2011-03-31 Toshiba Corp 半導体集積回路

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4910156U (fi) * 1972-04-25 1974-01-28
US3842292A (en) * 1973-06-04 1974-10-15 Hughes Aircraft Co Microwave power modulator/leveler control circuit
US4157723A (en) * 1977-10-19 1979-06-12 Baxter Travenol Laboratories, Inc. Method of forming a connection between two sealed conduits using radiant energy

Also Published As

Publication number Publication date
NO822711L (no) 1982-08-09
FI803928L (fi) 1982-06-17
US4542524A (en) 1985-09-17
WO1982002109A1 (en) 1982-06-24
EP0063602A1 (en) 1982-11-03
FI66268B (fi) 1984-05-31
JPS57502140A (fi) 1982-12-02

Similar Documents

Publication Publication Date Title
FI66268C (fi) Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JP2595235B2 (ja) 音声合成装置
Mullen et al. Real-time dynamic articulations in the 2-D waveguide mesh vocal tract model
Meyer et al. A quasiarticulatory speech synthesizer for German language running in real time
Styger et al. Formant synthesis
Mullen et al. Waveguide physical modeling of vocal tract acoustics: flexible formant bandwidth control from increased model dimensionality
Smith Virtual acoustic musical instruments: Review and update
EP1246163B1 (en) Speech synthesis method and speech synthesizer
US7596497B2 (en) Speech synthesis apparatus and speech synthesis method
Mathur et al. Vocal-tract modeling: Fractional elongation of segment lengths in a waveguide model with half-sample delays
Mohammadi et al. Transmutative voice conversion
Verfaille et al. Adaptive effects based on STFT, using a source-filter model
Rabiner et al. A hardware realization of a digital formant speech synthesizer
Karjalainen et al. Speech synthesis using warped linear prediction and neural networks
Peterson et al. Objectives and techniques of speech synthesis
Schnell et al. Analysis of lossy vocal tract models for speech production
Fries Hybrid time-and frequency-domain speech synthesis with extended glottal source generation
Karjalainen et al. Generalized source-filter structures for speech synthesis
Yang et al. An acoustic-phonetic oriented system for synthesizing Chinese
Laine PARCAS, a new terminal analog model for speech synthesis
Smyth et al. On the Role of Lip Reflection/Transmission in the Relationship Between LPC and Waveguide Vocal Tract Models
Schnell et al. Inverse filtering of tube models with frequency dependent tube terminations.
D'Alessandro et al. MaxMBROLA: A Max/MSP MBROLA-based tool for real-time voice synthesis
Přibil et al. Two Synthesis Methods Based on Cepstral Parameterization

Legal Events

Date Code Title Description
MM Patent lapsed

Owner name: ROBCON OY