NL8500377A - Werkwijze en inrichting voor het segmenteren van spraak. - Google Patents

Werkwijze en inrichting voor het segmenteren van spraak. Download PDF

Info

Publication number
NL8500377A
NL8500377A NL8500377A NL8500377A NL8500377A NL 8500377 A NL8500377 A NL 8500377A NL 8500377 A NL8500377 A NL 8500377A NL 8500377 A NL8500377 A NL 8500377A NL 8500377 A NL8500377 A NL 8500377A
Authority
NL
Netherlands
Prior art keywords
unit
output
values
speech
segment
Prior art date
Application number
NL8500377A
Other languages
English (en)
Original Assignee
Philips Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Nv filed Critical Philips Nv
Priority to NL8500377A priority Critical patent/NL8500377A/nl
Priority to US06/825,827 priority patent/US5109418A/en
Priority to EP86200178A priority patent/EP0191531B1/en
Priority to AU53334/86A priority patent/AU584165B2/en
Priority to DE8686200178T priority patent/DE3675401D1/de
Priority to JP61028766A priority patent/JPH0823757B2/ja
Publication of NL8500377A publication Critical patent/NL8500377A/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Description

v . ‘ · I
4- PHN 11.275 t N.v. Philips' Gloeilampenfabrieken te Eindhoven.
Werkwijze en inrichting voor het segmenteren van spraak.
De uitvinding heeft betrekking op een werkwijze voor het segmenteren van spraak, waarbij een akoestisch spraaksignaal wordt omgezet in N signalen, elk signaal behorende bij een tijdinterval i van N opvolgende tijdintervallen, waabij i loopt van 1 tot en met 5 N. De uitvinding heeft eveneens betrekking op een inrichting voor het uitvoeren van de werkwijze.
Een dergelijke werkwijze respektievelijk inrichting wordt gebruikt voor het bepalen van (de grenzen van) segmenten waaruit de spraak is opgebouwd. Deze segmenten zijn klanken, bijvoorbeeld in de 10 vorm van demi-syllaben, fonemen of difonen.
Het doel van een dergelijke handeling kan bijvoorbeeld zijn on op de verkregen resultaten een herkenningsprocedure toe te passen. Men spreekt in dit geval van woord- of spraakherkenning. Deze herkenningsprocedure kan inhouden dat men de verkregen segmenten vergelijkt met 15 referentiepatronen van klanken. Bij voldoende overeenkomst tussen een segment en een referentiepatroon van een klank is het segment herkend.
Een andere mogelijkheid kan zijn dat men de verkregen segmenten gebruikt cm een verzameling van allemaal verschillende klanken (bijvoorbeeld difonen) op te bouwen, waarna later met behulp van deze 20 verzameling een synthese van kunstmatige spraak mogelijk is, zie bijvoorbeeld "Exploring the possibilities of speech synthesis with Dutch diphcnes" van B.A.G. Elsendoom et al (1). Tot op.hèden wordt het opbouwen van een verzameling (of bibliotheek) van difonen door een getraind foneticus met de hand gerealiseerd envdit duurt dan ongeveer 25 éeh jaar.
Een systeem voor het verkrijgen van difoonverzamelingen is bekend uit "Fabrication semi-autcmatique de dictionnaires de diphcnes" van M. Stella (2). Deze semi-autcmatische methode segmenteert slechts 72% van de difonen goed, zodat een operateur de resultaten 30 naderhand interaktief dient te korrigeren.
Een segmentatiemethode die uitgaat van referentiepatronen klanten/ te weten demi-syllaben, wordt beschreven in "A bootstrapping training technique for obtaining demisyllable .
A r Λ Λα — —
PHN 11*275 2 I
reference patterns' van L.R. Rabiner et al (3).
Een nadeel van een dergelijke methode is dat, wil men nauw- I
keurige referentiepatronen af leiden, het opbouwen van een bibliotheek I
met dergelijke referentiepatronen erg veel tijd in beslag neemt. Vaak I
b net zo veel tijd als op dit moment nodig is om op de bekende wijze I
een bibliotheek met difonen op te bouwen. Dit kant hoofdzakelijk doordat I
het aantal referentiepatronen voor een dergelijke bibliotheek erg groot I
is: voor de Nederlandse taal namelijk ongeveer 10.000 demisyllaben en 1800 difonen.
10 B.S. Atal (4) beschrijft in zijn publikatie "Efficient coding of LPC parameters by temporal decomposition" eveneens een segmentatiemethode. Deze methode heeft het nadeel dat het aantal te vinden segmenten niet vast ligt en niet bepaald wordt welke klank het afgesplitste segment is.
15 De uitvinding beoogt nu een werkwijze voor het segmenteren I
van spraak te verschaffen die nauwkeuriger en sneller werkt en waarbij bijgevolg in kortere tijd een verzameling van bijvoorbeeld difonen verkregen kan worden.
De werkwijze volgens de uitvinding heeft daartoe het kenmerk, 20 - dat voor opvolgende tijdintervallen i een funktie wordt afgeleid die een maat is voor de overeenkomst tussen het sigaan behorende bij het' tijdinterval i en het signaal behorende bij het tijdinterval j, waarbij voor een zekere i j loopt van ai (a^ i) tot en met b^ (b^ i), en 25 - dat die waarden i, behorend bij een rangnummer i van een tijdinterval, worden bepaald die de begrenzingen vormen van gedeelten van het spraaksignaal waarvoor geldt dat de kurves c^j behorend bij tijdintervallen liggerdbinnen een gedeelte ten minste ongeveer overeenkomen. Deze waarden i kunnen bijvoorbeeld worden bepaald doordat 30 - dat voor elk tijdinterval i het midden nu van de bij het interval i behorende funktie c^ wordt bepaald, en - dat voor de genoemde waarden i die waarden i gencmen worden die ten minste ongeveer overeenkanen met nuldoorgangen met eenzelfde teken in een funktie d^, aangevende het verschil tussen het midden i en het 35 rangnummer van het betreffende interval i. De waarden i komen overeen BADt@EM@IJ)tifcttippen gedurende een spraakuiting en geven de grenzen aan van de segmenten. Bepaalt men die waarden i die ten minste ongeveer overeenkomen met de nuldoorgangen van negatief naar positief in de funktie d^ . · . · ! PHN 11.275 2a dan verkrijgt man de foneemgrenzen. De segmenten zijn dan bijgevolg de fonemen. Een dergelijk segment wordt gekarakteriseerd doordat de parameters van de spraak, zoals formanten en bandbreedtes, binnen dit segment min of meer konstant zijn.
5 Een foneem kan gedefinieerd worden als zijnde de kleinste eenheid in een woord· dat bij verandering een betekeniswijziging van het woord realiseert. Een difoon beschrijft de overgang tussen twee aan- 10.
15 20 25 30 35
BAD ORIGINAL
8500377 PHN 11.275 3
grenzende fonemen in een woord. Later zal een afleiding voor d if onen I
beschreven worden uitgaande van de op de hiervoor beschreven wijze verkregen fonemen.
Voor de funktie- c^j zou men de korrelatiefunktie kunnen
>: nemen. Deze funktie heeft de waarde 1 voor gelijke tijdintervallen, I
dat wil zeggen i = j, en heeft een kleinere waarde naarmate de klanken I
op de tijdintervallen i en j meer verschillen. I
a^ en b^ kunnen gelijk genonen worden aan die waarden i waar- I
voor geldt dat de funktie c^j gelijk is aan een referentiewaarde c^. De I
10 referentiewaarde kan daarbij gelijk aan p maal de maximale waarde .van de funktie genomen worden, waarbij p< 1, bijvoorbeeld gelijk aan 0,8 is. Hierdoor wordt bereikt dat overeenkomstige segmenten in een spraak-uitging elkaar niet beïnvloeden. Dat'wil zeggen dat de bepaling van het midden nu van het ene segment niet beïnvloed wordt (anders gezegd: 15 verstoord wordt) door de aanwezigheid van een ander overeenkomstig segment verder of eerder in de spraakuiting.
Voor de N.- signalen kunnen de frekwentiespektra van het akoestische spraaksignaal in de N tijdintervallen genomen worden. Een andere mogelijkheid is dat voor de N signalen de spektrale omhullenden van 20 het akoestische spraaksignaal in de N tijdintervallen wordt gencmen.Het verkrijgen van spektrale omhullende bijvoorbeeld met behulp van de LPC-analyse, is op zich bekend uit "Linear prediction of speech" van J.D. Mar kei en A.H. Gray (5). Het gebruik van de spektrale omhullenden voor het af leiden van de funktie c^ heeft het voordeel dat de invloed 25 van de toonhoogte, wel aanweizg in de frekwentiespektra zelf, onderdrukt is.
De werkwijze zoals hiervoor beschreven levert dus een in segmenten onderverdee ld spraaksignaal op waarbij de segmentgrenzen worden bepaald door de waarden i, welke waarden weer de grenzen langs de tijdas 30 voor het segment aangeven.
Het af leiden van een bibliotheek voor difonen zal men vaak realiseren door eerst uit een spraaksignaal segmenten in de vorm van fonemen te bepalen en uitgaande van het resultaat vervolgens de difonen af te leiden. Een op zich bekende spraakuiting, waarin dus een aantal 35 van de af te leiden difonen zitten, wordt daartoe aan de hiervoor weer-®^^^öfl^^mentatieprocedure onderworpen. Men krijgt dan, indien men in de kurve = nu - i de nuldoorgangen van negatief naar positief overeen zouden moeten komen met de foneem- • · ' ! ΡΗΝ 11.275 4 grenzen van de fonemen waaruit de bekende spraakuiting is opgebouwd. Het kan zijn dat de segmentatieprocedure evenveel segmenten in de spraakuiting heeft bepaald als er fonemen zijn in de spraakuiting. In dat geval is precies aan te geven welk segment overeenkomt met welk foneem. Het 5 kan echter ook zijn dat de segmentatieprocedure juist meer of minder segmenten oplevert dan het. aantal fonemen waaruit de spraakuiting is opgebouwd. In deze gevallen is het niet direkt duidelijk welk segment overeenkomt met welk foneem.
In dat geval is een speciale toewijzingsprocedure nodig 10 waarbij in het eerste geval (er zijn meer segmenten dan fonemen) er een of meer grenzen zullen moeten vervallen en in het tweede geval (er zijn minder segmenten dan fonemen) er een of meer grenzen zullen moeten worden toegevoegd. Om dit te kunnen realiseren heeft de werkwijze voor het segmenteren van het spraaksignaal van een op zich bekende spraakui-15 ting in segmenten van klanken, bijvoorbeeld in de vorm van fonemen, het kenmerk, dat door middel van een qp zich bekende tijdaanpassing tussen een aaneenschakeling van referentiepatronen van die klanken waaruit de spraakuiting is opgebouwd en het spraaksignaal van de spraakuiting een mate van overeenstemming wordt gerealiseerd die maximaal is, en dat die 20 klanken aan die segmenten, begrensd door de waarden i, worden toegekend waarvoor de grenzen van klank en overeenkomstig segment de beste overeenstemming vertonen. Zijn er meer segmenten dan fonemen dan zijn er ergens in de spraakuiting twee naast elkaar liggende segmenten die tegenover één foneem liggen. De waarde i die de grens tussen deze twee 25 segmenten bepaald wordt nu geschrapt. Zijn er meer fonemen dan segmenten dan zijn er ergens in de spraakuiting twee naast elkaar liggende fonemen die tegenover een segment liggen. In dat geval wordt het bewuste segment gesplitst door toevoeging van een waarde i overeenkomend met de grens tussen de twee fonemen.
30 Waren er evenveel segmenten als fonemen dan blijven de waarde i, zoals verkregen uit de funktie d^, behouden.
Uitgaande van de nu verkregen waarden i voor de foneemgrenzen kunnen, gebruikmakend van omzettingsregels, de difoongrenzen worden bepaald. Dergelijk omzettingsregels zullen later worden besproken.
35 Een reden dat men de difoongrenzen (en dus de difonen) bepaald via eerst een afleiding van de foneemgrenzen is, dat men voor de voomoemde tijdaanpassing gebruik kan maken van de referentiepatronen ^onenMn. Daar er slechts ongeveer 40 fonemen voor de Nederlandse taal 8500377 • ' ! PHN 11.275 5 zijn, hoeft men dus ook maar 40 referentiepatronen af te leiden en op te slaanv hetgeen goed en snel realiseerbaar is.
Speelt verder de vraag waaran men niet enkel uit de voomoemde tigdaanpassing van het spraaksignaal met de aaneenschakeling van refe-; 5 rentiepatronen van de fonemen, de foneemgrenzen af leidt. Het antwoord hierop is dat een dergelijke methode erg gevoelig is voor onder andere coarticulatie en toevallige variaties in de spraak. Het gevolg is dat foneemgrenzen worden verkregen die een grote onnauwkeurigheid kunnen bezitten, zodat bijgevolg geen goede afleiding van de difoongrenzen 10 respektieveIjk difonen mogelijk is. ·
De voomoemde tijdaanpassing is dus alleen bedoeld cm segmenten aan fonemen toe te wijzen en eventueel grenzen toe te voegen, of weg te laten.
De onderverdeling van het spraaksignaal of spraakuiting 15 in segmenten (bijvoorbeeld fonemen) kan ook gebruikt worden voor het herkennen van de spraakuiting. De werkwijze kan daartoe verder zijn gekenmerkt, doordat voor het herkennen van het spraaksignaal van een onbekende spraakuiting, elk segment wordt vergeleken met referentiepatronen van op zich bekende- klanken, en dat die klank aan een segment 20 wordt toegekend waarvoor de mate van overeensterming tussen dit segment en de klank maximaal is. In het bijzonder indien de spraakuiting is gesegmenteerd in segmenten in de vorm van fonemen.
In dat geval hoeft men eveneens slechts de referentiepatronen van de veertig fonemen op te slaan en de segmenten in de onbekende 25 spraakuiting elk dus te vergelijken met maximaal veertig referentiepatronen. Is de maximale overeenstemming bepaald dan geeft de aaneenschakeling van de referentiepatronen aan uit welke fonemen de onbekende spraakuiting is opgebouwd.
Een inrichting voor het uitvoeren van de werkwijze, met een 30 ingangsklem voor het ontvangen van een elektrische signaal overeenkomend met het akoestische spraaksignaal, een eerste eenheid met een ingang gekoppeld met de ingangsklem en een uitgang, welke eerste eenheid is ingericht voor het af leiden van de N signalen en voor het toevoeren van deze N signalen aan zijn uitgang, heeft het kenmerk, dat de inrichting 35 verder is voorzien van: eenheid met een ingang gekoppeld met de uitgang van de eerste eenheid en een uitgang, welke tweede eenheid is ingericht voor het afleiden van de funktie c^ voor opvolgende intervallen i PHN 11.275 6 uit de signalen behorende bij de tijdintervallen i en j en voor het toevoeren van de funktie c^ aan zijn uitgang, en - een deelinrichting met een ingang gekoppeld met de uitgang van de tweede eenheid en een uitgang, welke dee 1 inrichting is ingericht voor 5 het bepalen van die waarden i die de begrenzingen vormen van gedeelten van het' spraaksignaal waarvoor geldt dat de kurves c^ behorend.'bij tijdintervallen liggend binnen een gedeelte ten minste ongeveer overeenkomen. De deelinrichting kan daarbij zijn voorzien van : - een derde eenheid met een ingang gekoppeld met de ingang van de 10 deelinrichting en een uitgang, welke derde eenheid is ingericht voor het voor elk interval i af leiden van het midden nu van de bijbehorende funktie c^j en voor het toevoeren van de waarden m/ aan zijn uitgang, en - een vierde eenheid met een ingang gekoppeld met de uitgang van de 15 derde eenheid en een uitgang gekoppeld met de uitgang van de deelinrichting, welke vierde eenheid is ingericht voor het bepalen van die waarden i die ten minste ongeveer overeenkomen met nuldoorgangen in de funktie d^ en voor het toevoeren van die waarden i aan zijn uitgang. Met deze inrichting kan een segmentatie van het spraaksignaal in 20 segmenten waarbinnen de parameters van de spraak min of meer konstant zijn, gerealiseerd worden. De waarden i geven.de onderlinge begrenzingen van de segmenten aan in de vorm van een rangnummer van een tijdinterval. Bijgevolg konen deze waarden i overeen met tijdstippen gedurende het spraaksignaal (de spraakuiting) 25 De vierde eenheid kan verder zijn ingericht voor het bepalen van die waarden i die ten minste ongeveer overeenkomen met de nuldoorgangen van negatief naar positief in de funktie d^, waarbij d^ = m^ - i. De segmenten zijn in dit geval in de vorm van fonemen.
Een inrichting voor het uitvoeren van de werkwijze voor het 30 segmenteren van een op zich bekende spraakuiting in segmenten van klanken, bijvoorbeeld in de vorm van fonemen, kan zijn gekenmerkt, door de inrichting verder is voorzien van een geheugen voor het opslaan van de referentiepatronen van klanken, een vijfde eenheid met een eerste ingang gekoppeld met een uitgang van het geheugen, een tweede ingang 35 gekoppeld met de uitgang van de eerste eenheid en een uitgang, welke vijfde eenheid is ingericht voor het door middel van een op zich bekende tussen een aaneenschakeling van referentiepatronen van die klanken waaruit de op zich bekende spraakuiting is opgebouwd en het 8500377 « * t PHN 11.275 7 spraaksignaal van de spraakuiting>realiseren van een maxiinaie mate van overeenstemming en voor het leveren van de op deze wijze verkregen grenzen aan zijn uitgang, en een kcmbinatie-eenheid met een eerste ingang gekoppeld met de uitgang van de vierde eenheid en een tweede 5 ingang gekoppeld met de uitgang van de vijfde eenheid en een uitgang, welke vijfde eenheid is ingericht voor het toekennen van die klanken aan die segmenten begrensd door de waarden i, waarvoor de grenzen van klank en overeenkomstig segment de beste overeenstemming vertonen. De kcmbinatie-eenheid kan daarbij verder zijn ingericht voor het toevoegen 10 van en het weglaten van één of meer waarden i en wel net zoveel waarden i als er minder respektievelijk meer segmenten zijn dan overeenkomstige klanken en voor het leveren van de al dan niet veranderde groep van waarden i aan zijn uitgang. Hiermee wordt bereikt dat, uitgaande van referentiepatronen van slechts 40 a 50 fonemen, aan de in de vierde 15 eenheid verkregen segmenten elk een zeker foneem kan worden toegekend, en waarbij bovendien gekorrigeerd kan worden indien het aantal segmenten kleiner is dan of groter is dan het aantal fonemen waaruit de bekende spraakuiting is opgebouwd.
De inrichting kan voor het verkrijgen van de difonen verder 20 zijn voorzien van een zesde eenheid, met een ingang gekoppeld met de uitgang van de kcmbinatie-eenheid en een uitgang, welke zesde eenheid is ingericht voor het, uitgaande van de waarden i van de kcmbinatie-eenheid voor de klankgrenzen en gebruikmakend van omzettingsregels,, afleiden van de difoongrenzen voor het toevoeren van deze difoongrenzen 25 aan zijn uitgang.
Voor het mogelijk maken van het herkennen van het spraaksignaal van een onbekende spraakuiting kan de inrichting zijn gekenmerkt, doordat de inrichting verder is voorzien van een geheugen voor het opslaan van referentiepatronen van op zich bekende klanken en van een vijfde eenheid 30 met een eerste ingang gekoppeld met de uitgang van het geheugen, een tweede ingang gekoppeld met de uitgang van de vierde eenheid en een derde ingang gekoppeld met de uitgang van de eerste eenheid en een uitgang, welke vijfde eenheid is ingericht voor het vergelijken van elk segment met referentiepatronen van op zich bekende klanken, en voor het 35 toekennen van die klank aan een segment waarvoor de mate van overeen-BA&eet&NAËsen dit segment en de klank maximaal is, en is ingericht voor het leveren aan zijn uitgang van informatie betreffende de aaneenschakeling van referentiepatronen van die klanken die elk maximaal over-
- . · , · I
PHN 11.275 8 eenstemmen met het segment waaraan zij zijn toegekend.
De uitvinding aan de hand van de hierna volgende figuur-beschrijving zal. nader worden uiteengezet. Hierin toont:
Fig. 1 een eerste uitvoeringsvoorbeeld van de inrichting 5 volgens de uitvinding,
Fig. 2 een tweede uitvoeringsvoorbeeld van de inrichting volgens de uitvinding,
Fig. 3 in fig. 3a het elektrische signaal van de spraakuiting als funktie van de tijd, in fig. 3b de kurve di verkregen in de segmentar 10 tieprocedure en in figuuur 3c de fonemen toegekend aan de verkregen segmenten,
Fig. 4 de N spektrale omhullenden van het spraaksignaal van fig. 3a voor opvolgende tijdintervallen i(l^T i ^ N),
Fig. 5 het frekwentiesprektrum van een spraaksignaal in 15 een zeker tijdinterval en het bijbehorende omhullende frekwentiespektrum,
Fig. 6 de funktie c^ voor een zeker tijdinterval i(l < j < N) ,
Fig. 7 de funkties c. . voor opvolgende tijdintervallen i, lj
Fig. 8 in fig. 8a de funktie c^ χ, in fig. 8b het oorspronkelijke tijdsignaal van de spraakuiting, en in fig. 8c weer de funktie d^ 2o met daarin de difoongrenzen 9 en de segmentgrenzen i,
Fig. 9 in fig. 9a en 9b het toevoegen van een additionele segmentgrens en in fig. 9c en 9d het weglaten van een segmentgrens, en
Fig. 10 de tijdaanpassing tussen de spraakuiting en de referen-tiepatronen van de fonemen. __ 25 Verder bevat de figuurbeschrijving drie tabellen met omzettings regels van foneemgrenzen naar difoongrenzen voor de Nederlandse, Duitse en Engelse taal.
Figuur 1 toont een eerste uitvoeringsvoorbeeld van de inrichting volgens de uitvinding. De inrichting wordt gebruikt voor het 30 afleiden van een difoonverzameling. Daartoe wordt door een geoefende spreker een op zich bekende spraakuiting via een mikrofoon 1 aan de inrichting aangeboden. De spreker dient er daarbij qp te letten dat hij met een zekere snelheid spreekt. 'Deze snelheid mag niet te groot of te laag zijn. Bovendien moet bij voorkeur met een vaste toonhoogte spre-35 ken. De spraakuitingen die worden gebruikt voor het verkrijgen van een difoonverzameling zijn meestal betekenisloze woorden, zoals bijvoorbeeld het woord "nenoone". Dit woordt is cpgebouwed uit de fonemen "n", "e", n", "oo", "n" en "e". Hieruit kunnen de volgende d if onen worden 8500377 PHN 11.275 9 gedestilleerd, te weten "ne", "en", "noo", "oon" en "ne". Doordat difonen in feite de overgangen van twee fonemen aangeven is het duidelijk dat er veel meer difonen zijn dan fonemen, voor de Nederlandse taal ongeveer 1800 difonen tegen ongeveer 40 a 50 fonemen. De mikrofoon 1 is via de
5 ingangsklem 2 gekoppeld met de analoog-digitaal omzetter 3. Hierin wordt I
het elektrische signaal bemonsterd met een bemonsterfrekwentie van I
ongeveer. 10 kHz en gedigitaliseerd. Daar de informatie voor spraak zich I
voornamelijk in een frekwentiegebied beneden 5 kHz bevindt, is de I
bemonsterfrekwentie van 10 kHz voldoende. Fig. 3a toont het gedigitali-10 seerde tijdsignaal van het woord "nenoone" dat verschijnt aan de uitgang van analoog-digitaal-cmzetter 3. Een eerste eenheid 4 is met een ingang 5 gekoppeld met de uitgang van de A/D omzetter 3. Deze eenheid 4 is ingericht voor het af leiden van N signalen Si(f) (1·^ N). Deze N signalen worden verkregen door het tijdsignaal van fig. 3a in N inter-15 vallen te verdelen en voor elk Interval bijvoorbeeld het frekwentiespek-trum van de spraakuiting in het betreffende interval te nemen.
Een andere mogelijkheid is dan men de spektrale omhullende van de spraakuiting in het betreffende interval neemt. Hiervoor zou men de LPC-analyse kunnen gebruiken. Stel dat men intervallen van 10 ms lang 20 neemt dan wordt de bijbehorende spektrale omhullende berekend uit een tijdsignaal bestaande uit 100 bemonsteringen. Fig. 4 toont de eerste vijftig spektrale omhullenden S^(f) voor de eerste 500 ms. van het spraaksignaal.
Fig. 5 toont met de kurve S^'(f) het frekwentiespekfcrum 25 van de spraakuiting voor het interval i. Dit spektrum kan men door middel van een snelle fouriertransformatie verkrijgen. Wat opvalt in de kurve 1 Cf) zijn de pieken op f = f^ en veelvouden daarvan. De frekwentie fQ geeft de toonhoogte aan van het spraaksignaal. De kurve S^(f) geeft de net behulp van LPC-analyse verkregen spektrale omhullende 30 aan die over een aantal dB naar boven verschoven is. De pieken in deze kurve bij de frekwentiewaarden f^, f2, f^ 821 f4 geven de eerste vier formanten aan. Met de LPC-technieken worden in feite alle parameters bepaald van een filter dat is opgebouwd uit een serieschakeling van een aantal (in dit geval vier) tweede orde filters. De betreffende deze, 35 parameters zijn dan de resonatiefrekwenties van -filters (welke overeen-BABrQBIfittJAfe voomoeitde formahtfrekwenties) en de bandbreedtes, zié de dissertatie van Vogten (6), in het bijzonder ^ 2.1.
Ma-t- oarameters is het vervolgens achteraf mogelijk cm PHN 11.275 10 . · , · ! spraak te synthetiseren, zie de·publikatie "MEA 8000 voice synthesizer, principles and interfacing " (7), in het bijzonder het gedeelte "Principles of formant speech synthesis" de pagina's 2-4.
Een tweede eenheid 7 is met zijn ingang 8 gekoppeld met de 5 uitgang 6 van de eerste eenheid 4. Gebruikmakend van de N signalen S^(f), zie fig. 4, die door de eerste eenheid 4 aan haar uitgang 6 worden aangeboden, worden in de tweede eenheid 7 voor elk interval i een funktie c.. afgeleid, j loopt hierbij van a. (waarbij a.<C i) naar b. (waarbij ij al* 1 3a bi > i) . Fig. 6 toont een dergelijke kurve c^ en fig. 7 toont voor 10 een aantal opvolgende tijdintervallen i de kurves c^, waarbij c^ is berekend volgens de volgende formules: 5 kHz R±j = \ S^fjSjtfJdf (1)
15 O
0 en R. .
20 c. . = ·· -1J-..... (2) 13 Vk-R..
v 11 33
Uit formule (2) blijkt dat c^ de waarde 1 bezit voor j = i, zie fig. 6. De kurve cn ^ geeft aan de mate van overeenstemming van de 25 spektrale omhullende voor het tijdinterval i en die voor het tijdinterval j. Uit fig. 7 is duidelijk dat de spektrale omhullenden voor de tijdintervallen 10 tot en met 17 veel overeenstemming met elkaar hebben. Hetzelfde geldt voor de tijdintervallen 19 tot en met 27. Ook in fig. 4 is dit redèlijk goed te zien. Er zijn delen in het spraaksignaal waarin de 30 spektrale omhullenden veel pp elkaar lijken, gevolgd door een overgang naar een volgend stationair deel. Elk deel geeft dus aan dat gedurende zo'n deel de bovengenoemde parameters, zoals de formanten en hun bijbehorende bandbreedtes min of meer konstant zijn in de tijd.
Een derde eenheid 10 is met zijn ingang gekoppeld met de , 35 uitgang 9 van de tweede eenheid 7. De derde eenheid 10 krijgt van de tweede eenheid 7 de kurves c^j toegevoerd en bepaalt voor de kurve c^j behorend bij elk interval het midden itu van deze kurve, bijvoorbeeld
BftDdBRtëlIg&de wijze: I
8500377
PHN 11-275 11 I
!
O icijd: I
De waarden en b.^ kunnen redelijk willekeurig gekozen worden. I
10 Bij voorkeur zal men die waarden j voor a^ en nemen waarvoor geldt I
dat C. = C. . = C , zie fig. 6, waarbij C gelijk is aan p.c. .,. (c. . I
1/3.^ 1,D^ . \.X Γ 11 11 I
zijnde de maximale waarde in de kurve c. ., in dit geval gelijk aan 1- Bij voorkeur neemt men p gelijk aan 0,.8 of 0,9. Door deze waarden voor a^ en b. te kiezen krijgt men een nauwkeuriger bepaling van de waarde reu dan 15 indien men de integratie in formule (3) zou laten uitstrekken van 1 tot N, dus over de gehele spraakuiting. In dit laatste geval zouden min of meer stationaire gedeelten elders in de spraakuiting die een grote gelijkenis hebben met het gedeelte waarvoor het midden bepaald dient te worden, de bepaling van dat midden ernstig verstoren- Als voorbeeld: 20 in het woord "nenoone" kanen driemaal min of meer kanstante gedeelten voor die Overeenkomen met het foneem "n". Wil men het midden m^ bepalen in het kanstante gedeelte van de middenste "n" dan dient men het integratie- gebied niet zo groot te kiezen dan een van de andere fonemen "n" er binnen valt.
25 In fig. 7 is met een vertikale lijn de waarde j aangegeven overeenkomende met het midden voor elk interval. Duidelijk zichtbaar is dat het midden binnen een stationair gedeelte, 10 < j <* 17 en 20 <C j ^ 27, praktisch niet verandert voor opvolgende i.
Ben vierde eenheid 13 is met zijn ingang 14 gekoppeld met 30 de uitgang 12 van de derde eenheid 10. De vierde eenheid 13 bepaalt in het blok 15 de grootheid d. uit de gegevens verkregen in de derde eenheid 10.
Voor de funktie d^ geldt: 35BAD ORIGINAL = mi “ 1 (4)
In figuur 7 is d^ voor ieder interval i aangegeven door middel -- — τ7Λλ?λ»> -Fier. 3b ~..... m * \ * j PHN 11.275 12 dé kurve als funktie van i. De nuldoorgangen van positief naar negatief in de funktie d^ konen ten minste ongeveer overeen met de middens m^ in het bijbehorende stationaire deel. De nuldoorgangen van negatief naar positief, aangeduid met i^ tot en met i^, geven de posities van 5 de overgangen tussen de stationaire gedeelten (fonemen) aan. Deze nuldoorgangen worden bepaald in het blok 16 van de vierde eenheid 13.
Uit fig. 3b in konbinatie met fig. 3c wordt duidelijk dat het eerste en het laatste segment SI overeenkomen met de stilte net voor en direkt na de spraakuiting. Vervolgens blijven er nog zes segmenten 10 over die precies overeenstemden met de zes fonemen waaruit het woord "nenoone" is opgebouwd. Aan de zes segmenten is dus direkt het juiste foneem toe te wijzen.
Sons kan het voorkanen, dat met behulp van de hiervoor beschreven segmentatieprocedure, er meer of juist minder segmenten verkregen 15 worden dan het aantal fonemen waaruit de spraakuiting is opgebouwd. In dat geval kan aan een segment niet direkt een zeker foneem worden toegekend. Om ook in die gevallen op een korrekte wijze fonemen aan segmenten toe te kunnen kennen is de inrichting verder voorzien van een geheugen 18. In dit geheugen zitten opgeslagen voor elk foneem x: 20 één réferentiepatroon van het foneem en de minimale en maximale tijdsduur (t . en t ) van het foneem. Dit referentiepatroon bestaat uit x, min x,max de formantwaarden en de bijbehorende bandbreedtes. Uitgaande van deze waarden is volgens de LPC analyse een spektrale omhullende S(f) te berekenen, zoals in fig. 5 aangegeven. Deze spektrale omhullende is de 25 omhullende behorend bij een zeker foneem x, en zal in het vervolg worden aangeduid met S^x(f).
Analoog aan de formules (1) en (2) kan nu de grootheid c.
worden afgeleid aangevende de overeenkomst tussen de spektrale omhullende van het tijdsignaal in interval i en van het foneem x. Dit gebeurt, in 30 de vijfde eenheid 19. Deze eenheid heeft daartoe een eerste ingang 20, gekoppeld met het geheugen 18 voor het toevoeren aan de eenheid 19 van de referentiepatronen waaruit de omhullenden S (f) kunnen worden afgeleid, px en een tweede ingang 21 gekoppeld met de uitgang 6 van de eerste eenheid 4, voor het toevoeren van de omhullenden S^(f) behorende bij de tijd- 35 intervallen i. In de vijfde eenheid 19 worden de grootheden c.
χ,ρχ afgeleid en wordt er een tijdaanpassing gepleegd tussen de spraakuiting B^j ^^Qi^jj^enschakeling van referentiepatronen van fonemen, dat de mate van overeenstemming tussen beide signalen maximaal is. Fig. 8a toont 8500377 PHN 11.275 13
Het resultaat van deze tijdaanpassing voor de spraakuiting "nenoone", weergegeven in fig. 8b. Voor x = 1 in fig. 8a geldt de stilte voor de spraakuiting, x = 2 kcrnt overeen met het foneem "n", x = 3 met het foneem "e", x = 4 weer met het foneem "n", x = 5 met het foneem
‘5 "oo", x = 6 met het foneem "n", x = 7 weer met het foneem "e" en I
x = 8 weer met de stilte. I
Doordat het hier een bekende spraakuiting betreft, weet men I
reeds welke fonemen aanwezig zijn en in welke volgorde ze moeten liggen. I
Het enige waar het om gaat is het bepalen van de grenzen tot en I
10 met l y .
Deze grenzen kunnen als volgt bepaald worden. In fig. 10 staat langs de· horizontale as de tijd uit, aangeduid in het rangnummer i van de intervallen i. Er geldt natuurlijk dat 1 i N. Langs de vertikale as staan de (referentiepatronen van de) fonemen p^ tot en met ρχ uit. X is 15 gelijk 8 voor het geval de stilten voor en na de spraakuiting ook als fonemen meegenomen worden. De foneem p bevindt zich bij de tijdinter- o vallen i . ' + 1 tot en met i 1. Op de lijn 1 die van linksonder naar
Χ*Ί X
rechtsboven in de grafiek loopt zijn steeds de waarden uitgezet.
Men bepaalt nu de waarden i ‘ (waarbij x X) zodanig A ' 20 dat de funktie: X i 1 x 2- ΙΓ V = 0 4 = N' x = 1 i’ , + 1 x - 1 25 maximaal is. Deze maximalisatie kan uitgevoerd worden met behulp van dynamische programmering, waarbij voorwaarden gesteld kunnen worden aan i ', zoals:
X
30 t / i * — i 1 / t x,min ^ x x - 1 ^ x, max
Het dynamisch programmeren is een op zich bekende techniek: zie "Dynamic programming" van R. Bellman (8)y3ê publikatie van Ney (9) "Dynamic programming as a technique for pattern recognition". Op de 35 hiervoor weergegeven wijze worden alle grenzen i^' tot en met ij' ^plS^Wolgens worden de grenzen i^ tot en met i^ verkregen uit de segmentatieprocedure, en de grenzen i^' tot en met i-,1 verkregen ----a — voimK-i nsf ï p-pehheid 23. Daartoe
- . - I
PHN 11.275 14 is een eerste en een tweede ingang 24 respektievelijk 25 van de kombinatie-eenbeid 23 gekoppeld met een uitgang 17 van de vierde eenheid 13 respektievelijk met een uitgang 22 van de vijfde eenheid 19.
Deze kcmbinatie-eenheid 23 is ingericht voor het toekennen van 5 die fonemen verkregen volgens de tijdaanpassing in de eenheid 19 (zie fig. 8a), aan die segmenten begrensd door de waarden i, verkregen volgens de segmentéringsmethode in de eenheid 13 (zie fig. 3b en ook fig. 8c die dezelfde kurve vertoont), waarvoor de grenzen van foneem en overeenkomstig segment de beste overeenstemming vertonen.
10 Uit fig. 8a en c is duidelijk dat de grenzen i^ en i^‘ bij elkaar horen. Hetzelfde geldt voor de grenzen i^ en i^'/ ig en i^1, i^ en i^1, L en i i. en L' en L en L'. De kcmbinatie-eenheid 23 levert dan 5 5 6 6 7 7 ook in dit geval aan zijn uitgang de waarden i^ tot en met i^.
Het had ook zo kunnen zijn dat de segmentatieprocedure bijvoor-15 beeld één segment minder had opgeleverd dan het aantal fonemen waaruit de spraakuiting is opgebouwd. Dit toont fig. 9a en 9b. Fig. 9a toont de resultaten van de segmentatieprocedure. Uit de kurve d^, die hier niet verder is aangegeven, zijn de grenzen i^ tot en met i^ verkregen terwijl de spraakuiting uit zes fonemen is opgebouwd. Uit de methode 20 van de tijdaanpassing volgen de grenzen i^1 tot en met i,_', zoals in fig. 9b is aangegeven. De kurve Cl is hier niet aangegeven. Duidelijk is dat er overeenstemming bestaat tussen de grenzen ^ en i^, i^ en , i^ en i^' en i^ en i^'. Er zal in dit geval door de korabinatie-eenheid 23 een extra grens bij gevoegd worden overeenkomende met i^'.
25 Een andere mogelijkheid is dat de segmentatieprocedure juist één segment meer had opgeleverd dan het aantal fonemen waaruit de spraakuiting is opgebouwd, Dit toont fig. 9c en 9d. Fig. 9c toont de resultaten van de segmentatieprocedure: vijf grenzen i^ tot en met i^. Fig. 9d toont de resultaten van de tijdaanpassing: vier grenzen i^‘ tot en net i^'. Dui-30 delijk is dat er overeenstemming bestaat tussen de grenzen i^ en i^', i. en L', i. en i ' en ic en i,'. Door de kcmbinatie-eenheid 23 zal in dit geval de grens i^ weggelaten worden.
De aldus verkregen en eventueel gekorrigeerde grenzen worden vervolgens toegevoerd aan de zesde eenheid 27. Deze eenheid 27 bepaalt, 35 uitgaande van de door de kcmbinatie-eenheid 23 verkregen grenzen i en gebruikmakend van omzettingsregels zoals aangegeven in tabel I de difoon-^^enzgji^gj^jot en met gg, zie fig. 8b en 8c. De tabel I toont enkel de omzettingsregels voor de belangrijkste en meest voorkomende difonen. De 8500377 PHN 11.275 15
· I
difoon liggend tussen g en g2 beschrijft de overgang van de stilte naar de "n", de difoon liggend tussen g2 en g3 de overgang "ne", die liggend tussen g^ en g^: "en", die tussen g4 en g5: "noo", die tussen g5 en g^: "oon", die tussen gg en g?: "ne" en die tussen g? en gQ de 5 overgang tussen de "e" en de stilte. Uit de tabel I nr. 31 is duidelijk dat g2, g^ en g^ in het midden van de segmenten bepaald door i^, i2; ij, i. en ic, i- (moeten) liggen. Uit de tabel I nr. 12 is duidelijk dat g~ en g7 6 tijdintervallen na i2 respektievelijk ig genomen moet worden. Uit de tabel I nr. 8 volgt dat g^ 6 intervallen na i^ langs de i-as ligt 10 en uit de tabel X nr. 17 volgt dan g^ en g8 in het midden van het eerste en het laatste segment moeten liggen.
De fonemen uit de tabel I onder nr. 19 tot en met 24 zijn de zogenaamde plofklanken en bestaan uit'twee gedeelten. Een eerste gedeelte kont overeen met de stilte vó5r de plof. Het tweede gedeelte is de plof 15 zelf in de tabel "burst" genoemd. De hiervoor beschreven segmentatie-procedure zal deze fonemen in het algemeen in twee segmenten, overeenkomende net deze twee gedeelten, segmenteren.
De bijbehorende difoongrens wordt nu volgens de tabel I gekozen op 1 tijdinterval liggend voor het begin van het segment overeenkomende 20 met de plof.
De "glottal stop" kamt overeen met de stilte die wordt toegevoegd tijdens het uitspreken van losse letters, bijvoorbeeld bij het uitspreken van de naam van de spraaksynthetisator "MEA. 8000", eerder vermeld.
25 Verder vindt men in de tabellen II en III omzettingsregels voor het af leiden van de belangrijkste Duitse en Engelse difonen.
De op de hiervoor beschreven wijze verkregen difonen worden vervolgens opgeslagen in een geheugen 30 voor het vormen van een bibliotheek van difonen. Het geheugen 30 is daartoe net twee ingangen gekoppeld 30 met de uitgangen 6 en 29 van de eerste respektievelijk zesde eenheid 4 respektievelijk 27. In het geheugen 30 worden voor elk difoon en voor elk tijdinterval liggend binnen de grenzen g van het difoon opgeslagen - de eerdergenoemde vier (of vijf) formanten en de bijbehorende bandbreedtes, 35 - een amplitudeparameter die sairenhangt met de luidheid (ook BAD ORIGINALafgeleid in de eerste eenheid 4), - een stemhebbend-stemloosbes1issing (te weten of het een oeriodiek signaal of een ruisvormig signaal is, eveneens PHN 11.275 16 afgeleid in de eerste eenheid 4).
Met deze gegevens is het realiseren van synthetische spraak achteraf mogelijk, zie de dissertatie van Vogten (6).
Pig. 2 toont een tweede uitvoeringsvcorbee ld van de inrichting 5 volgens de uitvinding. De inrichting wordt gebruikt voor het herkennen van een onbekende spraakuiting. Gelijke referentiecijfers in de figuren 1 en 2 stellen dezelfde elementen voor. De onbekende spraakuiting wordt aangeboden aan de mikrofoon 1 en in de A/D omzetter 3 cmgezet in een digitaal signaal. De eerste eenheid 4 levert weer de funkties S^if), 10 zie fig. 4. De tweede eenheid 7 bepaalt de funkties c^y zie fig. 7. De derde eenheid 10 bepaalt vervolgens de middens nu, zie eveneens fig. 7. De vierde eenheid 13 bepaalt de kurve d^ en de waarden i^, ..., i^, zie fig. 3.
We hebben nu weer een aantal segmenten gekregen die overeen- 15 stemmen met in principe evenzoveel referentiepatronen van de bij die segmenten behorende fonemen waaruit de onbekende spraakuiting is opgebouwd, Het geheugen 18 bevat daartoe weer de referentiepatronen van alle fonemen. De vijfde eenheid 31 is hier ingericht voor het vergelijken van elk segment met de referentiepatronen van de fonemen en voor het 20 toekennen van dat foneem aan een segment waarvoor geldt dat de mate van overeenstemming tussen dit segment en het foneem maximaal is. De vijfde eenheid heeft daartoe een eerste, een tweede en een derde ingang 32, 33 respektievelijk 35 gekoppeld met het geheugen respektievelijk met de uitgang 17 van de vierde eenheid, respektievelijk de uitgang 6 van de 25 eerste eenheid 4, en een uitgang 34. Aan deze uitgang 34 verschijnt de informatie betreffende de aaneenschakeling van referentiepatronen van die fonemen die elk maximaal overeenstemmen met het segment waaraan zij zijn toegekend. De onbekende spraakuiting is daarmee herkend.
De vergelijking van een segment met een referentiepatroon vindt 30 bijvoorbeeld als volgt plaats.
Voor ieder segment en een referentiepatroon van een zeker foneem x wordt de kurve c. berekend. Voor een segment uit de spraak- ï, px uiting en het referentiepatroon van dat foneem x dat ook werkelijk in de spraakuiting is uitgesproken verkrijgt men een kurve c. zoals in
J- 9 PX
35 fig. 8a door de kurve tussen bijvoorbeeld i^1 en i^' is aangegeven. Er zij hierbij wel vermeld dat de grenzen niet bij i^ * en i^1 kunnen liggen doch bijj L·^ en i^ verkregen uit de kurve d^. De vergelijking vindt tussen enerzijds het referentiepatroon van een foneem en een 8500377
« V I
PHN 11*275 17 segment begrensd door de waarden i verkregen uit de vierde eenheid 13, dat wil zeggen i^ tot en met i^.
Bij vergelijking tussen een segment van de spraakuiting en een ander referentiepatroon zal een verkregen worden met een 5 veel lagere waarde. Vervolgens wordt aan een segment dat foneem x toegewezen waarvoor geldt dat c. . (geïntegreerd over het segment) de hoog— ï, px ste waarde bezit. Men bepaalt dan bijvoorbeeld: W i · 'j q ^ X * + 1 i i, px waarbij i^ êji i^,+ ^ de onder- en bovengrenzen van het segment zijn.
Dat foneem x wordt nu toegekend aan het bewuste segment waarvoor geldt dat 0 de grootste waarde heeft.
^S» 15 Past men deze procedure op elk segment toe, dan vindt men uiteindelijk· de rij van aaneengeschakelde fonemen waaruit de spraakuiting is opgebouwd. De spraakuiting is daarmee herkend.
Het zij vermeld dat de uitvinding niet beperkt is tot enkel de getoonde uitvoeringsvoorbeeifen. Verschillende modifikaties van de 20 beschreven uitvoeringsvoorbeelden zijn mogelijk zonder dat wordt afgeweken van de uitvinding zoals die wordt gedefinieerd door de konklusies.
25 30 35
BAD ORIGINAL
v ’ I
PHN 11.275 i8
Tabel;jI - Omzettingsregels van foneemgrenzen naar difoongrenzen voor de belangrijkste fonemen van de Nederlandse taal.
N
Foneem- Foneem Voorbeeld Dif oonqrenzen nummer 1 I pit 5 intervallen na begin foneem 2 i liep 6 intervallen na begin foneem 5 3 Z, les 6 intervallen na begin foneem 4 ^ lees 6 intervallen na begin foneem 5 07 mat 6 intervallen na begin foneem 6 ^ maat 10 intervallen na begin foneem 7 ^ rot 6 intervallen na begin foneem 10 8 ° rood 6 intervallen na begin foneem 9 ^ roet 5 intervallen na begin foneem 10 ^ fuut 5 intervallen na begin foneem 11 put 5 intervallen na begin foneem 12 3 de 6 intervallen na begin foneem 15 * 18 0X0 koud 8 intervallen na begin foneem 14 AV3 muis 8 intervallen na begin foneem 15 φ keus 10 intervallen na begin foneem 16 reis 8 intervallen na begin foneem 17 ^ stilte midden van foneem 2018 @ glottal stop midden van foneem 19 P pas 1 interval voor burst 20 ^ tas 1 interval voor burst 21 ^ kas 1 interval voor burst 2 2 bas 1. interval voor burst 25 22 ^ das 1 interval voor burst 2^ ^ goal 1 interval voor burst 2^ S sok midden van foneem 26 $ fok midden van foneem 2^ ^ gok midden van foneem 30 2 ° zeer midden van foneem
•jq \J
* veer midden van foneem ^ meer midden van foneem ^ ^ neer midden van foneem ^2 Π, bang midden van foneem
353-¾ D
lang midden van foneem 34 jm rang midden van foneem B&3 ORIGINAL wang midden van foneem ^ ^ jan midden van foneem « P Λ T η *»
« V
PHN 11.275 19
Tabel II - Omzettingsregels van foneemgrenzen naar difoongrenzen voor de belangrijkste fonemen van de Duitse taal.
Phonem- Phonem Beispiel Diphongrenze nummer 1 X ich 4 Intervalle nach Beginn des
Phonems - ^ ihre 7 Intervalle nach Beginn des 5 λ Phonems 3 £ elf 4 Intervalle nach Beginn des
Phonems 4 eben 7 Intervalle nach Beginn des
Phonems 5 ^ April 5 Intervalle nach Beginn des 10 Phonems 6 aber 10 Intervalle nach Beginn des
Phonems o 7 Stunde 3 Intervalle nach Beginn des
Phonems 8 ^ Onkel 4 Intervalle nach Beginn des 15 Phonems 9 ° oder 8 Intervalle nach Beginn des
Phonems 10 U und 4 Interval le nach Beginn des
Phonems 11 ^ Uhr 7 Intervalle nach Beginn..des 20 Phonems 12 ^ Büro 4 Intervalle nach Beginn des
Phonems 13 ^ übel 8 Intervalle nach Beginn des
Phonems 14 oe öffentlich 5 Intervalle nach Beginn des 25 Phonems 15 Φ Óf en 9 Intervalle nach Beginn des
Phonems 16 eifrig 5 Intervalle nach Beginn des
Phonems 17 ^ Stille Mitte des Phonems 30 18 glottal'stop Mitte des Phonems 19 P Pater 1 Interval 1 vor "Burst" 20 ^ Tat 1 Intervall vor "Burst" 21 ^ Kater 1 Intervall vor "Burst" 22 k Bad 1 Intervall vor "Burst" 35 23 ct da 1 Intervall vor "Burst" 24 ^3 Gabel 1 Intervall vor "Burst" 25 S das Mitte des Phonems
. , I
PHN 11.275 20 26 £ Pahrrad Mitte des Phonems 27 acht Mitte des Phonems 28 ^ sehen Mitte des Phonems 29 schon Mitte des Phonems 5 30 ΤΠ Matter Mitte des Phonems 31 ^ Natur Mitte des Phonems 32 Junge Mitte des Phonems 9 33 ^ _lang Mitte des Phonems 34 ^ rot Mitte des Phonems 10 35 ^ wahr Mitte des Phonems 36 b ja Mitte des Phonems 37 ^ hoffen Mitte des Phonems 38 ON) eure 5 Intervalle nach Beginn des
Phonems 3o 15 39 auch 5 Interval le nach Beginn des
Phonems 40 ^ ich Mitte des Phonems 20 25 30 35 bad original
Co i) 03 77
PHN 11.275 21 I
Tabel III - Omzettingsregels van foneemgrenzen naar difoongrenzen voor de belangrijkste fonemen van de Engelse taal.
Phoneme Phoneme Example diphone boundary I
number I
1 X bid 2 intervals after beginning I
of phoneme I
2 1' bead 7 intervals after beginning I
5 of phoneme I
3 £ bed 2 intervals after beginning I
of phoneme I
4 A bud 2 intervals after beginning I
of phoneme 5 bayed 9 intervals after beginning 10 _ of phoneme 6 ^ bide 9 intervals after beginning of phoneme 7 ^ hot 2 intervals after beginning of phoneme ! 8 ^ foil 9 intervals after beginning 15 of phoneme 9 ^ hood 2 intervals after beginning of phoneme 10 bowed 9 intervals after beginning of phoneme 11 ^ 3 beard 9 intervals after beginning 20 of phoneme 12 θ sitter 2 intervals after beginning of phoneme 13 bared 9 intervals after beginning of phoneme Ü3 14 poor 9 intervals after beginning 25 of phoneme 15 bad 3 intervals after beginning of phoneme 16 bird 7 intervals after beginning of phoneme 17 ^ silence middle of the phoneme 30 /a 18 (3 glottal stop middle of the phoneme 19 P join 1 interval before burst 20 tin 1 interval before burst 21 K kin 1 interval before burst 22 ^ bin 1 interval before burst 35J1d ORIGINAL1' 4*“ 1 tefore buIst 24 % gap 1 interval before burst 25 5 sin middle of the phoneme * * v j PHN 11.275 22 26 ^ .fin middle of the phoneme 27 ^ pleasure middle of the phoneme 28 zip middle of the phoneme 29 ^ shin middle of the phoneme 5 30 'ÏTV map middle of the phoneme 31 ^ nap middle of the phoneme 32 % hang middle of the phoneme 33 ^ lap middle of the phoneme 34 ^ rap middle of the phoneme 10 35 ^ win middle of the phoneme 36 J" Zes middle of the phoneme 37 hip middle of the phoneme 38 ® thin middle of the phoneme 39 & this middle of the phoneme 15 20 25 30 bad original
8500377 I
35
v * V
PHN 11.275 23
Referenties (1) B.A.G. Elsendoorn, J. 't Hart: Exploring the possibilities of speech synthesis with Dutch diphones.
IPO Annual Progress Report no. 17, 1982, p. 63-5.
(2) M. Stella: Fabrication semi-autcmatique de dictionnaires de diphones.
5 Recherche/Acoustique, Centre National d'Etudes de Telecommunication, vol VII, 1982/83, p. 53-63.
(3) L.R. Rabiner, A.E. Rosenberg, J.G. Wilpon, T.M. Zampini: A bootstrapping training technique for obtaining demisyliable reference patterns.
10 J. Acoust. Soc. America, 71(6), June 1982, p. 1588-95.
(4) B.S. Atal: Efficient coding of LPC-parameters by temporal decatposition. Proc. of the ICASSP '83 (Boston), p. 81-4.
(5) J.D. Markel, A.H. Gray, Linear prediction of speech.
Springer Verlag 1976.
15 (6) L.L.M. Vogten: Analyse, zuinige codering en resynthese van spraakgeluid.
Thesis, Technische Hogeschool Eindhoven 1983.
(7) MEA 8000 Voice synthesizer, principles and interfacing.
Philips* Elcana publikatie no. 101.
20 (8) R. Bellman: Dynamic programming
University Press, Princeton New Jersey, 1957.
(9) H. Ney: Dynamic programming as a technique for pattern recognition Proc. of the 6th Int. Conf. on Pattern recognition, Munich (DE),
Oct. 19-22, 1982, p. 1119-25.
25 30 35
BAD ORIGINAL
- r- i\ Λ 7 -7 -»

Claims (19)

1. Werkwijze voor het segmenteren van spraak, waarbij een akoestisch spraaksignaal wordt angezet in N signalen, elk signaal behorende bij een tijdinterval i van N opvolgende tijdintervallen, waarbij i looptvan 1 tot en met N, met het kenmerk, 5. dat voor opvolgende tijdintervallen i een funktie wordt afgeleid die een maat is voor de overeenkomst tussen het signaal behorende bij het tijdinterval i en het signaal behorende bij het tijdinterval j, waarbij voor een zekere i j loopt van a^(a^<f i) tot en met bi (bi> ^ 10. dat die waarden i, behorend bij een rangnummer i van een tijdinterval, worden bepaald die de begrenzingen vormen van gedeelten van het spraaksignaal waarvoor geldt dat de kurves behorend bij tijdintervallen liggend binnen een gedeelte ten minste ongeveer overeenkomen.
2. Werkwijze volgens kcmklusie 1, met het kenmerk, λ 15. dat voor elk tijdinterval i het midden nu van de bij het interval i behorende funktie wordt bepaald, en - dat voor de genoemde waarden i die waarden i genomen worden die ten minste ongeveer overeenkomen met nuldoorgangen met eenzelfde teken in een funktie d^, aangevende het verschil tussen het midden i en 20 het rangnummer van het betreffende interval i.
3. Werkwijze volgens konklusie 2, met het kenmerk, dat die waarden i worden bepaald die ten minste ongeveer overeenkomen met nuldoorgangen van negatief naar positief in de funktie d^, waarbij d^ = nu - i.
4. Werkwijze volgens konklusie 2 of 3, met het kenmerk, dat a^ 25 en b^ gelijk genomen worden aan die waarden i waarvoor geldt dat de funktie c.. gelijk is aan een referentiewaarde c . 13 r
5. Werkwijze volgens konklusie 4, met het kenmerk, dat de referentiewaarde gelijk aan p maal de maximale waarde, van de funktie Cy genomen wordt, waarbij p ^ 1, bij voorkeur 0.8.
6. Werkwijze volgens konklusie 2 of 3, net het kenmerk, dat voor de N signalen de frekwentiespektra van het akoestisch spraaksignaal in de N tijdintervallen wordt genomen.
7. Werkwijze volgens konklusie 2 of 3, met het kenmerk, dat voor de N signalen de spektrale omhullenden van het akoestische spraaksignaal 35 in de N tijdintervallen wordt genomen.
8. Werkwijze volgens konklusie 1, 2 of 3, voor het segmenteren BAD'iWHStNA^raaksignaal van een qp zich bekende spraakuiting in segmenten van klanken, bijvoorbeeld in de vorm van fonemen, met het kenmerk, dat o £ η Λ Ί η “7 ' ¥ V PHN 11.275 25 door middel van een op zich bekende tijdaanpassing tussen een aaneenschakeling van refe rentiepatronen van die klanken waaruit de spraakuiting is opgebouwd en het spraaksignaal van de spraakuiting een mate van overeen-stertming wordt gerealiseerd die maximaal is, en dat die klanken aan die , 5 · segmenten, begrensd door de waarden i, worden toegekend waarvoor de grenzen van klank en overeenkomstig segment de beste overeenstemming vertonen.
9. Werkwijze volgens konklusie 8, met het kenmerk, dat, daar waar één klank is toegekend aan twee naast elkaar liggende segmenten, de 10 waarde i voor de grens tussen deze twee segmenten wordt weggelaten en dat, daar waar twee klanken zijn toegekend aan één segment, de grens tussen de twee klanken wordt toegevoegd aan de groep van waarden i.
10. Werkwijze volgens konklusie 9, met het kenmerk, dat uitgaande van de aldus verkregen groep van waarden i, gebruikmakend van omzettings- 15 regels, de difoongrenzen worden afgeleid.
11. Werkwijze volgens konklüsie 1, 2 of 3, met het kenmerk, dat voor het herkennen van het spraaksignaal van een onbekende spraakuiting, elk segment wordt vergeleken met referentiepatronen van op zich bekende klanken, èn dat die klank aan een segment wordt toegekend waarvoor de 20 mate van overeenstemming tussen dit segment en de klank maximaal is.
12. Inrichting voor het uitvoeren van de werkwzije volgens een der voorgaande konklusies, met een ingangsklem voor het ontvangen van een elektrisch signaal dat overeenkomt met het akoestische spraaksignaal, een eerste eenheid met een ingang gekoppeld met de ingangsklem en een 25 uitgang, welke eerste eenheid is ingericht voor het afleiden van de N signalen en voor het toevoeren van deze N signalen aan zijn uitgang, met het kenmerk, dat de inrichting verder is voorzien van: - een tweede eenheid met een ingang^c|ekpppeld met de uitgang van de eerste eenheid en een uitgang, welke tweede/is ingericht voor het af leiden 30 van de funktie c^ voor opvolgende intervallen i uit de signalen behorende bij de tijdintervallen i en j en voor het toevoeren van de funktie c\ ^ aan zijn uitgang, en - een deel inrichting met een ingang gekoppeld met de uitgang van de tweede eenheid en een uitgang, welke deelinrichting is ingericht voor 35 het bepalen van die waarden i die de begrenzingen vormen van gedeelten BAD'SRföftftEraaksi9naal waarvoor geldt dat de kurves c^j behorend bij tijdintervallen liggend binnen een gedeelte ten minste ongeveer overeenkomen. ΡΗΝ 11.275 26
13. Inrichting volgens konklusie 12, voor het uitvoeren van de werkwijze volgens konklusie 2, met het kenmerk, dat de dèelinrichting is voorzien van: - een derde eenheid met een ingang gekoppeld met de ingang van de 5 deelinrichting en een uitgang, welke derde eenheid is ingericht voor het voor elk interval i af leiden van het midden nt van de bijbehorende funktie c. . en voor het toevoeren van de waarden m. aan zijn uitgang, i: ï en - een vierde eenheid met een ingang gekoppeld met de uitgang van de 10 derde eenheid en een uitgang gekoppeld met de uitgang van de deelinrichting, welke vierde eenheid is ingericht voor het bepalen van die waarden i die ten minste ongeveer overeenkomen met nuldoorgangen in de funktie d. en voor het toevoeren van die waarden i aan zijn uitgang.
14. Inrichting volgens konklusie 13, voor het uitvoeren van de 15 werkwijze volgens konklusie 3, met het kenmerk, dat vierde eenheid is ingericht voor het bepalen van die waarden i die ten minste ongeveer overeenkomen reet de nuldoorgangen van negatief naar positief in de funktie di# waarbij - i.
15. Inrichting volgens konklusie 13, voor het uitvoeren van de 20 werkwijze volgens konklusie 7, met het kenmerk, dat de eerste eenheid is ingericht voor het af leiden van de N signalen in de vorm van de spektrale omhullenden van het akoestische spraaksignaal in de N tijdintervallen.
16. Inrichting volgens eéh der konklusies 13, 14 of 15, voor het uitvoeren van de werkwijze volgens konklusie 8, met het kenmerk, dat de 25 inrichting verder is voorzien van een geheugen voor het opslaan van de referentiepatronen van klanken, een vijfde eenheid met een eerste ingang gekoppeld met een uitgang van het geheugen, een tweede ingang gekoppeld met de uitgang van de eerste eenheid en een uitgang, welke vijfde eenheid is ingericht voor het door middel van een op zich bekende tijdaanpassing 30 tussen een aaneenschakeling van referentiepatronen van die klanken waaruit de op zich bekende spraakuiting is opgebouwd en het spraaksignaal van de spraakuiting, realiseren van een maximale mate van overeenstemming en voor het leveren van de op deze wijze verkregen grenzen aan zijn uitgang, en een kanbinatie-eenheid met een eerste ingang gekoppeld met de uitgang 35 van de vierde eenheid en een tweede ingang gekoppeld mét de uitgang van de vijfde eenheid en een uitgang, welke vijfde eenheid is ingericht voor van ^·β blanken aan die segmenten begrensd door de waarden i, waarvoor de grenzen van klank en overeenkomstig segment de beste overeen- 8500377 PHN 11.275 27 — «* V stemming vertonen.
17. Inrichting volgens konklusie 16, met het kenmerk, dat de kanbinatie-eenheid verder is ingericht voor het toevoegen van en het weglaten van een of meer waarden i en wel net zoveel waarden , i als er 5 minder respektievelijk meer segmenten zijn dan overeenkomstige klanken en voor het leveren van de al dan niet veranderde groep van waarden i aan zijn uitgang.
18. Inrichting volgens konklusie 17, met het kenmerk, dat de inrichting verder is voorzien van een zesde eenheid, met een ingang 10 gekoppeld met de uitgang van de kombinatie-eenheid en een uitgang, welke zesde eenheid is ingericht voor het, uitgaande van de waarden i van de kombinatie-eenheid voor de klankgrenzen en gebruikmakend van omzettingsregels, af leiden van de difoongrenzen en voor het toevoeren van deze difoongrenzen aan zijn uitgang.
19. Inrichting volgens konklusie 13 of 14, voor het uitvoeren van de werkwijze volgens konklusie 11, met het kenmerk, dat de inrichting verder is voorzien van een geheugen voor het opslaan van referentiepatro-nen van op zich bekende klanken en van een vijfde eenheid met een eerste ingang gekoppeld met de uitgang van het geheugen, een tweede ingang 2o gekoppeld met de uitgang van de vierde eenheid en een derde ingang gekoppeld net de uitgang van de eerste eenheid en een uitgang, welke vijfde eenheid is ingericht voor het vergelijken van elk segment met referentie-patronen van op zich bekende klanken, en voor het toekennen van die klank aan een segment waarvoor de mate van overeenstemming tussen dit 75 segment en de klank maximaal is, en is ingericht voor het leveren aan zijn uitgang van informatie betreffende de aaneenschakeling van referentie-patronen van die klanken die elk maximaal overeenstemmen met het segment waaraan zij zijn toegekend. 30 35 BAD ORIGINAL
NL8500377A 1985-02-12 1985-02-12 Werkwijze en inrichting voor het segmenteren van spraak. NL8500377A (nl)

Priority Applications (6)

Application Number Priority Date Filing Date Title
NL8500377A NL8500377A (nl) 1985-02-12 1985-02-12 Werkwijze en inrichting voor het segmenteren van spraak.
US06/825,827 US5109418A (en) 1985-02-12 1986-02-04 Method and an arrangement for the segmentation of speech
EP86200178A EP0191531B1 (en) 1985-02-12 1986-02-10 A method and an arrangement for the segmentation of speech
AU53334/86A AU584165B2 (en) 1985-02-12 1986-02-10 A method and an arrangement for the segmentation of speech
DE8686200178T DE3675401D1 (de) 1985-02-12 1986-02-10 Verfahren und einrichtung zur sprachsegmentierung.
JP61028766A JPH0823757B2 (ja) 1985-02-12 1986-02-12 音声の区分化方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL8500377 1985-02-12
NL8500377A NL8500377A (nl) 1985-02-12 1985-02-12 Werkwijze en inrichting voor het segmenteren van spraak.

Publications (1)

Publication Number Publication Date
NL8500377A true NL8500377A (nl) 1986-09-01

Family

ID=19845500

Family Applications (1)

Application Number Title Priority Date Filing Date
NL8500377A NL8500377A (nl) 1985-02-12 1985-02-12 Werkwijze en inrichting voor het segmenteren van spraak.

Country Status (6)

Country Link
US (1) US5109418A (nl)
EP (1) EP0191531B1 (nl)
JP (1) JPH0823757B2 (nl)
AU (1) AU584165B2 (nl)
DE (1) DE3675401D1 (nl)
NL (1) NL8500377A (nl)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
SE517836C2 (sv) * 1995-02-14 2002-07-23 Telia Ab Metod och anordning för fastställande av talkvalitet
EP0786132B1 (en) * 1995-08-14 2000-04-26 Koninklijke Philips Electronics N.V. A method and device for preparing and using diphones for multilingual text-to-speech generating
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
US6006185A (en) * 1997-05-09 1999-12-21 Immarco; Peter System and device for advanced voice recognition word spotting
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP3767817B2 (ja) * 2002-10-25 2006-04-19 松下電器産業株式会社 温度測定装置
JP4792703B2 (ja) * 2004-02-26 2011-10-12 株式会社セガ 音声解析装置、音声解析方法及び音声解析プログラム
CN1937032B (zh) * 2005-09-22 2011-06-15 财团法人工业技术研究院 切割语音数据序列的方法
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
WO2020003413A1 (ja) * 2018-06-27 2020-01-02 日本電気株式会社 情報処理装置、制御方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344233A (en) * 1967-09-26 Method and apparatus for segmenting speech into phonemes
US2903515A (en) * 1956-10-31 1959-09-08 Caldwell P Smith Device for selective compression and automatic segmentation of a speech signal
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
JPS572099A (en) * 1980-06-05 1982-01-07 Tokyo Shibaura Electric Co Voice recognizing device
JPS57178295A (en) * 1981-04-27 1982-11-02 Nippon Electric Co Continuous word recognition apparatus
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4672667A (en) * 1983-06-02 1987-06-09 Scott Instruments Company Method for signal processing
US4665548A (en) * 1983-10-07 1987-05-12 American Telephone And Telegraph Company At&T Bell Laboratories Speech analysis syllabic segmenter

Also Published As

Publication number Publication date
US5109418A (en) 1992-04-28
DE3675401D1 (de) 1990-12-13
EP0191531A2 (en) 1986-08-20
AU584165B2 (en) 1989-05-18
AU5333486A (en) 1986-08-21
JPS61186998A (ja) 1986-08-20
EP0191531B1 (en) 1990-11-07
EP0191531A3 (en) 1986-10-29
JPH0823757B2 (ja) 1996-03-06

Similar Documents

Publication Publication Date Title
US6125346A (en) Speech synthesizing system and redundancy-reduced waveform database therefor
US4805218A (en) Method for speech analysis and speech recognition
US5400434A (en) Voice source for synthetic speech system
Childers et al. Gender recognition from speech. Part II: Fine analysis
US4591928A (en) Method and apparatus for use in processing signals
NL8500377A (nl) Werkwijze en inrichting voor het segmenteren van spraak.
US4343969A (en) Apparatus and method for articulatory speech recognition
Acero Source-filter models for time-scale pitch-scale modification of speech
Chen et al. A first study on neural net based generation of prosodic and spectral information for Mandarin text-to-speech
Blomberg Adaptation to a speaker's voice in a speech recognition system based on synthetic phoneme references
US7529672B2 (en) Speech synthesis using concatenation of speech waveforms
EP1543503B1 (en) Method for controlling duration in speech synthesis
US7130799B1 (en) Speech synthesis method
JPH09319394A (ja) 音声合成方法
Tsuzaki Feature extraction by auditory modeling for unit selection in concatenative speech synthesis
Kain et al. Spectral control in concatenative speech synthesis
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes
Code Observations in the Art of Speech: Paul Lansky's Six Fantasies
Scarr Normalization and adaptation of speech data for automatic speech recognition
Pearson et al. Text-to-speech synthesis using a natural voice source.
Chen An analysis-by-synthesis approach for automatic time segmentation of speech signals
Rosen et al. Dynamic analog of the vocal tract
KR970003092B1 (ko) 음성 합성 단위를 구성하는 방법 및 이에 상응하는 문장 음성 합성 방법
Millar et al. The Automatic analysis of acoustic variance in speech
JP2002189489A (ja) 音声合成装置

Legal Events

Date Code Title Description
A1B A search report has been drawn up
BV The patent application has lapsed