BE1007355A3

BE1007355A3 - Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.

Info

Publication number: BE1007355A3
Application number: BE9300775A
Authority: BE
Inventors: Ronaldus M Aarts
Original assignee: Philips Electronics Nv
Priority date: 1993-07-26
Filing date: 1993-07-26
Publication date: 1995-05-23
Also published as: EP0637011B1; JP3793245B2; DE69413900T2; JPH0764598A; US5878391A; DE69413900D1; EP0637011A1

Abstract

Een spraaksignaaldiscriminatieschakeling (70) is voorzien van een ingang (1) voor het ontvangen van een audiosignaal en een uitgang (5) voor het afgeven van een waarschijnlijkheidsincatiesignaal Vp dat indicatief is voor de waarschijnlijkheid dat het via de ingang (1) ontvangen audiosignaal een spraaksignaal is. Een analyseschakeling (2) leidt een analysesignaal (NA) af dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum. Een signaalpatroondetector (3) detecteert signaalpatronen in het analysesignaal (NA) waarvan de waarschijnlijk van optreden in een spraaksignaal verschilt van de waarschijnlijkheid van optreden in een ander signaal, bij voorbeeld een muzieksignaal. Schattingsmiddelen (4) leiden in afhankelijkheid van de detectie van de gedetecteerde signaalpatronen het waarschijnlijkheidindicatiesignaal Vp af. De spraaksignaaldiscriminatieschakeling (70) wordt toegepast in een audio-inrichting voor het verwerken van een ontvangen audiosignaal.

Description

EMI1.1

Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.

De uitvinding heeft betrekking op een spraaksignaaldiscriminatieschakeling met een ingang voor het ontvangen van een audiosignaal en een uitgang voor het afgeven van een waarschijnlijkheidindicatiesignaal dat indicatief is voor de waarschijnlijkheid dat het via de ingang ontvangen audiosignaal een spraaksignaal is.

De uitvinding heeft voorts betrekking op een audio-inrichting voorzien van een dergelijke spraaksignaaldiscriminatieschakeling.

Een spraaksignaaldiscriminatieschakeling en audio-inrichting van de hiervoor genoemde soort zijn bekend uit Rundfunktechnische Mitteilungen Band 12 1968 Heft 6 blz. 288-291. De bekende spraaksignaaldiscriminatieschakeling is ingericht voor het onderscheiden van spraaksignalen van muzieksignalen in een radio-ontvanger.

In het geval dat een spraaksignaal gedetekteerd wordt ondergaat het ontvangen signaal een bewerking waardoor de verstaanbaarheid van het weergegeven spraaksignaal wordt verbeterd. In het geval dat een muzieksignaal gedetekteerd wordt ondergaat het ontvangen signaal een bewerking die vooral geschikt is om toegepast te worden bij de ontvangst van muzieksignalen.

De bekende spraaksignaaldiscriminatieschakeling maakt gebruik van de eigenschap dat muzieksignalen in het algemeen geleidelijk in amplitude afnemen terwijl spraaksignalen meestal abrupt in amplitude afnemen. Deze geleidelijke afnamen worden gedetecteerd en een signaal dat een puls afgeeft bij elke detectie wordt geintegreerd. Dit geintegreerde signaal geeft aan of het ontvangen audiosignaal een spraaksignaal of een muzieksignaal is. Het bezwaar van de bekende discriminatieschakeling is dat deze in een relatief groot aantal gevallen (3%) het geintegreerde signaal niet correct de soort (muziek of spraak) van het ontvangen audiosignaal aangeeft.

Het is een doel van de uitvinding om een spraaksignaaldiscriminatieschakeling te verschaffen die een betrouwbaardere discriminatie tussen spraaksignalen en muzieksignalen mogelijk maakt.

Dit doel wordt volgens de uitvinding bereikt door een spraaksignaaldiscriminatieschakeling die is gekenmerkt door een analyseschakeling voor

het afleiden van een analysesignaal dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum, van een signaalpatroondetector voor het detecteren van signaalpatronen in het analysesignaal waarvan de waarschijnlijk van optreden in een spraaksignaal verschilt van de waarschijnlijkheid van optreden in een ander signaal, niet zijnde een spraaksignaal, en schattingsmiddelen voor het in afhankelijkheid van de detectie van de gedetecteerde signaalpatronen afleiden van het waarschijnlijkheidindicatiesignaal.

De uitvinding berust op het inzicht dat veranderingspatronen in de verhouding tussen signaalvermogens in verschillende gedeelten van het spectrum voor spraaksignalen duidelijk verschillen van de patronen die voorkomen bij andere signalen. Bij de inrichting volgens de uitvinding wordt bij de afleiding van het waarschijnlijkheidssignaal rekening gehouden met tijdsdomeinaspecten alsook met frequentiedomeinaspecten, waardoor de robuustheid van de afleiding wordt vergroot.

Verder heeft de schakeling volgens de uitvinding het voordeel dat de sterkte van het ontvangen signaal nagenoeg geen invloed heeft op het waarschijnlijkheidssignaal Dit is het gevolg van het feit dat het waarschijnlijkheidssignaal wordt afgeleid uit de verhouding tussen signaalvermogens, welke vermogensverhouding niet afhankelijk is van de sterkte van het ontvangen signaal.

Opgemerkt wordt dat in EP-A-0. 398. 180 een discriminatieschakeling beschreven wordt waarbij voor de onderscheiding van de signalen de verhouding tussen de signaalvermogens in verschillende gedeelten van het spectrum wordt gebruikt. Het betreft daar echter een schakeling voor het discrimineren van stemhebbende-ten opzichte van niet-stemhebbende signaalgedeelten in een spraaksignaal en niet een discriminatie van het spraaksignaal zelf ten opzichte van een ander signaal.

Specifiek voor spraaksignalen zijn snelle veranderingen in de vermogensverhouding die kort na elkaar plaatsvinden. Een kortstondig tijdelijk verlaging van de vermogensverhouding is eveneens specifiek voor spraaksignalen.

Echter de spraaksignaal specifieke patronen zijn in principe niet beperkt tot de twee hiervoor genoemde patronen. De hiervoor genoemde patronen hebben echter wel het voordeel dat zij eenvoudig te detecteren zijn.

Het waarschijnlijkheidssignaal kan op basis van detecties van een soort

van specifieke patronen plaatsvinden. De betrouwbaarheid wordt echter aanzienlijk vergroot indien voor de afleiding detecties van twee of meer soorten van specifieke patronen worden gebruikt.

De uitvinding zal hierna nader worden toegelicht onder verwijzing naar de figuren 1 tot en met 9, waarin figuur 1 een uitvoeringsvorm van spraaksignaaldiscriminatieschakeling volgens de uitvinding toont, figuur 2 een analyseschakeling toont voor toepassing in de spraaksignaaldiscriminatieschakeling, figuur 3 een mogelijk verloop van een door de analyseschakeling afgegeven analysesignaal toont, figuur 4 en figuur 5 mogelijke relaties tonen tussen door een signaalpatroondetector afgegeven detectiesignalen en een waarschijnlijkheidssignaal, figuur 6 een stroomdiagram toont van een programma dat in een uitvoeringsvorm van de spraaksignaaldiscriminatieschakeling wordt uitgevoerd, figuur 7 een uitvoeringsvorm van een audio-inrichting toont, waarin een spraaksignaaldiscriminatieschakeling volgens de uitvinding is toegepast,

en figuur 8 en figuur 9 uitvoeringsvormen van een
EMI3.1
audioverwerkingsschakeling tonen voor toepassing in combinatie met de spraaksignaaldiscriminatieschakeling.

Figuur 1 toont een spraaksignaaldiscriminatieschakeling volgens de uitvinding. De schakeling omvat een ingang 1 voor het ontvangen van een audiosignaal.

Het via de ingang 1 ontvangen audiosignaal wordt aan een analyseschakeling 2 toegevoerd. De analyseschakeling 2 leidt uit het ontvangen audiosignaal een analysesignaal NA af dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum.

Het eerste gedeelte van het frequentiespectrum omvat het frequentiegebied waarin de frequentiecomponenten van een spraaksignaal zijn geconcentreerd. Een geschikte benedengrens en een geschikte bovengrens zijn bij voorbeeld respectievelijk 70 Hz en 700 Hz. Het tweede gedeelte omvat een gedeelte van het audiospectrum waar relatief weinig frequentiecomponenten zijn gelegen die in een spraaksignaal voorkomen.

Een geschikt frequentiegebied is het gehele audiospectrum minus een

frequentiegebied tussen 130 tot 1200 Hz. Figuur 2 toont bij wijze van voorbeeld een uitvoeringsvorm van de analyseschakeling 2, waarmee een analysesignaal wordt afgeleid dat indicatief is voor de verhouding tussen het signaalvermogen van frequentiecomponenten tussen de 70 en 700 Hz en het signaalvermogen van de frequentiecomponenten van het audiosignaal buiten het frequentiegebied tussen 130 en 1200 Hz. De in figuur 2 getoonde analyseschakeling 2 omvat een banddoorlaatfilter 20 met een doorlaatband van 70 tot 700 Hz. Een ingang van het filter 20 is aangesloten op de ingang 1 voor het ontvangen van het audiosignaal.

Via een uitgang van het filter wordt het door het filter 20 gefilterde audiosignaal toegevoerd aan een detector 21 voor het bepalen van een signaalvermogen van dit gefilterde signaal.

Verder omvat de analyseschakeling van figuur 2 een filter 22 met een zogeheten badkuipvormige frequentiekarakteristiek waarbij de frequenties buiten het frequentiegebied tussen 130 en 1200 Hz extra worden versterkt. Een ingang van het filter 22 is aangesloten op de ingang 1. Via een uitgang van het filter 22 wordt het door filter 22 gefilterde signaal toegevoerd aan een detector 23 voor het bepalen van een signaalvermogen van dit gefilterde signaal. Met behulp van een schakeling 24 van een gebruikelijke soort wordt uit uitgangssignalen van de detectors 21 en 23 de verhouding tussen het door de detector 21 bepaalde signaalvermogen en het door de detector 23 bepaalde signaalvermogen bepaald. Via een uitgang van de schakeling 24 wordt het analysesignaal NA dat deze vermogensverhouding aangeeft afgegeven.

Het zij opgemerkt dat de in figuur 2 getoonde uitvoeringsvorm een van de vele mogelijke uitvoeringsvormen is voor de afleiding van het analysesignaal. Voor mogelijke alternatieven wordt bijvoorbeeld verwezen naar het eerder genoemde document EP-A 0. 398. 180.

Ter illustratie is in figuur 3 het verloop weergegeven van de vermogensverhouding (SAMP) die wordt aangegeven door het analysesignaal NA dat wordt afgegeven door de schakeling 24. In het geval dat de frequentiecomponenten van het audiosignaal alle binnen de bandbreedte van filter 20 zijn gelegen, zoals vaak voorkomt bij een spraaksignaal, dan is de vermogensverhouding maximaal. De hoogte van dit maximum hangt af van de mate waarin deze frequentie componenten door het filter 22 worden doorgelaten.

In het geval dat het audiosignaal veel frequentiecomponenten heeft buiten
EMI4.1
de bandbreedte van het filter 20, zoals dat in algemeen voorkomt bij muzieksignalen, i

dan neemt af tot een kleine waarde. Opgemerkt wordt dat ook bij spraaksignalen, in het bijzonder bij zogeheten wrijfklanken, breedbandige signalen voorkomen waarbij de verhouding tussen de vermogens klein is, zodat op basis van deze vermogensverhouding geen betrouwbare beslissing omtrent de soort van het ontvangen audiosignaal gedaan kan worden.

Specifiek voor spraaksignalen zijn echter patronen in de vermogensverhouding, waarbij een aantal kort op elkaar volgende snelle wisselingen in de vermogensverhouding voorkomen. Hoe groter dit aantal des te waarschijnlijker is het dat het bijbehorende audiosignaal een spraaksignaal is. Met een snelle wisseling in de vermogensverhouding wordt hier bedoeld dat de waarde van de vermogensverhouding binnen een bepaalde tijd verandert van een waarde boven een bovendrempel naar een waarde beneden een benedendrempel of omgekeerd. Ook specifiek voor spraaksignalen is een tijdelijke afnamen van de vermogensverhouding, welke veroorzaakt wordt door de korte pauzes die voorafgaan aan plofklanken (Eng : plosives) of door korte wrijfk1anken. Opgemerkt wordt dat de spraakspecifieke patronen in de vermogensverhouding niet beperkt zijn tot de twee hiervoor genoemde patronen.

De twee genoemde patronen hebben echter het voordeel dat zij met eenvoudige middelen te detecteren zijn.

Specifiek voor muzieksignalen zijn bijvoorbeeld lang aangehouden tonen, welke bijvoorbeeld gedurende een langere tijd een lage verhoudingswaarde veroorzaken.

Hele hoge tonen en hele lage tonen die een extreem lage verhoudingswaarde veroorzaken zijn eveneens specifiek voor muzieksignalen. Het zal voor de vakman duidelijk zijn dat de muziekspecifieke patronen niet beperkt zijn tot de hiervoor genoemde patronen.

Met verwijzingscijfer 3 wordt in figuur 1 een signaalpatroondetector aangegeven die specifieke patronen, bij voorbeeld spraakspecifieke patronen, detecteert waarvan de waarschijnlijkheid van optreden voor spraaksignalen verschilt van de waarschijnlijkheid van optreden van een ander signaal, niet zijnde een spraaksignaal, bij voorbeeld een muzieksignaal.

Detectiesignalen sfl,..., sfn die aangeven dat een patroon is gedetecteerd waarvan de waarschijnlijkheid van optreden hoger is bij spraaksignalen dan bij andere signalen worden door de signaalpatroondetector 3 afgegeven aan schattingsschakeling 4.

De signaalpatroondetector 3 kan eventueel zijn ingericht om behalve de

spraakspecifieke patronen eveneens muziekspecifieke patronen te detecteren.

Detectiesignalen mfl, ..., mfm die aangeven dat een patroon is gedetecteerd waarvan de waarschijnlijkheid van optreden hoger is bij muzieksignalen dan bij andere signalen kunnen door de signaalpatroondetector 3 eveneens afgegeven aan schattingsschakeling 4.

De schattingsschakeling 4 leidt volgens een bepaald criterium, in afhankelijkheid van een of meer van de detectiesignalen sfl,..., sfn en mfl,..., mfm, een waarschijn1ijkheidindicatiesignaal Vp af, dat indicatief is voor de waarschijnlijkheid dat het aan de ingang 1 ontvangen audiosignaal een spraaksignaal is. Het waarschijnlijkheidsindicatiesignaal Vpwordt via een uitgang 5 afgegeven. Een geschikt criterium voor het afleiden van het waarschijnlijkheidssignaal Vp kan bijvoorbeeld een criterium zijn waarbij- een duidelijke relatie bestaat tussen de frequentie van detectie van spraakspecifieke en/of muziekspecifieke verschijnselen.

Zo kan bijvoorbeeld telkens in opeenvolgende tijdsintervallen het verschil bepaald worden tussen het aantal gedetecteerde spraakspecifieke patronen en het aantal muziekspecifieke patronen.

Daarbij kunnen aan patronen van verschillende soort verschillende weegfactoren toegekend worden. Opgemerkt wordt verder dat de betrouwbaarheid van het waarschijnlijkheidssignaal Vp toeneemt naarmate voor de afleiding een groter aantal verschillende soorten van specifieke patronen worden gedetecteerd. Echter in principe kan worden volstaan met de detectie van specifieke patronen van een soort.

Verder wordt opgemerkt dat de afleiding van het waarschijnlijkheidssignaal Vpbehalve op basis van uitsluitend detecties van specifieke patronen in het analyse signaal ook kan plaatsvinden op basis van detecties van specifieke patronen in het analysesignaal en detecties van specifieke verschijnselen in het audiosignaal zelf, bij voorbeeld zoals aangegeven in het reeds eerder genoemde artikel in Rundfunktechnische Mitteilungen.

Een ander geschikt criterium voor het afleiden van het waarschijnlijkheidssignaal Vp zal nader worden verklaard onder verwijzing naar figuur 4. Hierin zijn een detectiesignaal sfl en een detectiesignaal mfl en een bijbehorend
EMI6.1
waarschijnlijkheidsindicatiesignaal Vp weergegeven als funktie van de tijd t.

Elke puls in het detectiesignaal sfl geeft aan dat een spraakspecifiek patroon van een bepaalde soort in de verhouding tussen de vermogens is gedetecteerd. Elke puls in het signaal mfl geeft aan dat een muziekspecifiek patroon van een bepaalde soort in vermogensverhouding is gedetecteerd.

Bij de afleiding van waarschijnlijkheidssignaal Vp wordt in reactie van elke puls in het detectiesignaal sfl de waarde van waarschijnlijkheidssignaal Vp verhoogd met een bepaalde eerste waarde. In reactie op elke puls in het detectiesignaal mfl wordt de waarde van waarschijnlijkheidssignaal Vp met een bepaalde tweede waarde verminderd. In het hier beschreven voorbeeld is de tweede waarde gelijk aan de eerste waarde. Het zal duidelijk zijn dat de eerste en tweede waarde niet aan elkaar gelijk behoeven te zijn. In het hier beschreven voorbeeld is er van uitgegaan dat het aantal detecteerbare van spraakspecifieke patronen dat bij ontvangst van een spraaksignaal per tijdseenheid voorkomt in de vermogensverhouding groter is dan het aantal detecteerbare muziekspecifieke patronen per tijdseenheid dat bij de ontvangst van een muzieksignaal voorkomt in de vermogensverhouding.

Om hiervoor te compenseren neemt de waarde van waarschijnlijkheidssignaal Vp bij afwezigheid van pulsen in de detectiesignalen geleidelijk af.

Indien in de vermogensverhouding een groot aantal spraakspecifieke patronen worden gedetecteerd en geen of slechts weinig muziekspecifieke patronen dan
EMI7.1
kan aangenomen worden dat de waarschijnlijkheid dat het ontvangen signaal een spraaksignaal is groot is. In dat geval zal de waarde van waarschijnlijkheidssignaal Vp hoog zijn. Omgekeerd zal bij afwezigheid van spraakspecifieke patronen in de vermogensverhouding de waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is klein zijn. In dat geval zal de waarde van waarschijnlijkheidssignaal Vp klein zijn. Het signaal Vp is dus indicatief voor de waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is.

In het geval dat de ontvangst van een spraaksignaal waarbij zeer veel spraakspecifiek patronen worden gedetecteerd wordt gevolgd door de ontvangst van een muzieksignaal dan kan het geruime tijd duren voordat waarschijnlijkheidssignaal Vp een waarde heeft bereikt die behoort bij het ontvangen muzieksignaal. Dit kan worden voorkomen door begrenzing van de maximale waarde van waarschijnlijkheidssignaal Vp. Om soortgelijke redenen is het eveneens voordelig om de minimale waarde van waarschijnlijkheidssignaal Vp te begrenzen.

In figuur 5 is het verloop van waarschijnlijkheidssignaal Vp weergegeven voor het geval dat de waarde van waarschijnlijkheidssignaal Vp wordt verhoogd in reactie op pulsen in een detectiesignaal dat detecties van een spraakspecifiek patroon van een eerste soort aangeeft en in reactie van op pulsen van pulsen in een detectiesignaal sf2 dat detecties van een spraakspecifiek patroon van een tweede soort aangeeft.

Opgemerkt wordt dat in het geval dat de hoogte van de door de detectors 21 en 23 gedetecteerde vermogen klein is de bepaalde vermogensverhouding niet altijd meer betrouwbaar is. Het is dan ook van voordeel om de patroondetectie en de afleiding van het waarschijnlijkheidssignaal Vp te onderbreken gedurende de tijdsintervallen dat de genoemde gedetecteerde vermogens klein zijn.

De signaalpatroondetector 3 en de schattingsschakeling 4 kunnen als zogeheten"hardwired"-schakelingen uitgevoerd worden.

Het is ook mogelijk om de signaalpatroondetector en de schattingsschakeling te realiseren met een zogeheten programmagestuurde schakeling, bij voorbeeld een microcomputer, die geladen is met een geschikt programma.

Bij wijze van voorbeeld is in figuur 6 een stroomdiagram getoond van een programma voor het detecteren van twee verschillende spraakspecifiek patronen en de afleiding van het signaal Vp op een wijze die overeenkomt met de in figuur 5 getoonde relatie tussen de detecties en het signaal Vp.

De spraakspecifieke patronen die worden gedetecteerd zijn een opeenvolging van drie snelle overgangen in de vermogensverhouding, waarbij het tijdsverschil tussen opeenvolgende overgangen niet meer bedraagt dan 700 ms. Met een snelle overgang wordt hier een verandering van de vermogensverhouding bedoeld waarbij de waarde van de vermogensverhouding binnen 100 ms veranderd van een waarde beneden een benedendrempel (die nabij de minimumwaarde van de vermogensverhouding ligt) naar een waarde boven een bovendrempel (die nabij de maximale waarde van de vermogensverhouding ligt) of omgekeerd.

In figuur 3 zijn de benedendrempel en de bovendrempel respectievelijk aangeduid als"lowthreshold"en "highthreshold"
Het tweede spraakspecifieke patroon in de vermogens verhouding dat gedetecteerd wordt is een tijdelijke verlaging van de vermogensverhouding tot beneden de benedendrempel waarvan de tijdsduur is gelegen tussen 45 en 150 ms ligt.

Ten behoeve van de detecties van de spraakspecifieke patronen worden door het programma de waarde van een aantal variabelen bepaald, te weten : -"same" ; dit is de waarde van de momentane vermogensverhouding.
EMI8.1
-"tbelowlowthreshold" dit is de tijd dat de vermogensverhouding beneden de benedendrempel"lowthreshold"is gelegen.

EMI9.1

-"tlastslope" dit is de tijd die is verstreken sinds de laatst gedetecteerde snelle overgang.

-"tslope" dit is de duur van een overgang van een waarde beneden de benedendrempel tot boven de bovendrempel of omgekeerd.

-"output"; dit is de waarde van het waarschijnlijkheidssignaal.

-"slopecount" deze variabele geeft het aantal opeenvolgende snelle overgangen waarvan de tussenliggende tijdsverschillen niet groter dan 700 ms.

- dit is een logische variabele die aangeeft of de laatst door de vermogensverhouding overschreden drempelwaarde de benedendrempel dan wel de bovendrempel is.

-"bitl"; dit is een logische variabele die aangeeft of de waarde van "tbelowlowthreshold" 45 en 150 ms ligt.

-"output"; deze variabele geeft de waarde van het signaal Vp aan.

Ter illustratie zijn in figuur 3 de waarden van de variabelen"samp', "tlastslope","tslope"en"tbelowlowthreshold"aangegeven voor een verloop van de vermogensverhouding ("samp") waarin beide te detecteerbare patronen voorkomen.

Het door het stroomdiagram vertegenwoordigde programma wordt herhaaldelijk aangeroepen met constante tussenpozen. voor de bepaling van de waarde van de variabelen"tbelowlowthreshold", "tslope"kan het programma zijn voorzien van zogeheten softwaretimers, die onder programma controlle op nul gesteld kunnen worden en die steeds de tijd aangeven die is verstreken sinds de laatste opnulstelling.

Het programma omvat een aantal stappen die worden uitgevoerd in door het in figuur 6 getoonde stroomdiagram vastgelegde volgorde.

In stap S wordt getest of de waarde van"samp"beneden"lowthreshold"is gelegen.

In stap S3 wordt getest of de logische waarde van "bit0" gelijk aan "1" iso In stap S4 wordt getest of "tlastslope" kleiner is dan 700 ms.

In stap S5 wordt"slopecount"op nul gesteld.

In stap S6 wordt getest of"tslope"kleiner is dan 100 ms.

In stap S7 wordt'slopecount"met een verhoogd in het geval dat deze variabele kleiner is dan drie.

In stap S8 wordt getest of de waarde van'slopecount"gelijk is aan drie.

In stap S9 en stap S14 wordt de waarde van "output" verhoogd met 0, 5, waarbij de maximale waarde van "output" wordt begrenst tot een. Bovendien wordt in stap S14 de logische waarde van "bitl" gelijk aan "0" gemaakt.

In stap S10 en stap S 17 wordt"tslope"op nul gesteld.

In stap Sll wordt de waarde van"bitO"geinverteerd.

In stap S12 wordt "tbelowlowthreshold" op nul gesteld.

In stap S13 wordt getest of de logische waarde van "bitl" gelijk aan "1" iso In S15 wordt getest of de waarde van"samp"hoger is dan de waarde van "highthreshold".

In stap S16 wordt getest of de logische waarde van "bit0" gelijk is aan "0".

In stap S19 wordt getest of"tbelowlowthreshold"is gelegen tussen 45 en 150 ms.

In S20 wordt de waarde van "bitl" gelijk aan "1" gemaakt.

In stap S21 wordt de waarde van "output" verlaagd met een kleine waarde, mits de minimumgrens (0') voor "output" nog niet bereikt is.

In stap S22 wordt de waarde van "output" uitgevoerd.

In stap S23 wordt de logische waarde van "bit ! " gelijk aan "0" gemaakt.

Het verloop van het programma is als volgt : Indien de waarde van"samp"beneden de benedendrempel "lowthreshold" is gelegen en "bitO"aangeeft dat de voorlaatste drempeldoorsnijding een doorsnijding van de bovendrempel"highthreshold"was, dan betekent dit dat een overgang van boven de bovendrempel tot beneden de benedendrempel heeft plaats gevonden. In dat geval komt het programma via de stappen S l en S3 bij stap S4 terecht.

In het geval dat"samp"boven de bovendrempel"highthreshold"is gelegen en"bitO"aangeeft dat de voorlaatste drempeldoorsnijding een doorsnijding van de benedendrempel"lowthreshold"betekent dit dat een overgang heeft plaatsgevonden van beneden de benedendrempel tot boven de bovendrempel. In dat geval komt het

programma via de stappen Sl, S15 en S16 eveneens bij stap S4 terecht.

Na het bereiken van stap S4 wordt het door de stappen S4, S5, S6, S7, S8, S9, S10 en Sll vastgelegde programmagedeelte afgewerkt.

In dit programmagedeelte wordt getest of de vorige overgang meer dan 700 ms geleden was (stap S4). Bovendien wordt getest of de gedetecteerde overgang binnen 100 ms heeft plaats gevonden (stap S6). Ten slotte wordt getest of het aantal opeenvolgende overgangen gelijk aan drie is (stap S8). Indien aan al deze drie voorwaarden is voldaan dan vertoont het verloop van de vermogensverhouding een spraakspecifiek patroon en wordt de waarde van "output" met 0, 5 verhoogd (stap S9).

Bovendien wordt de waarde van "tlastslope" op nul gesteld (stap S10). Verder wordt bij de uitvoering van S5 in het geval dat is vastgesteld in S4 dat de voorlaatste overgang langer dan 700 ms gelden heeft plaatsgevonden de waarde van"slopecount"weer op nul gesteld.

In stap S7 wordt in het geval dat de tijdsduur van de gedetecteerde overgang (aangegeven door"tslopc") kleiner is dan 100 ms de waarde van"slopecount" met n verhoogd.

Verder wordt bij elke uitvoering van het programma gedeelte de logische waarde van"bitO"geinverteerd in S 11 om aan te geven dat de richting van de volgende te detecteren overgang is omgekeerd. Bij het verlaten van het hiervoor beschreven programmagedeelte gaat het programma verder met stap S 19.

In het geval dat"samp"lager is dan de benedendrempel en "bit0" aangeeft dat de voorlaatste drempeldoorsnijding een doorsnijding van de benedendrempel was dan komt het programma via de stappen Sl, S3 en stap S 17 bij stap S19 terecht. In dat geval is er geen overgang en wordt de waarde van"tslope"op nul gesteld (S 17). Dit geldt eveneens voor een combinatie waarbij"samp"hoger is dan de bovendrempel en tegelijkertijd "bitl" aangeeft dat de voorlaatste drempeldoorsnijding een doorsnijding van de bovendrempel was. In dat geval komt het programma via de stappen Sl, S15, S16 en S17 bij S19 terecht.

Na het bereiken van stap S19 wordt het programma gedeelte uitgevoerd dat begint met stap S 19 en eindigt met stap S22. In dit programmagedeelte wordt gekeken (S19) of de waarde"tbelowlowthreshold", die de tijd aangeeft dat"samp" onder de benedendrempel is tussen 45 en 150 ms is gelegen. Zo, ja dan wordt "bit1" gelijk aan "1" gemaakt (S20) en zo nee, dan wordt "bit ! " gelijk aan "0" gemaakt.

Bovendien wordt de waarde van "output" verlaagd (822) en wordt de waarde van "output" uitgevoerd als het waarschijnlijkheidssignaal.

Indien nu nadat de waarde van"samp"gedurende enige tijd beneden de beneden drempel is geweest de benedendrempel weer overschrijdt wordt bij de uitvoering van stap 812 de waarde van"tbelowlowthreshold"weer op nul gesteld.

Vervolgens wordt op basis van de waarde van "bit ! " in stap 813 vastgesteld of de eindwaarde van"tbelowlowthreshold"juist voor het op nul stellen tussen 45 en 150 ms was gelegen. Zo, ja dan vertoont het verloop van de vermogensverhouding een spraakspecifiek patroon en zal de eerstvolgende keer dat stap 813 wordt bereikt stap 814 worden uitgevoerd. In stap 814 wordt de waarde van "output" dan met 0, 5 verhoogd.

Zoals reeds is verklaárd geeft de waarde van het waarschijnlijkheidssignaal Vp de waarschijnlijkheid aan dat een aan de ingang 1 ontvangen audiosignaal een spraaksignaal is. Figuur 7 toont een audio-inrichting volgens de uitvinding waarin door verwijzingscijfer 70 aangegeven spraaksignaaldiscriminatieschakeling van een hiervoor beschreven soort is toegepast. Met verwijzingscijfer 71 is een audiosignaalverwerkingsschakeling aangeduid die het op ingang 1 ontvangen audiosignaal verwerkt op een wijze die afhankelijk is van de signaalwaarde van het
EMI12.1
waarschijnlijkheidssignaal Vp.

Figuur 8 toont bij wijze van voorbeeld een uitvoeringsvorm van de audiosignaalverwerkingsschakeling 71 in de vorm van een driekanaal audioweergaveinrichting, bijvoorbeeld voor toepassing in combinatie met een beeldweergave-eenheid zoals een t. v.-toestel. De inrichting omvat een eerste luidspreker 80 voor het weergeven van een linkerkanaalsignaal, een tweede luidspreker 81 voor het weergeven van een rechterkanaalsignaal en een derde luidspreker 82 voor het weergeven van een middenkanaal. Bij gebruik in combinatie van een beeldweergave-eenheid wordt de linkerkanaalluidspreker 80 aan de linkerzijde van de beeldweergave-eenheid geplaatst.

De rechterkanaalluidspreker 81 wordt aan de rechterzijde van de beeldweergave-eenheid geplaatst. De positie van de middenkanaalluidspreker 82 is zo dat de richting van het weergegeven geluid overeenstemt met de plaats van het weergegeven beeld. Via ingangsklemmen 83 en 84 worden respectievelijk een linkerkanaalsignaal L en een rechterkanaalsignaal R van een stereo-audiosignaal toegevoerd aan de schakeling 71.

Het linkerkanaalsignaal L en het rechterkanaalsignaal R worden bovendien in een optelschakeling 85 opgeteld en vervolgens naar de spraaksignaaldiscriminator 70

- --"U toegevoerd.

De schakeling 71 omvat en signaalsplitser 86 waaraan het linkerkanaalsignaal L en het waarschijnlijkheidssignaal Vp wordt toegevoerd. De signaalsplitser 86 is van een soort die het ontvangen signaal splitst in een tweetal signalen, een met een signaalsterkte gelijk aan p keer de signaalsterkte van het linkerkanaalsignaal L en een met een signaalsterkte die gelijk is aan (l-p) keer de signaalsterkte van het linkerkanaalsignaal, waarbij p de door het waarschijnlijkheidssignaal vertegenwoordigde waarschijnlijkheid is dat de ontvangen signalen spraaksignalen zijn.

Het signaal met de sterkte (l-p) keer de sterkte van signaal L wordt toegevoerd aan de luidspreker 80. Het signaal met de sterkte p keer de sterkte van signaal L wordt toegevoerd aan een optelschakeling.

Op soortgelijke wijze als het linkerkanaalsignaal L wordt het rechterkanaalsignaal R gesplitst in een signaal met een sterkte gelijk aan p keer de sterkte van signaal R, welk signaal wordt toegevoerd aan de optelschakeling 87 en in een signaal met een sterkte gelijk aan (l-p) keer de sterkte van het signaal R welk signaal toegevoerd wordt aan de luidspreker 81. Een uitgangssignaal van de optelschakeling 87, dat gelijk is aan de som van de aan deze optelschakeling 87 toegevoerde signalen, wordt toegevoerd aan de luidspreker 82 voor het weergeven van het middenkanaalsignaal. De werking van de schakeling 71 is als volgt.

In het geval dat het linkerkanaalsignaal L en rechterkanaalsignaal R muzieksignalen zijn, zal de waarde van p nagenoeg gelijk aan nul zijn. Dat betekent dat vrijwel het gehele linkerkanaalsignaal L en vrijwel het gehele rechterkanaalsigaal via respectievelijk de luidsprekers 80 en 81 wordt weergegeven. Via de luidspreker 82 wordt vrijwel geen audioinformatie weergegeven. De muziek wordt dus volledig in stereo weergegeven.

Echter in het geval dat de ontvangen signalen L en R spraaksignalen zijn zal de door het waarschijnlijkheidssignaal Vp aangegeven waarschijnlijkheid nagenoeg gelijk zijn aan 1.

Dit betekent dat vrijwel alle audio-informatie via de luidspreker 82 wordt weergegeven.

Via de luidsprekers 80 en 81 wordt nagenoeg geen audio-informatie weergegeven. De verdeling van de signalen over de drie luidsprekers 80,82 en 83 heeft het voordeel dat muzieksignalen in stereo worden weergegeven en spraaksignalen waarbij het gewenst is dat de richting van het geluid overeenkomt met de plaats van de spreker worden via de middenkanaalluidspreker 82 weergegeven.

Figuur 9 toont een andere uitvoeringsvorm van de schakeling 71.

De schakeling 71 omvat een eerste codeerschakeling 90 welke geoptimaliseerd is voor het coderen van spraaksignalen en een tweede codeerschakeling 91 welke geoptimaliseerd is voor het coderen van muzieksignalen. Het via de ingang 1 ontvangen audiosignaal wordt toegevoerd aan een ingang van de codeerschakeling 90 en aan een ingang van de codeerschakeling 91. Een uitgang van de codeerschakeling 90 is gekoppeld met een ingang van een tweekanaalsmultiplexschakeling 92. Een uitgang van de codeerschakeling 92 is gekoppeld met een andere uitgang van de tweekanaalsmultiplexschakeling 92. De multiplexschakeling 92 wordt gestuurd door een binair signaal dat met behulp van een comperator 94 afgeleid is uit het waarschijnlijkheidssignaal Vp dat door de spraaksignaaldiscriminator 70 is afgeleid uit het op de ingang 1 ontvangen signaal.

De werking van de schakeling 71 is als volgt : Afhankelijk van de door het waarschijnlijkheidssignaal Vp afgegeven waarde zal de multiplexschakeling 92 of de uitgang van de codeerschakeling 90 of de uitgang van de codeerschakeling 91 doorverbinden met een uitgang 93 van de multiplexschakeling 92, zodat aan de uitgang 93 een gecodeerd signaal beschikbaar is dat met een aan de soort van het ontvangen signaal (spraak of muziek) aangepaste codering. Het gecodeerde signaal op de uitgang 93 wordt via een signaaloverdrachtskanaal of medium 95 toegevoerd aan een ingang van een eerste decodeerschakeling 97 en aan een ingang van een tweede decodeerschakeling 98 van een ontvangstschakeling 96. De eerste decodeerschakeling 97 is ingericht voor het uitvoeren van een decodering die het omgekeerde is van de door codeerschakeling 90 uitgevoerde codering.

De tweede decodeerschakeling 98 is ingericht voor het uitvoeren van een decodering die het omgekeerde is van de door codeerschakeling 91 uitgevoerde codering. De uitgangen van de decodeerschakelingen 97 en 98 zijn verbonden met ingangen van een tweekanaals demultiplexschakeling 99, die gestuurd wordt door het uitgangssignaal van comperator 94, welk signaal eveneens via het signaaloverdrachtskanaal 95 aan de ontvangstschakeling 96 wordt toegevoerd. Door deze wijze van sturing van de demultiplexschakeling 99 wordt bereikt dat aan een uitgang van deze multiplexschakeling het door de juiste decodeerschakeling gecodeerde signaal afgegeven wordt.

Behalve de hiervoor beschreven uitvoeringsvormen van de schakeling 71 zijn nog talrijke andere uitvoeringsvormen mogelijk. Zo kan de audiosignaalverwerkingsschakeling bijvoorbeeld bestaan uit een audioversterker met een

toonregeling of equalizer die ingesteld wordt in afhankelijkheid van de waarde van het waarschijnlijkheidssignaal. Indien het waarschijnlijkheidssignaal aangeeft dat de waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is dan wordt de toonregeling of equalizer ingesteld op een stand waarbij de verstaanbaarheid van de spraak optimaal is. Dit betekent in het algemeen dat het hoorbaar gemaakte spraaksignaal relatief weinig lage tonen bevat.

Bij een lage waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is wordt de toonregeling of equalizer ingesteld op een stand waarbij de weergave van muziek als mooi ervaren wordt. Dit is meestal een stand waarbij in het weergegeven signaal de lage tonen en eventueel ook de hoge tonen extra versterkt zijn. In het algemeen heeft het waarschijnlijkheidssignaal een waarde die ligt tussen een eerste extreme waarde die met de hoogste waarschijnlijk een spraaksignaal aangeeft en een tweede extreme waarde die met de hoogste waarschijnlijkheid een muzieksignaal aangeeft.

Het heeft de voorkeur om bij deze tussenliggende waarden de voor de instelling van de toonregeling een instelling te kiezen die een combinatie is van de voor spraaksignalen gewenste instelling en de voor muzieksignalen gewenste instelling, waarbij de bijdrage van de verschillende instellingen afhangt van de waarde van het waarschijnlijkheidssignaal.

Bij audio-inrichtingen waarbij een extra lage-tonen-luidspreker is aangebracht (woofer) voor het verfraaien van weergegeven muziek is het voor de verbetering van de verstaanbaarheid van spraaksignaal voordelig om bij spraaksignalen de extra lage tonen luidspreker uit te schakelen.

Bij beeldweergavesystemen, zoals televisie, waarbij tezamen met de beeldweergave met beeld gerelateerd geluid wordt weergegeven is het voordelig om de spraaksignaaldiscriminatieschakeling te gebruiken voor de omschakeling van stereofonische geluidsweergave naar mono in het geval dat het bijbehorende audiosignaal een spraaksignaal is. Immers bij weergave van een spreker is het wenselijk dat de positie van het beeld en de bron waarvan het geluid vandaan komt goed met elkaar overeenkomen. Met een soortgelijk doel kan de spraaksignaaldiscriminatieschakeling ook worden toegepast in een audio-inrichting die voorzien is van een schakeling voor stereobasisverbreding. Bij de weergave van spraaksignalen is het daarbij eveneens voordelig om de stereobasisverbreding uit te schakelen.

De spraaksignaaldiscriminatieschakeling kan in een audio-inrichting

eveneens voordelig worden toegepast om het geluidsvolume in te stellen in afhankelijkheid van het waarschijnlijkheidindicatiesignaal. Zo bestaat er een behoefte om bij radio-ontvangst de spraaksignalen met een hoger volume weer te geven om de verstaanbaarheid van de doorgegeven berichten te verhogen.

De spraaksignaaldiscriminatieschakeling kan verder nog met voordeel worden toegepast in een inrichting voor het optekenen van audiosignalen, waarbij de optekening afhankelijk van de waarde van het waarschijnlijkheidssignaal gestart en gestopt wordt, bijvoorbeeld bij het opnemen van via de radio uitgezonden muziekprogramma's die regelmatig worden onderbroken door gesproken tekst of bij het
EMI16.1
inspreken van tekst bij een dicteerapparaat. In de laatst genoemde toepassing is het van 1 voordeel om het eventueel op te tekenen signaal tijdelijk in een buffer op te slaan, totdat voor dit signaal het waarschijnlijkheidssignaal beschikbaar is. Hierdoor kan worden voorkomen dat steeds het eerste gedeelte van het op te tekenen signaal ontbreekt op de registratiedrager.

Claims

Conclusies : 1. Spraaksignaaldiscriminatieschakeling met een ingang voor het ontvangen van een audiosignaal en een uitgang voor het afgeven van een waarschijnlijkheidindicatiesignaal dat indicatief is voor de waarschijnlijkheid dat het via de ingang ontvangen audiosignaal een spraaksignaal is, gekenmerkt door een analyseschakeling voor het afleiden van een analysesignaal dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum, van een signaalpatroondetector voor het detecteren van signaalpatronen in het analysesignaal waarvan de waarschijnlijk van optreden in een spraaksignaal verschilt van de waarschijnlijkheid van optreden in een ander signaal, niet zijnde een spraaksignaal,

en schattingsmiddelen voor het in afhankelijkheid van de detectie van de gedetecteerde signaalpatronen afleiden van het waarschijnlijkheidindicatiesignaal. EMI17.1
2. Schakeling volgens conclusie 1, gekenmerkt door ten minste een tweede signaalpatroondetector voor het detecteren van patronen van een tweede soort waarvan de waarschijnlijkheid van optreden bij het spraaksignaal verschilt met de waarschijnlijkheid van optreden bij het andere signaal, waarbij de schattingsmiddelen zijn ingericht voor het mede in afhankelijkheid van de detectie van de patronen van de tweede soort afleiden van het waarschijn1ijkheidindicatiesignaal.
3. Schakeling volgens conclusie 2, gekenmerkt doordat de tweede signaalpatroondetector is ingericht voor het detecteren van de patronen van de tweede soort in het analysesignaal.
4. Schakeling volgens een der conclusies 1, 2 of 3, met het kenmerk dat de eerstgenoemde signaalpatroondetector is voorzien van middelen voor het detecteren van veranderingen in de verhouding waarbij de waarde van de verhouding van een niveau boven een bepaald bovendrempel wijzigt in een niveau beneden een bepaalde benedendrempel, van middelen voor het detecteren van de snelheid waarmee de verandering heeft plaats gevonden, en van middelen voor het als het patroon detecteren van het optreden van een reeks opeen volgende veranderingen waarvan de snelheid boven een bepaalde snelheid is gelegen en waarbij het tijdsverschil tussen de veranderingen in de reeks een bepaalde maximum tijd niet overschrijdt.
5. Schakeling volgens een der conclusies 1, 2 of 3, met het kenmerk dat de <Desc/Clms Page number 18> eerst genoemde signaalpatroondetector is voorzien van middelen voor het detecteren of de waarde van de verhouding beneden een bepaalde benedendrempel ligt en van middelen voor het als patroon detecteren of de lengte van tijdsintervallen waarin de waarde van de verhouding beneden de benedendrempel is gelegen tussen een bepaalde minimum grens en een bepaalde maximum grens is gelegen.
6. Audio-inrichting voor het verwerken van een ontvangen audiosignaal, welke audio-inrichting is voorzien van een spraaksignaaldiscriminatieschakeling volgens een der voorgaande conclusies, en waarbij de audio-inrichting is voorzien van middelen voor het verwerken van het ontvangen audiosignaal op een wijze die afhankelijk is van het door de spraaksignaaldiscriminatieschakeling opgewekte waarschijnlijkheidsindicatiesignaal