BE1007355A3 - Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. - Google Patents

Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. Download PDF

Info

Publication number
BE1007355A3
BE1007355A3 BE9300775A BE9300775A BE1007355A3 BE 1007355 A3 BE1007355 A3 BE 1007355A3 BE 9300775 A BE9300775 A BE 9300775A BE 9300775 A BE9300775 A BE 9300775A BE 1007355 A3 BE1007355 A3 BE 1007355A3
Authority
BE
Belgium
Prior art keywords
signal
probability
speech
circuit
value
Prior art date
Application number
BE9300775A
Other languages
English (en)
Inventor
Ronaldus M Aarts
Original Assignee
Philips Electronics Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics Nv filed Critical Philips Electronics Nv
Priority to BE9300775A priority Critical patent/BE1007355A3/nl
Priority to EP94202132A priority patent/EP0637011B1/en
Priority to DE69413900T priority patent/DE69413900T2/de
Priority to JP17420994A priority patent/JP3793245B2/ja
Application granted granted Critical
Publication of BE1007355A3 publication Critical patent/BE1007355A3/nl
Priority to US08/888,356 priority patent/US5878391A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Noise Elimination (AREA)

Abstract

Een spraaksignaaldiscriminatieschakeling (70) is voorzien van een ingang (1) voor het ontvangen van een audiosignaal en een uitgang (5) voor het afgeven van een waarschijnlijkheidsincatiesignaal Vp dat indicatief is voor de waarschijnlijkheid dat het via de ingang (1) ontvangen audiosignaal een spraaksignaal is. Een analyseschakeling (2) leidt een analysesignaal (NA) af dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum. Een signaalpatroondetector (3) detecteert signaalpatronen in het analysesignaal (NA) waarvan de waarschijnlijk van optreden in een spraaksignaal verschilt van de waarschijnlijkheid van optreden in een ander signaal, bij voorbeeld een muzieksignaal. Schattingsmiddelen (4) leiden in afhankelijkheid van de detectie van de gedetecteerde signaalpatronen het waarschijnlijkheidindicatiesignaal Vp af. De spraaksignaaldiscriminatieschakeling (70) wordt toegepast in een audio-inrichting voor het verwerken van een ontvangen audiosignaal.

Description


   <Desc/Clms Page number 1> 
 
 EMI1.1 
 



  Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. 



  De uitvinding heeft betrekking op een spraaksignaaldiscriminatieschakeling met een ingang voor het ontvangen van een audiosignaal en een uitgang voor het afgeven van een waarschijnlijkheidindicatiesignaal dat indicatief is voor de waarschijnlijkheid dat het via de ingang ontvangen audiosignaal een spraaksignaal is. 



  De uitvinding heeft voorts betrekking op een audio-inrichting voorzien van een dergelijke spraaksignaaldiscriminatieschakeling. 



  Een spraaksignaaldiscriminatieschakeling en audio-inrichting van de hiervoor genoemde soort zijn bekend uit Rundfunktechnische Mitteilungen Band 12 1968 Heft 6 blz. 288-291. De bekende spraaksignaaldiscriminatieschakeling is ingericht voor het onderscheiden van spraaksignalen van muzieksignalen in een radio-ontvanger. 



  In het geval dat een spraaksignaal gedetekteerd wordt ondergaat het ontvangen signaal een bewerking waardoor de verstaanbaarheid van het weergegeven spraaksignaal wordt verbeterd. In het geval dat een muzieksignaal gedetekteerd wordt ondergaat het ontvangen signaal een bewerking die vooral geschikt is om toegepast te worden bij de ontvangst van muzieksignalen. 



  De bekende spraaksignaaldiscriminatieschakeling maakt gebruik van de eigenschap dat muzieksignalen in het algemeen geleidelijk in amplitude afnemen terwijl spraaksignalen meestal abrupt in amplitude afnemen. Deze geleidelijke afnamen worden gedetecteerd en een signaal dat een puls afgeeft bij elke detectie wordt geintegreerd. Dit geintegreerde signaal geeft aan of het ontvangen audiosignaal een spraaksignaal of een muzieksignaal is. Het bezwaar van de bekende discriminatieschakeling is dat deze in een relatief groot aantal gevallen (3%) het geintegreerde signaal niet correct de soort (muziek of spraak) van het ontvangen audiosignaal aangeeft. 



  Het is een doel van de uitvinding om een spraaksignaaldiscriminatieschakeling te verschaffen die een betrouwbaardere discriminatie tussen spraaksignalen en muzieksignalen mogelijk maakt. 



  Dit doel wordt volgens de uitvinding bereikt door een spraaksignaaldiscriminatieschakeling die is gekenmerkt door een analyseschakeling voor 

 <Desc/Clms Page number 2> 

 het afleiden van een analysesignaal dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum, van een signaalpatroondetector voor het detecteren van signaalpatronen in het analysesignaal waarvan de waarschijnlijk van optreden in een spraaksignaal verschilt van de waarschijnlijkheid van optreden in een ander signaal, niet zijnde een spraaksignaal, en schattingsmiddelen voor het in afhankelijkheid van de detectie van de gedetecteerde signaalpatronen afleiden van het waarschijnlijkheidindicatiesignaal. 



   De uitvinding berust op het inzicht dat veranderingspatronen in de verhouding tussen signaalvermogens in verschillende gedeelten van het spectrum voor spraaksignalen duidelijk verschillen van de patronen die voorkomen bij andere signalen. Bij de inrichting volgens de uitvinding wordt bij de afleiding van het waarschijnlijkheidssignaal rekening gehouden met tijdsdomeinaspecten alsook met frequentiedomeinaspecten, waardoor de robuustheid van de afleiding wordt vergroot. 



   Verder heeft de schakeling volgens de uitvinding het voordeel dat de sterkte van het ontvangen signaal nagenoeg geen invloed heeft op het waarschijnlijkheidssignaal Dit is het gevolg van het feit dat het waarschijnlijkheidssignaal wordt afgeleid uit de verhouding tussen signaalvermogens, welke vermogensverhouding niet afhankelijk is van de sterkte van het ontvangen signaal. 



   Opgemerkt wordt dat in   EP-A-0. 398. 180   een   discriminatieschakeling   beschreven wordt waarbij voor de onderscheiding van de signalen de verhouding tussen de signaalvermogens in verschillende gedeelten van het spectrum wordt gebruikt. Het betreft daar echter een schakeling voor het discrimineren van stemhebbende-ten opzichte van niet-stemhebbende signaalgedeelten in een spraaksignaal en niet een discriminatie van het spraaksignaal zelf ten opzichte van een ander signaal. 



   Specifiek voor spraaksignalen zijn snelle veranderingen in de vermogensverhouding die kort na elkaar plaatsvinden. Een kortstondig tijdelijk verlaging van de vermogensverhouding is eveneens specifiek voor spraaksignalen. 



  Echter de spraaksignaal specifieke patronen zijn in principe niet beperkt tot de twee hiervoor genoemde patronen. De hiervoor genoemde patronen hebben echter wel het voordeel dat zij eenvoudig te detecteren zijn. 



   Het waarschijnlijkheidssignaal kan op basis van detecties van   een   soort 

 <Desc/Clms Page number 3> 

 van specifieke patronen plaatsvinden. De betrouwbaarheid wordt echter aanzienlijk vergroot indien voor de afleiding detecties van twee of meer soorten van specifieke patronen worden gebruikt. 



   De uitvinding zal hierna nader worden toegelicht onder verwijzing naar de figuren 1 tot en met 9, waarin figuur 1 een uitvoeringsvorm van spraaksignaaldiscriminatieschakeling volgens de uitvinding toont, figuur 2 een analyseschakeling toont voor toepassing in de spraaksignaaldiscriminatieschakeling, figuur 3 een mogelijk verloop van een door de analyseschakeling afgegeven analysesignaal toont, figuur 4 en figuur 5 mogelijke relaties tonen tussen door een signaalpatroondetector afgegeven detectiesignalen en een waarschijnlijkheidssignaal, figuur 6 een stroomdiagram toont van een programma dat in een uitvoeringsvorm van de spraaksignaaldiscriminatieschakeling wordt uitgevoerd, figuur 7 een uitvoeringsvorm van een audio-inrichting toont, waarin een spraaksignaaldiscriminatieschakeling volgens de uitvinding is toegepast,

   en figuur 8 en figuur 9 uitvoeringsvormen van een 
 EMI3.1 
 audioverwerkingsschakeling tonen voor toepassing in combinatie met de spraaksignaaldiscriminatieschakeling. 



   Figuur 1 toont een spraaksignaaldiscriminatieschakeling volgens de uitvinding. De schakeling omvat een ingang 1 voor het ontvangen van een audiosignaal. 



  Het via de ingang 1 ontvangen audiosignaal wordt aan een analyseschakeling 2 toegevoerd. De analyseschakeling 2 leidt uit het ontvangen audiosignaal een analysesignaal NA af dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum. 



   Het eerste gedeelte van het frequentiespectrum omvat het frequentiegebied waarin de frequentiecomponenten van een spraaksignaal zijn geconcentreerd. Een geschikte benedengrens en een geschikte bovengrens zijn bij voorbeeld respectievelijk 70 Hz en 700 Hz. Het tweede gedeelte omvat een gedeelte van het audiospectrum waar relatief weinig frequentiecomponenten zijn gelegen die in een spraaksignaal voorkomen. 



   Een geschikt frequentiegebied is het gehele audiospectrum minus een 

 <Desc/Clms Page number 4> 

 frequentiegebied tussen 130 tot 1200 Hz. Figuur 2 toont bij wijze van voorbeeld een uitvoeringsvorm van de analyseschakeling 2, waarmee een analysesignaal wordt afgeleid dat indicatief is voor de verhouding tussen het signaalvermogen van frequentiecomponenten tussen de 70 en 700 Hz en het signaalvermogen van de frequentiecomponenten van het audiosignaal buiten het frequentiegebied tussen 130 en 1200 Hz. De in figuur 2 getoonde analyseschakeling 2 omvat een banddoorlaatfilter 20 met een doorlaatband van 70 tot 700 Hz. Een ingang van het filter 20 is aangesloten op de ingang 1 voor het ontvangen van het audiosignaal.

   Via een uitgang van het filter wordt het door het filter 20 gefilterde audiosignaal toegevoerd aan een detector 21 voor het bepalen van een signaalvermogen van dit gefilterde signaal. 



   Verder omvat de analyseschakeling van figuur 2 een filter 22 met een zogeheten badkuipvormige frequentiekarakteristiek waarbij de frequenties buiten het frequentiegebied tussen 130 en 1200 Hz extra worden versterkt. Een ingang van het filter 22 is aangesloten op de ingang 1. Via een uitgang van het filter 22 wordt het door filter 22 gefilterde signaal toegevoerd aan een detector 23 voor het bepalen van een signaalvermogen van dit gefilterde signaal. Met behulp van een schakeling 24 van een gebruikelijke soort wordt uit uitgangssignalen van de detectors 21 en 23 de verhouding tussen het door de detector 21 bepaalde signaalvermogen en het door de detector 23 bepaalde signaalvermogen bepaald. Via een uitgang van de schakeling 24 wordt het analysesignaal NA dat deze vermogensverhouding aangeeft afgegeven. 



   Het zij opgemerkt dat de in figuur 2 getoonde uitvoeringsvorm een van de vele mogelijke uitvoeringsvormen is voor de afleiding van het analysesignaal. Voor mogelijke alternatieven wordt bijvoorbeeld verwezen naar het eerder genoemde document EP-A 0. 398. 180. 



   Ter illustratie is in figuur 3 het verloop weergegeven van de vermogensverhouding (SAMP) die wordt aangegeven door het analysesignaal NA dat wordt afgegeven door de schakeling 24. In het geval dat de frequentiecomponenten van het audiosignaal alle binnen de bandbreedte van filter 20 zijn gelegen, zoals vaak voorkomt bij een spraaksignaal, dan is de vermogensverhouding maximaal. De hoogte van dit maximum hangt af van de mate waarin deze frequentie componenten door het filter 22 worden doorgelaten. 



   In het geval dat het audiosignaal veel frequentiecomponenten heeft buiten 
 EMI4.1 
 de bandbreedte van het filter 20, zoals dat in algemeen voorkomt bij muzieksignalen, i 

 <Desc/Clms Page number 5> 

 dan neemt af tot een kleine waarde. Opgemerkt wordt dat ook bij spraaksignalen, in het bijzonder bij zogeheten   wrijfklanken,   breedbandige signalen voorkomen waarbij de verhouding tussen de vermogens klein is, zodat op basis van deze vermogensverhouding geen betrouwbare beslissing omtrent de soort van het ontvangen audiosignaal gedaan kan worden. 



   Specifiek voor spraaksignalen zijn echter patronen in de vermogensverhouding, waarbij een aantal kort op elkaar volgende snelle wisselingen in de vermogensverhouding voorkomen. Hoe groter dit aantal des te waarschijnlijker is het dat het bijbehorende audiosignaal een spraaksignaal is. Met een snelle wisseling in de vermogensverhouding wordt hier bedoeld dat de waarde van de vermogensverhouding binnen een bepaalde tijd verandert van een waarde boven een bovendrempel naar een waarde beneden een benedendrempel of omgekeerd. Ook specifiek voor spraaksignalen is een tijdelijke afnamen van de vermogensverhouding, welke veroorzaakt wordt door de korte pauzes die voorafgaan aan plofklanken (Eng : plosives) of door korte   wrijfk1anken.   Opgemerkt wordt dat de spraakspecifieke patronen in de vermogensverhouding niet beperkt zijn tot de twee hiervoor genoemde patronen.

   De twee genoemde patronen hebben echter het voordeel dat zij met eenvoudige middelen te detecteren zijn. 



   Specifiek voor muzieksignalen zijn bijvoorbeeld lang aangehouden tonen, welke bijvoorbeeld gedurende een langere tijd een lage verhoudingswaarde veroorzaken. 



  Hele hoge tonen en hele lage tonen die een extreem lage verhoudingswaarde veroorzaken zijn eveneens specifiek voor muzieksignalen. Het zal voor de vakman duidelijk zijn dat de muziekspecifieke patronen niet beperkt zijn tot de hiervoor genoemde patronen. 



   Met verwijzingscijfer 3 wordt in figuur 1 een signaalpatroondetector aangegeven die specifieke patronen, bij voorbeeld spraakspecifieke patronen, detecteert waarvan de waarschijnlijkheid van optreden voor spraaksignalen verschilt van de waarschijnlijkheid van optreden van een ander signaal, niet zijnde een spraaksignaal, bij voorbeeld een muzieksignaal. 



   Detectiesignalen sfl,..., sfn die aangeven dat een patroon is gedetecteerd waarvan de waarschijnlijkheid van optreden hoger is bij spraaksignalen dan bij andere signalen worden door de signaalpatroondetector 3 afgegeven aan schattingsschakeling 4. 



   De signaalpatroondetector 3 kan eventueel zijn ingericht om behalve de 

 <Desc/Clms Page number 6> 

 spraakspecifieke patronen eveneens muziekspecifieke patronen te detecteren. 



  Detectiesignalen mfl, ..., mfm die aangeven dat een patroon is gedetecteerd waarvan de waarschijnlijkheid van optreden hoger is bij muzieksignalen dan bij andere signalen kunnen door de signaalpatroondetector 3 eveneens afgegeven aan schattingsschakeling 4. 



   De schattingsschakeling 4 leidt volgens een bepaald criterium, in afhankelijkheid van een of meer van de detectiesignalen sfl,..., sfn en mfl,..., mfm, een   waarschijn1ijkheidindicatiesignaal   Vp af, dat indicatief is voor de waarschijnlijkheid dat het aan de ingang 1 ontvangen audiosignaal een spraaksignaal is. Het   waarschijnlijkheidsindicatiesignaal     Vpwordt   via een uitgang 5 afgegeven. Een geschikt criterium voor het afleiden van het waarschijnlijkheidssignaal   Vp   kan bijvoorbeeld een criterium zijn waarbij- een duidelijke relatie bestaat tussen de frequentie van detectie van spraakspecifieke en/of muziekspecifieke verschijnselen.

   Zo kan bijvoorbeeld telkens in opeenvolgende tijdsintervallen het verschil bepaald worden tussen het aantal gedetecteerde spraakspecifieke patronen en het aantal muziekspecifieke patronen. 



  Daarbij kunnen aan patronen van verschillende soort verschillende   weegfactoren   toegekend worden. Opgemerkt wordt verder dat de betrouwbaarheid van het waarschijnlijkheidssignaal Vp toeneemt naarmate voor de afleiding een groter aantal verschillende soorten van specifieke patronen worden gedetecteerd. Echter in principe kan worden volstaan met de detectie van specifieke patronen van   een   soort. 



   Verder wordt opgemerkt dat de afleiding van het waarschijnlijkheidssignaal Vpbehalve op basis van uitsluitend detecties van specifieke patronen in het analyse signaal ook kan plaatsvinden op basis van detecties van specifieke patronen in het analysesignaal en detecties van specifieke verschijnselen in het audiosignaal zelf, bij voorbeeld zoals aangegeven in het reeds eerder genoemde artikel in Rundfunktechnische Mitteilungen. 



   Een ander geschikt criterium voor het afleiden van het waarschijnlijkheidssignaal Vp zal nader worden verklaard onder verwijzing naar figuur 4. Hierin zijn een detectiesignaal sfl en een detectiesignaal mfl en een bijbehorend 
 EMI6.1 
 waarschijnlijkheidsindicatiesignaal Vp weergegeven als funktie van de tijd t. 



  Elke puls in het detectiesignaal sfl geeft aan dat een spraakspecifiek patroon van een bepaalde soort in de verhouding tussen de vermogens is gedetecteerd. Elke puls in het signaal mfl geeft aan dat een muziekspecifiek patroon van een bepaalde soort in vermogensverhouding is gedetecteerd. 

 <Desc/Clms Page number 7> 

 



   Bij de afleiding van waarschijnlijkheidssignaal Vp wordt in reactie van elke puls in het detectiesignaal sfl de waarde van waarschijnlijkheidssignaal Vp verhoogd met een bepaalde eerste waarde. In reactie op elke puls in het detectiesignaal mfl wordt de waarde van waarschijnlijkheidssignaal Vp met een bepaalde tweede waarde verminderd. In het hier beschreven voorbeeld is de tweede waarde gelijk aan de eerste waarde. Het zal duidelijk zijn dat de eerste en tweede waarde niet aan elkaar gelijk behoeven te zijn. In het hier beschreven voorbeeld is er van uitgegaan dat het aantal detecteerbare van spraakspecifieke patronen dat bij ontvangst van een spraaksignaal per tijdseenheid voorkomt in de vermogensverhouding groter is dan het aantal detecteerbare muziekspecifieke patronen per tijdseenheid dat bij de ontvangst van een muzieksignaal voorkomt in de vermogensverhouding.

   Om hiervoor te compenseren neemt de waarde van waarschijnlijkheidssignaal   Vp bij   afwezigheid van pulsen in de detectiesignalen geleidelijk af. 



   Indien in de vermogensverhouding een groot aantal spraakspecifieke patronen worden gedetecteerd en geen of slechts weinig muziekspecifieke patronen dan 
 EMI7.1 
 kan aangenomen worden dat de waarschijnlijkheid dat het ontvangen signaal een spraaksignaal is groot is. In dat geval zal de waarde van waarschijnlijkheidssignaal Vp hoog zijn. Omgekeerd zal bij afwezigheid van spraakspecifieke patronen in de vermogensverhouding de waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is klein zijn. In dat geval zal de waarde van waarschijnlijkheidssignaal   Vp   klein zijn. Het signaal Vp is dus indicatief voor de waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is.

   In het geval dat de ontvangst van een spraaksignaal waarbij zeer veel spraakspecifiek patronen worden gedetecteerd wordt gevolgd door de ontvangst van een muzieksignaal dan kan het geruime tijd duren voordat waarschijnlijkheidssignaal Vp een waarde heeft bereikt die behoort bij het ontvangen muzieksignaal. Dit kan worden voorkomen door begrenzing van de maximale waarde van waarschijnlijkheidssignaal Vp. Om soortgelijke redenen is het eveneens voordelig om de minimale waarde van waarschijnlijkheidssignaal Vp te begrenzen. 



   In figuur 5 is het verloop van waarschijnlijkheidssignaal Vp weergegeven voor het geval dat de waarde van waarschijnlijkheidssignaal   Vp   wordt verhoogd in reactie op pulsen in een detectiesignaal dat detecties van een spraakspecifiek patroon van een eerste soort aangeeft en in reactie van op pulsen van pulsen in een detectiesignaal sf2 dat detecties van een spraakspecifiek patroon van een tweede soort aangeeft. 

 <Desc/Clms Page number 8> 

 



   Opgemerkt wordt dat in het geval dat de hoogte van de door de detectors 21 en 23 gedetecteerde vermogen klein is de bepaalde vermogensverhouding niet altijd meer betrouwbaar is. Het is dan ook van voordeel om de patroondetectie en de afleiding van het waarschijnlijkheidssignaal Vp te onderbreken gedurende de tijdsintervallen dat de genoemde gedetecteerde vermogens klein zijn. 



   De signaalpatroondetector 3 en de schattingsschakeling 4 kunnen als   zogeheten"hardwired"-schakelingen   uitgevoerd worden. 



   Het is ook mogelijk om de signaalpatroondetector en de schattingsschakeling te realiseren met een zogeheten programmagestuurde schakeling, bij voorbeeld een microcomputer, die geladen is met een geschikt programma. 



   Bij wijze van voorbeeld is in figuur 6 een stroomdiagram getoond van een programma voor het detecteren van twee verschillende spraakspecifiek patronen en de afleiding van het signaal   Vp   op een wijze die overeenkomt met de in figuur 5 getoonde relatie tussen de detecties en het signaal Vp. 



   De spraakspecifieke patronen die worden gedetecteerd zijn een opeenvolging van drie snelle overgangen in de vermogensverhouding, waarbij het tijdsverschil tussen opeenvolgende overgangen niet meer bedraagt dan 700 ms. Met een snelle overgang wordt hier een verandering van de vermogensverhouding bedoeld waarbij de waarde van de vermogensverhouding binnen 100 ms veranderd van een waarde beneden een benedendrempel (die nabij de minimumwaarde van de vermogensverhouding ligt) naar een waarde boven een bovendrempel (die nabij de maximale waarde van de vermogensverhouding ligt) of omgekeerd.

   In figuur 3 zijn de benedendrempel en de bovendrempel respectievelijk aangeduid   als"lowthreshold"en     "highthreshold"  
Het tweede spraakspecifieke patroon in de vermogens verhouding dat gedetecteerd wordt is een tijdelijke verlaging van de vermogensverhouding tot beneden de benedendrempel waarvan de tijdsduur is gelegen tussen 45 en 150 ms ligt. 



  Ten behoeve van de detecties van de spraakspecifieke patronen worden door het programma de waarde van een aantal variabelen bepaald, te weten :   -"same" ;   dit is de waarde van de momentane vermogensverhouding. 
 EMI8.1 
 -"tbelowlowthreshold" dit is de tijd dat de vermogensverhouding beneden de benedendrempel"lowthreshold"is gelegen. 

 <Desc/Clms Page number 9> 

 
 EMI9.1 
 



  -"tlastslope" dit is de tijd die is verstreken sinds de laatst gedetecteerde snelle overgang. 



  -"tslope" dit is de duur van een overgang van een waarde beneden de benedendrempel tot boven de bovendrempel of omgekeerd. 



  -"output"; dit is de waarde van het waarschijnlijkheidssignaal. 



  -"slopecount" deze variabele geeft het aantal opeenvolgende snelle overgangen waarvan de tussenliggende tijdsverschillen niet groter dan 700 ms. 



  - dit is een logische variabele die aangeeft of de laatst door de vermogensverhouding overschreden drempelwaarde de benedendrempel dan wel de bovendrempel is. 



  -"bitl"; dit is een logische variabele die aangeeft of de waarde van "tbelowlowthreshold" 45 en 150 ms ligt. 



  -"output"; deze variabele geeft de waarde van het signaal Vp aan. 



  Ter illustratie zijn in figuur 3 de waarden van de variabelen"samp', "tlastslope","tslope"en"tbelowlowthreshold"aangegeven voor een verloop van de vermogensverhouding ("samp") waarin beide te detecteerbare patronen voorkomen. 



  Het door het stroomdiagram vertegenwoordigde programma wordt herhaaldelijk aangeroepen met constante tussenpozen. voor de bepaling van de waarde van de variabelen"tbelowlowthreshold", "tslope"kan het programma zijn voorzien van zogeheten softwaretimers, die onder programma controlle op nul gesteld kunnen worden en die steeds de tijd aangeven die is verstreken sinds de laatste opnulstelling. 



  Het programma omvat een aantal stappen die worden uitgevoerd in door het in figuur 6 getoonde stroomdiagram vastgelegde volgorde. 



  In stap S wordt getest of de waarde van"samp"beneden"lowthreshold"is gelegen. 

 <Desc/Clms Page number 10> 

 



  In stap S3 wordt getest of de logische waarde   van "bit0" gelijk aan "1" iso   In stap S4 wordt getest of "tlastslope" kleiner is dan 700 ms. 



  In stap S5   wordt"slopecount"op   nul gesteld. 



  In stap S6 wordt getest   of"tslope"kleiner   is dan 100 ms. 



  In stap S7 wordt'slopecount"met een verhoogd in het geval dat deze variabele kleiner is dan drie. 



  In stap S8 wordt getest of de waarde van'slopecount"gelijk is aan drie. 



  In stap S9 en stap S14 wordt de waarde van "output" verhoogd met 0, 5, waarbij de maximale waarde van "output" wordt begrenst tot een. Bovendien wordt in stap S14 de logische waarde   van "bitl" gelijk aan "0" gemaakt.   



  In stap S10 en stap   S 17 wordt"tslope"op   nul gesteld. 



  In stap   Sll   wordt de waarde van"bitO"geinverteerd. 



  In stap S12 wordt "tbelowlowthreshold" op nul gesteld. 



  In stap S13 wordt getest of de logische waarde   van "bitl" gelijk aan "1" iso   In S15 wordt getest of de waarde van"samp"hoger is dan de waarde van "highthreshold". 



  In stap S16 wordt getest of de logische waarde   van "bit0" gelijk   is aan "0". 



  In stap S19 wordt getest   of"tbelowlowthreshold"is   gelegen tussen 45 en 150 ms. 



  In S20 wordt de waarde   van "bitl" gelijk aan "1" gemaakt.   



  In stap S21 wordt de waarde van "output" verlaagd met een kleine waarde, mits de minimumgrens (0') voor "output" nog niet bereikt is. 



  In stap S22 wordt de waarde van "output" uitgevoerd. 



  In stap S23 wordt de logische waarde   van "bit ! " gelijk aan "0" gemaakt.   



  Het verloop van het programma is als volgt : Indien de waarde   van"samp"beneden   de benedendrempel "lowthreshold" is gelegen en   "bitO"aangeeft   dat de voorlaatste drempeldoorsnijding een doorsnijding van de   bovendrempel"highthreshold"was,   dan betekent dit dat een overgang van boven de bovendrempel tot beneden de benedendrempel heeft plaats gevonden. In dat geval komt het programma via de stappen   S l   en S3 bij stap S4 terecht. 



   In het geval dat"samp"boven de   bovendrempel"highthreshold"is   gelegen en"bitO"aangeeft dat de voorlaatste drempeldoorsnijding een   doorsnijding   van de   benedendrempel"lowthreshold"betekent   dit dat een overgang heeft plaatsgevonden van beneden de benedendrempel tot boven de bovendrempel. In dat geval komt het 

 <Desc/Clms Page number 11> 

 programma via de stappen   Sl, S15   en S16 eveneens bij stap S4 terecht. 



  Na het bereiken van stap S4 wordt het door de stappen   S4, S5, S6, S7, S8, S9,   S10 en Sll vastgelegde programmagedeelte afgewerkt. 



   In dit programmagedeelte wordt getest of de vorige overgang meer dan 700 ms geleden was (stap S4). Bovendien wordt getest of de gedetecteerde overgang binnen 100 ms heeft plaats gevonden (stap S6). Ten slotte wordt getest of het aantal opeenvolgende overgangen gelijk aan drie is (stap S8). Indien aan al deze drie voorwaarden is voldaan dan vertoont het verloop van de vermogensverhouding een spraakspecifiek patroon en wordt de waarde   van "output" met 0, 5   verhoogd (stap S9). 



  Bovendien wordt de waarde   van "tlastslope" op   nul gesteld (stap S10). Verder wordt bij de uitvoering van S5 in het geval dat is vastgesteld in S4 dat de voorlaatste overgang langer dan 700 ms gelden heeft plaatsgevonden de waarde   van"slopecount"weer   op nul gesteld. 



   In stap S7 wordt in het geval dat de tijdsduur van de gedetecteerde overgang (aangegeven   door"tslopc")   kleiner is dan 100 ms de waarde   van"slopecount"   met     n   verhoogd. 



   Verder wordt bij elke uitvoering van het programma gedeelte de logische waarde   van"bitO"geinverteerd   in S 11 om aan te geven dat de richting van de volgende te detecteren overgang is omgekeerd. Bij het verlaten van het hiervoor beschreven programmagedeelte gaat het programma verder met stap S 19. 



   In het geval dat"samp"lager is dan de benedendrempel en "bit0" aangeeft dat de voorlaatste drempeldoorsnijding een doorsnijding van de benedendrempel was dan komt het programma via de stappen   Sl,   S3 en stap S 17 bij stap S19 terecht. In dat geval is er geen overgang en wordt de waarde van"tslope"op nul gesteld (S 17). Dit geldt eveneens voor een combinatie   waarbij"samp"hoger   is dan de bovendrempel en   tegelijkertijd "bitl" aangeeft   dat de voorlaatste drempeldoorsnijding een doorsnijding van de bovendrempel was. In dat geval komt het programma via de stappen Sl, S15, S16 en S17 bij S19 terecht. 



   Na het bereiken van stap   S19   wordt het programma gedeelte uitgevoerd dat begint met stap S 19 en eindigt met stap S22. In dit programmagedeelte wordt gekeken (S19) of de   waarde"tbelowlowthreshold",   die de tijd aangeeft dat"samp" onder de benedendrempel is tussen 45 en 150 ms is gelegen. Zo, ja dan   wordt "bit1"   gelijk aan "1" gemaakt (S20) en zo nee, dan   wordt "bit ! " gelijk aan "0" gemaakt.   

 <Desc/Clms Page number 12> 

 



  Bovendien wordt de waarde   van "output" verlaagd (822)   en wordt de waarde van "output" uitgevoerd als het waarschijnlijkheidssignaal. 



   Indien nu nadat de waarde   van"samp"gedurende   enige tijd beneden de beneden drempel is geweest de benedendrempel weer overschrijdt wordt bij de uitvoering van stap   812   de waarde   van"tbelowlowthreshold"weer   op nul gesteld. 



  Vervolgens wordt op basis van de waarde   van "bit ! " in   stap   813   vastgesteld of de eindwaarde   van"tbelowlowthreshold"juist   voor het op nul stellen tussen 45 en 150 ms was gelegen. Zo, ja dan vertoont het verloop van de vermogensverhouding een spraakspecifiek patroon en zal de eerstvolgende keer dat stap   813   wordt bereikt stap   814   worden uitgevoerd. In stap   814   wordt de waarde van "output" dan met 0, 5 verhoogd. 



  Zoals reeds is   verklaárd   geeft de waarde van het waarschijnlijkheidssignaal   Vp   de waarschijnlijkheid aan dat een aan de ingang 1 ontvangen audiosignaal een spraaksignaal is. Figuur 7 toont een audio-inrichting volgens de uitvinding waarin door verwijzingscijfer 70 aangegeven spraaksignaaldiscriminatieschakeling van een hiervoor beschreven soort is toegepast. Met verwijzingscijfer 71 is een audiosignaalverwerkingsschakeling aangeduid die het op ingang 1 ontvangen audiosignaal verwerkt op een wijze die afhankelijk is van de signaalwaarde van het 
 EMI12.1 
 waarschijnlijkheidssignaal Vp. 



   Figuur 8 toont bij wijze van voorbeeld een uitvoeringsvorm van de audiosignaalverwerkingsschakeling 71 in de vorm van een driekanaal audioweergaveinrichting, bijvoorbeeld voor toepassing in combinatie met een beeldweergave-eenheid zoals een   t. v.-toestel.   De inrichting omvat een eerste luidspreker 80 voor het weergeven van een linkerkanaalsignaal, een tweede luidspreker 81 voor het weergeven van een rechterkanaalsignaal en een derde luidspreker 82 voor het weergeven van een middenkanaal. Bij gebruik in combinatie van een beeldweergave-eenheid wordt de linkerkanaalluidspreker 80 aan de linkerzijde van de beeldweergave-eenheid geplaatst. 



  De rechterkanaalluidspreker 81 wordt aan de rechterzijde van de beeldweergave-eenheid geplaatst. De positie van de middenkanaalluidspreker 82 is zo dat de richting van het weergegeven geluid overeenstemt met de plaats van het weergegeven beeld. Via ingangsklemmen 83 en 84 worden respectievelijk een linkerkanaalsignaal L en een rechterkanaalsignaal R van een stereo-audiosignaal toegevoerd aan de schakeling 71. 



  Het linkerkanaalsignaal L en het rechterkanaalsignaal R worden bovendien in een optelschakeling 85 opgeteld en vervolgens naar de spraaksignaaldiscriminator 70 

 <Desc/Clms Page number 13> 

   - --"U    toegevoerd. 



  De schakeling 71 omvat en signaalsplitser 86 waaraan het linkerkanaalsignaal L en het waarschijnlijkheidssignaal Vp wordt toegevoerd. De signaalsplitser 86 is van een soort die het ontvangen signaal splitst in een tweetal signalen, een met een signaalsterkte gelijk aan p keer de signaalsterkte van het linkerkanaalsignaal L en een met een signaalsterkte die gelijk is aan   (l-p)   keer de signaalsterkte van het linkerkanaalsignaal, waarbij p de door het waarschijnlijkheidssignaal vertegenwoordigde waarschijnlijkheid is dat de ontvangen signalen spraaksignalen zijn. 



   Het signaal met de sterkte   (l-p)   keer de sterkte van signaal L wordt toegevoerd aan de luidspreker 80. Het signaal met de sterkte p keer de sterkte van signaal L wordt toegevoerd aan een optelschakeling. 



   Op soortgelijke wijze als het linkerkanaalsignaal L wordt het rechterkanaalsignaal R gesplitst in een signaal met een sterkte gelijk aan p keer de sterkte van signaal R, welk signaal wordt toegevoerd aan de optelschakeling 87 en in een signaal met een sterkte gelijk aan   (l-p)   keer de sterkte van het signaal R welk signaal toegevoerd wordt aan de luidspreker 81. Een uitgangssignaal van de optelschakeling 87, dat gelijk is aan de som van de aan deze optelschakeling 87 toegevoerde signalen, wordt toegevoerd aan de luidspreker 82 voor het weergeven van het middenkanaalsignaal. De werking van de schakeling 71 is als volgt. 



  In het geval dat het linkerkanaalsignaal L en rechterkanaalsignaal R muzieksignalen zijn, zal de waarde van p nagenoeg gelijk aan nul zijn. Dat betekent dat vrijwel het gehele linkerkanaalsignaal L en vrijwel het gehele rechterkanaalsigaal via respectievelijk de luidsprekers 80 en 81 wordt weergegeven. Via de luidspreker 82 wordt vrijwel geen audioinformatie weergegeven. De muziek wordt dus volledig in stereo weergegeven. 



  Echter in het geval dat de ontvangen signalen L en R spraaksignalen zijn zal de door het waarschijnlijkheidssignaal Vp aangegeven waarschijnlijkheid nagenoeg gelijk zijn aan 1. 



  Dit betekent dat vrijwel alle audio-informatie via de luidspreker 82 wordt weergegeven. 



  Via de luidsprekers 80 en 81 wordt nagenoeg geen audio-informatie weergegeven. De verdeling van de signalen over de drie luidsprekers 80,82 en 83 heeft het voordeel dat muzieksignalen in stereo worden weergegeven en spraaksignalen waarbij het gewenst is dat de richting van het geluid overeenkomt met de plaats van de spreker worden via de middenkanaalluidspreker 82 weergegeven. 



   Figuur 9 toont een andere uitvoeringsvorm van de schakeling 71. 

 <Desc/Clms Page number 14> 

 



  De schakeling 71 omvat een eerste codeerschakeling 90 welke geoptimaliseerd is voor het coderen van spraaksignalen en een tweede codeerschakeling 91 welke geoptimaliseerd is voor het coderen van muzieksignalen. Het via de ingang 1 ontvangen audiosignaal wordt toegevoerd aan een ingang van de codeerschakeling 90 en aan een ingang van de codeerschakeling 91. Een uitgang van de codeerschakeling 90 is gekoppeld met een ingang van een tweekanaalsmultiplexschakeling 92. Een uitgang van de codeerschakeling 92 is gekoppeld met een andere uitgang van de tweekanaalsmultiplexschakeling 92. De multiplexschakeling 92 wordt gestuurd door een binair signaal dat met behulp van een comperator 94 afgeleid is uit het waarschijnlijkheidssignaal Vp dat door de spraaksignaaldiscriminator 70 is afgeleid uit het op de ingang 1 ontvangen signaal.

   De werking van de schakeling 71 is als volgt : Afhankelijk van de door het waarschijnlijkheidssignaal Vp afgegeven waarde zal de multiplexschakeling 92 of de uitgang van de codeerschakeling 90 of de uitgang van de codeerschakeling 91 doorverbinden met een uitgang 93 van de multiplexschakeling 92, zodat aan de uitgang 93 een gecodeerd signaal beschikbaar is dat met een aan de soort van het ontvangen signaal (spraak of muziek) aangepaste codering. Het gecodeerde signaal op de uitgang 93 wordt via een signaaloverdrachtskanaal of medium 95 toegevoerd aan een ingang van een eerste decodeerschakeling 97 en aan een ingang van een tweede decodeerschakeling 98 van een ontvangstschakeling 96. De eerste decodeerschakeling 97 is ingericht voor het uitvoeren van een decodering die het omgekeerde is van de door codeerschakeling 90 uitgevoerde codering.

   De tweede decodeerschakeling 98 is ingericht voor het uitvoeren van een decodering die het omgekeerde is van de door codeerschakeling 91 uitgevoerde codering. De uitgangen van de decodeerschakelingen 97 en 98 zijn verbonden met ingangen van een tweekanaals demultiplexschakeling 99, die gestuurd wordt door het uitgangssignaal van comperator 94, welk signaal eveneens via het signaaloverdrachtskanaal 95 aan de ontvangstschakeling 96 wordt toegevoerd. Door deze wijze van sturing van de demultiplexschakeling 99 wordt bereikt dat aan een uitgang van deze multiplexschakeling het door de juiste decodeerschakeling gecodeerde signaal afgegeven wordt. 



   Behalve de hiervoor beschreven uitvoeringsvormen van de schakeling 71 zijn nog talrijke andere uitvoeringsvormen mogelijk. Zo kan de audiosignaalverwerkingsschakeling bijvoorbeeld bestaan uit een audioversterker met een 

 <Desc/Clms Page number 15> 

 toonregeling of equalizer die ingesteld wordt in afhankelijkheid van de waarde van het waarschijnlijkheidssignaal. Indien het waarschijnlijkheidssignaal aangeeft dat de waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is dan wordt de toonregeling of equalizer ingesteld op een stand waarbij de verstaanbaarheid van de spraak optimaal is. Dit betekent in het algemeen dat het hoorbaar gemaakte spraaksignaal relatief weinig lage tonen bevat.

   Bij een lage waarschijnlijkheid dat het ontvangen audiosignaal een spraaksignaal is wordt de toonregeling of equalizer ingesteld op een stand waarbij de weergave van muziek als mooi ervaren wordt. Dit is meestal een stand waarbij in het weergegeven signaal de lage tonen en eventueel ook de hoge tonen extra versterkt zijn. In het algemeen heeft het waarschijnlijkheidssignaal een waarde die ligt tussen een eerste extreme waarde die met de hoogste waarschijnlijk een spraaksignaal aangeeft en een tweede extreme waarde die met de hoogste waarschijnlijkheid een muzieksignaal aangeeft.

   Het heeft de voorkeur om bij deze tussenliggende waarden de voor de instelling van de toonregeling een instelling te kiezen die een combinatie is van de voor spraaksignalen gewenste instelling en de voor muzieksignalen gewenste instelling, waarbij de bijdrage van de verschillende instellingen afhangt van de waarde van het waarschijnlijkheidssignaal. 



   Bij audio-inrichtingen waarbij een extra lage-tonen-luidspreker is aangebracht (woofer) voor het verfraaien van weergegeven muziek is het voor de verbetering van de verstaanbaarheid van spraaksignaal voordelig om bij spraaksignalen de extra lage tonen luidspreker uit te schakelen. 



   Bij beeldweergavesystemen, zoals televisie, waarbij tezamen met de beeldweergave met beeld gerelateerd geluid wordt weergegeven is het voordelig om de spraaksignaaldiscriminatieschakeling te gebruiken voor de omschakeling van stereofonische geluidsweergave naar mono in het geval dat het bijbehorende audiosignaal een spraaksignaal is. Immers bij weergave van een spreker is het wenselijk dat de positie van het beeld en de bron waarvan het geluid vandaan komt goed met elkaar overeenkomen. Met een soortgelijk doel kan de spraaksignaaldiscriminatieschakeling ook worden toegepast in een audio-inrichting die voorzien is van een schakeling voor stereobasisverbreding. Bij de weergave van spraaksignalen is het daarbij eveneens voordelig om de stereobasisverbreding uit te schakelen. 



   De spraaksignaaldiscriminatieschakeling kan in een audio-inrichting 

 <Desc/Clms Page number 16> 

 eveneens voordelig worden toegepast om het geluidsvolume in te stellen in afhankelijkheid van het   waarschijnlijkheidindicatiesignaal.   Zo bestaat er een behoefte om bij radio-ontvangst de spraaksignalen met een hoger volume weer te geven om de verstaanbaarheid van de doorgegeven berichten te verhogen. 



   De spraaksignaaldiscriminatieschakeling kan verder nog met voordeel worden toegepast in een inrichting voor het optekenen van audiosignalen, waarbij de optekening afhankelijk van de waarde van het waarschijnlijkheidssignaal gestart en gestopt wordt, bijvoorbeeld bij het opnemen van via de radio uitgezonden   muziekprogramma's   die regelmatig worden onderbroken door gesproken tekst of bij het 
 EMI16.1 
 inspreken van tekst bij een dicteerapparaat. In de laatst genoemde toepassing is het van 1 voordeel om het eventueel op te tekenen signaal tijdelijk in een buffer op te slaan, totdat voor dit signaal het waarschijnlijkheidssignaal beschikbaar is. Hierdoor kan worden voorkomen dat steeds het eerste gedeelte van het op te tekenen signaal ontbreekt op de registratiedrager.

Claims (6)

  1. Conclusies : 1. Spraaksignaaldiscriminatieschakeling met een ingang voor het ontvangen van een audiosignaal en een uitgang voor het afgeven van een waarschijnlijkheidindicatiesignaal dat indicatief is voor de waarschijnlijkheid dat het via de ingang ontvangen audiosignaal een spraaksignaal is, gekenmerkt door een analyseschakeling voor het afleiden van een analysesignaal dat indicatief is voor de verhouding tussen een signaalvermogen in een eerste gedeelte van een frequentiespectrum van het ontvangen signaal en een signaalvermogen in een tweede gedeelte van het frequentiespectrum, van een signaalpatroondetector voor het detecteren van signaalpatronen in het analysesignaal waarvan de waarschijnlijk van optreden in een spraaksignaal verschilt van de waarschijnlijkheid van optreden in een ander signaal, niet zijnde een spraaksignaal,
    en schattingsmiddelen voor het in afhankelijkheid van de detectie van de gedetecteerde signaalpatronen afleiden van het waarschijnlijkheidindicatiesignaal. EMI17.1
  2. 2. Schakeling volgens conclusie 1, gekenmerkt door ten minste een tweede signaalpatroondetector voor het detecteren van patronen van een tweede soort waarvan de waarschijnlijkheid van optreden bij het spraaksignaal verschilt met de waarschijnlijkheid van optreden bij het andere signaal, waarbij de schattingsmiddelen zijn ingericht voor het mede in afhankelijkheid van de detectie van de patronen van de tweede soort afleiden van het waarschijn1ijkheidindicatiesignaal.
  3. 3. Schakeling volgens conclusie 2, gekenmerkt doordat de tweede signaalpatroondetector is ingericht voor het detecteren van de patronen van de tweede soort in het analysesignaal.
  4. 4. Schakeling volgens een der conclusies 1, 2 of 3, met het kenmerk dat de eerstgenoemde signaalpatroondetector is voorzien van middelen voor het detecteren van veranderingen in de verhouding waarbij de waarde van de verhouding van een niveau boven een bepaald bovendrempel wijzigt in een niveau beneden een bepaalde benedendrempel, van middelen voor het detecteren van de snelheid waarmee de verandering heeft plaats gevonden, en van middelen voor het als het patroon detecteren van het optreden van een reeks opeen volgende veranderingen waarvan de snelheid boven een bepaalde snelheid is gelegen en waarbij het tijdsverschil tussen de veranderingen in de reeks een bepaalde maximum tijd niet overschrijdt.
  5. 5. Schakeling volgens een der conclusies 1, 2 of 3, met het kenmerk dat de <Desc/Clms Page number 18> eerst genoemde signaalpatroondetector is voorzien van middelen voor het detecteren of de waarde van de verhouding beneden een bepaalde benedendrempel ligt en van middelen voor het als patroon detecteren of de lengte van tijdsintervallen waarin de waarde van de verhouding beneden de benedendrempel is gelegen tussen een bepaalde minimum grens en een bepaalde maximum grens is gelegen.
  6. 6. Audio-inrichting voor het verwerken van een ontvangen audiosignaal, welke audio-inrichting is voorzien van een spraaksignaaldiscriminatieschakeling volgens een der voorgaande conclusies, en waarbij de audio-inrichting is voorzien van middelen voor het verwerken van het ontvangen audiosignaal op een wijze die afhankelijk is van het door de spraaksignaaldiscriminatieschakeling opgewekte waarschijnlijkheidsindicatiesignaal
BE9300775A 1993-07-26 1993-07-26 Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. BE1007355A3 (nl)

Priority Applications (5)

Application Number Priority Date Filing Date Title
BE9300775A BE1007355A3 (nl) 1993-07-26 1993-07-26 Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
EP94202132A EP0637011B1 (en) 1993-07-26 1994-07-21 Speech signal discrimination arrangement and audio device including such an arrangement
DE69413900T DE69413900T2 (de) 1993-07-26 1994-07-21 Sprachsignaldiskriminator und ein ihn enthaltendes Schallgerät
JP17420994A JP3793245B2 (ja) 1993-07-26 1994-07-26 音声信号弁別装置及びオーディオ装置
US08/888,356 US5878391A (en) 1993-07-26 1997-07-03 Device for indicating a probability that a received signal is a speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BE9300775A BE1007355A3 (nl) 1993-07-26 1993-07-26 Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.

Publications (1)

Publication Number Publication Date
BE1007355A3 true BE1007355A3 (nl) 1995-05-23

Family

ID=3887218

Family Applications (1)

Application Number Title Priority Date Filing Date
BE9300775A BE1007355A3 (nl) 1993-07-26 1993-07-26 Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.

Country Status (5)

Country Link
US (1) US5878391A (nl)
EP (1) EP0637011B1 (nl)
JP (1) JP3793245B2 (nl)
BE (1) BE1007355A3 (nl)
DE (1) DE69413900T2 (nl)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6321194B1 (en) * 1999-04-27 2001-11-20 Brooktrout Technology, Inc. Voice detection in audio signals
JP4554044B2 (ja) * 1999-07-28 2010-09-29 パナソニック株式会社 Av機器用音声認識装置
US6605768B2 (en) * 2000-12-06 2003-08-12 Matsushita Electric Industrial Co., Ltd. Music-signal compressing/decompressing apparatus
EP1430749A2 (en) * 2001-09-06 2004-06-23 Koninklijke Philips Electronics N.V. Audio reproducing device
WO2004002028A2 (en) * 2002-06-19 2003-12-31 Koninklijke Philips Electronics N.V. Audio signal processing apparatus and method
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
WO2004025953A1 (en) * 2002-09-13 2004-03-25 Koninklijke Philips Electronics N.V. A method and apparatus for content presentation
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
JP4486646B2 (ja) 2003-05-28 2010-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
JP4913038B2 (ja) * 2004-04-08 2012-04-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声レベル制御
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
JP5101292B2 (ja) 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
JP2006171458A (ja) * 2004-12-16 2006-06-29 Sharp Corp 音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
EA026063B1 (ru) * 2005-04-18 2017-02-28 Басф Се Сополимер, синтезированный из по меньшей мере трех различных моноэтиленненасыщенных мономеров
JP5185254B2 (ja) 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
JP2008076776A (ja) * 2006-09-21 2008-04-03 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
BRPI0717484B1 (pt) 2006-10-20 2019-05-21 Dolby Laboratories Licensing Corporation Método e aparelho para processar um sinal de áudio
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
ES2377719T3 (es) 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
KR101238731B1 (ko) * 2008-04-18 2013-03-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP4564564B2 (ja) 2008-12-22 2010-10-20 株式会社東芝 動画像再生装置、動画像再生方法および動画像再生プログラム
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
WO2010127024A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
JP2010231241A (ja) * 2010-07-12 2010-10-14 Sharp Corp 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
US9633667B2 (en) 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
US9363603B1 (en) 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
US10026417B2 (en) * 2016-04-22 2018-07-17 Opentv, Inc. Audio driven accelerated binge watch
US11069352B1 (en) * 2019-02-18 2021-07-20 Amazon Technologies, Inc. Media presence detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441203A (en) * 1982-03-04 1984-04-03 Fleming Mark C Music speech filter
EP0398180A2 (en) * 1989-05-15 1990-11-22 Alcatel N.V. Method of and arrangement for distinguishing between voiced and unvoiced speech elements
JPH05183523A (ja) * 1992-01-06 1993-07-23 Oki Electric Ind Co Ltd 音声・楽音符号化装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024994B2 (ja) * 1980-04-21 1985-06-15 シャープ株式会社 パタ−ン類似度計算方式
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US4920568A (en) * 1985-07-16 1990-04-24 Sharp Kabushiki Kaisha Method of distinguishing voice from noise
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
FR2631147B1 (fr) * 1988-05-04 1991-02-08 Thomson Csf Procede et dispositif de detection de signaux vocaux
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441203A (en) * 1982-03-04 1984-04-03 Fleming Mark C Music speech filter
EP0398180A2 (en) * 1989-05-15 1990-11-22 Alcatel N.V. Method of and arrangement for distinguishing between voiced and unvoiced speech elements
JPH05183523A (ja) * 1992-01-06 1993-07-23 Oki Electric Ind Co Ltd 音声・楽音符号化装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PATENT ABSTRACTS OF JAPAN vol. 17, no. 601 (E - 1456) 4 November 1993 (1993-11-04) *
S. OKAMURA ET AL.: "An experimental study of energy dips for speech and music", PATTERN RECOGNITION, vol. 16, no. 2, 1983, ELMSFORD, NEW YORK, USA, pages 163 - 166 *
VON E. BELGER ET AL.: "Ein Programmgesteuerter musik-sprache-schalter", RUNDFUNKTECHN. MITTEILUNGEN, vol. 12, no. 6, 1968, pages 288 - 291 *

Also Published As

Publication number Publication date
EP0637011B1 (en) 1998-10-14
JP3793245B2 (ja) 2006-07-05
DE69413900T2 (de) 1999-05-20
JPH0764598A (ja) 1995-03-10
US5878391A (en) 1999-03-02
DE69413900D1 (de) 1998-11-19
EP0637011A1 (en) 1995-02-01

Similar Documents

Publication Publication Date Title
BE1007355A3 (nl) Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
KR100619055B1 (ko) 오디오/비디오 시스템의 스피커 모드 자동 설정 방법 및장치
US8548173B2 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus
TW310501B (nl)
EP1826900A1 (en) Vehicle-mounted sound control system
JPH1195759A (ja) 自動音色補正方法及びその装置
KR930011708A (ko) 녹음장치 및 이것을 이용한 비디오장치
JP3618208B2 (ja) 雑音低減装置
US6070135A (en) Method and apparatus for discriminating non-sounds and voiceless sounds of speech signals from each other
JP4119083B2 (ja) Pcmオーディオ信号再生装置
KR970032263A (ko) 오디오기기의 음악장르별 자동 이퀄라이징방법 및 그 장치
US5400410A (en) Signal separator
JPH06253386A (ja) 収音装置
JP3494786B2 (ja) オーディオ装置
KR100295324B1 (ko) 자동노말오디오절환방법
JP3559326B2 (ja) 光ディスク再生装置
JPS6032267B2 (ja) 音声再生装置における制御信号検出方式
JPH0537301A (ja) Afc装置
JP2003123447A (ja) Md録音装置
KR960042591A (ko) 가라오케용 vcr에서의 마이크 입력신호에 따른 반주키 자동조정회로 및 그 방법
JPS5817500A (ja) 音声再生装置
JPS6264197A (ja) ハウリング検出装置
KR19980025532U (ko) 외부소음 검출에 따른 자동 음량조절 장치.
KR970057583A (ko) 음성다중방송의 주부음성 지연청취 장치 및 방법
JPH0714168A (ja) 曲間検出回路

Legal Events

Date Code Title Description
RE Patent lapsed

Owner name: PHILIPS ELECTRONICS N.V.

Effective date: 19950731