EP0945854B1

EP0945854B1 - Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen

Info

Publication number: EP0945854B1
Application number: EP99301823A
Authority: EP
Inventors: Yi Zhao; Jean-Claude Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-03-24
Filing date: 1999-03-11
Publication date: 2004-05-19
Anticipated expiration: 2019-03-11
Also published as: US6480823B1; ATE267443T1; CN1242553A; CN1113306C; DE69917361T2; ES2221312T3; TW436759B; JPH11327582A; KR100330478B1; EP0945854A3; EP0945854A2; DE69917361D1; KR19990077910A

Claims

Sprachdetektionssystem zum Untersuchen eines Eingangssignals, um festzustellen, ob ein Sprachsignal anwesend oder abwesend ist, umfassend:

einen Frequenzbandteiler (30, 32) zum Teilen des Eingangssignals in eine Vielzahl von Frequenzbändern, wobei jedes Band eine bandbegrenzte Signalenergie darstellt, die einem unterschiedlichen Frequenzbereich entspricht;

ein Energievergleichssystem zum Vergleichen der bandbegrenzten Signalenergie der Vielzahl von Frequenzbändern mit einer Vielzahl von Schwellenwerten, so dass jedes Frequenzband mit zumindest einem diesem Band zugeordneten Schwellenwert verglichen wird; und

eine Sprachsignal-Zustandsmaschine (42), die mit dem Energievergleichssystem gekoppelt ist und schaltet:

(a) von einem Sprachabwesenheitszustand in einen Sprachanwesenheitszustand, wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder über zumindest einem seiner zugehörigen Schwellenwerte liegt, und

(b) von einem Sprachanwesenheitszustand in einen Sprachabwesenheitszustand, wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder unter zumindest einem seiner zugehörigen Schwellenwerte liegt; gekennzeichnet durch:

ein Mehrfachschwellenwertsystem, das definiert:

einen ersten Schwellenwert als ein vorbestimmter Offset über dem Rauschgrund;

einen zweiten Schwellenwert als ein vorbestimmter Prozentsatz des ersten Schwellenwertes, wobei der zweite Schwellenwert kleiner als der erste Schwellenwert ist; und

einen dritten Schwellenwert als ein vorbestimmtes Vielfaches des ersten Schwellenwertes, wobei der dritte Schwellenwert größer als der erste Schwellenwert ist; und

wobei der erste Schwellenwert das Schalten von dem Sprachabwesenheitszustand in den Sprachanwesenheitszustand steuert; und
wobei der zweite und der dritte Schwellenwert ein Schalten von dem Sprachanwesenheitszustand in den Sprachabwesenheitszustand steuern.
System nach Anspruch 1, das ferner ein adaptives Schwellenwertaktualisierungssystem (38, 40) umfasst, das eine Histogrammdatenstruktur anwendet, um Verlaufsdaten zu sammeln, die die Energien in zumindest einem der Frequenzbänder angeben.
System nach Anspruch 1 oder 2, das ferner ein separates adaptives Schwellenwertaktualisierungssystem umfasst, das jedem der Frequenzbänder zugeordnet ist.
System nach Anspruch 1, 2 oder 3, das ferner ein adaptives Schwellenwertaktualisierungssystem umfasst, das die Vielzahl von Schwellenwerten auf der Grundlage des Mittelwertes und der Varianz von Energien in jedem der Frequenzbänder überarbeitet.
System nach Anspruch 1, 2, 3 oder 4, das ferner ein Teilsprachdetektionssystem (44) umfasst, das auf einen vorbestimmten Sprung in der Änderungsrate in zumindest einem der Vielzahl von Schwellenwerten anspricht, wobei das Teilsprachdetektionssystem verhindert, dass die Zustandsmaschine in einen Sprachanwesenheitszustand schaltet, wenn das Verhältnis vor dem Sprung zu nach dem Sprung des Durchschnittswertes des einen Schwellenwertes einen vorbestimmten Wert übersteigt.
System nach Anspruch 1, 2, 3, 4 oder 5, wobei die Zustandsmaschine von dem Sprachanwesenheitszustand in den Sprachabwesenheitszustand schaltet, wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder unter dem zweiten Schwellenwert liegt und wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder unter dem dritten Schwellenwert liegt.
System nach einem der Ansprüche 1 bis 6, das ferner einen Puffer für eine verzögerte Entscheidung umfasst, der Daten speichert, die ein vorbestimmtes Zeitinkrement des Eingangssignals darstellen, und der verhindert, dass die Zustandsmaschine von dem Sprachabwesenheitszustand in den Sprachanwesenheitszustand schaltet, wenn die bandbegrenzte Signalenergie von mindestens einem der Vielzahl von Frequenzbändern zumindest einen Schwellenwert während des gesamten vorbestimmten Zeitinkrementes hindurch nicht übersteigt.
Verfahren zum Bestimmen, ob ein Sprachsignal in einem Eingangssignal anwesend oder abwesend ist, mit den Schritten:

Teilen des Eingangssignals in eine Vielzahl von Frequenzbändern, wobei jedes Band eine bandbegrenzte Signalenergie darstellt, die einem unterschiedlichen Frequenzbereich entspricht;

Vergleichen der bandbegrenzten Signalenergie der Vielzahl von Frequenzbändern mit einer Vielzahl von Schwellenwerten, so dass jedes Frequenzband mit mindestens einem diesem Band zugeordneten Schwellenwert verglichen wird; und

Bestimmen, dass:

(a) ein Sprachanwesenheitszustand vorhanden ist, wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder über zumindest einem seiner zugeordneten Schwellenwerte liegt, und

(b) ein Sprachabwesenheitszustand vorhanden ist, wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder unter zumindest einem seiner zugeordneten Schwellenwerte liegt;

gekennzeichnet durch die weiteren Schritte:

Definieren:

eines ersten Schwellenwertes als ein vorbestimmter Offset über dem Rauschgrund;

eines zweiten Schwellenwertes als ein vorbestimmter Prozentsatz des ersten Schwellenwertes, wobei der zweite Schwellenwert kleiner als der erste Schwellenwert ist; und

eines dritten Schwellenwertes als ein vorbestimmtes Vielfaches des ersten Schwellenwertes, wobei der dritte Schwellenwert größer als der erste Schwellenwert ist; und

Bestimmen, dass der Sprachanwesenheitszustand vorhanden ist, auf der Grundlage des ersten Schwellenwertes, und

Bestimmen, dass der Sprachabwesenheitszustand vorhanden ist, auf der Grundlage des zweiten und des dritten Schwellenwertes.
Verfahren nach Anspruch 8, das ferner umfasst:

Definieren von zumindest einem der Vielzahl von Schwellenwerten unter Verwendung eines Histogramms, um Verlaufsdaten zu sammeln, die die Energien in zumindest einem der Frequenzbänder angeben.
Verfahren nach Anspruch 8 oder 9, das ferner umfasst:

adaptives Aktualisieren von zumindest einem der Vielzahl von Schwellenwerten separat für jedes der Frequenzbänder.
Verfahren nach Anspruch 8, 9 oder 10, das ferner umfasst:

Überarbeiten der Vielzahl von Schwellenwerten auf der Grundlage des Mittelwertes und der Varianz von Energien in jedem der Frequenzbänder.
Verfahren nach Anspruch 8, 9, 10 oder 11, das ferner umfasst:

Detektieren eines vorbestimmten Sprunges in der Änderungsrate in zumindest einem der Vielzahl von Schwellenwerten und

Bestimmen, dass der Sprachanwesenheitszustand nicht vorhanden ist, wenn das Verhältnis vor dem Sprung zu nach dem Sprung des Durchschnittswertes von dem einen Schwellenwert einen vorbestimmten Wert übersteigt.
Verfahren nach Anspruch 8, 9, 10, 11 oder 12, wobei bestimmt wird, dass der Sprachabwesenheitszustand vorhanden ist, wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder über dem zweiten Schwellenwert liegt, und wenn die bandbegrenzte Signalenergie von zumindest einem der Bänder über dem dritten Schwellenwert liegt.
Verfahren nach einem der Ansprüche 8 bis 13, das ferner umfasst:

Bestimmen, dass der Sprachanwesenheitszustand nicht vorhanden ist, wenn die bandbegrenzte Signalenergie von zumindest einem der Vielzahl von Frequenzbändern zumindest einen Schwellenwert während eines ganzen vorbestimmten Zeitinkrementes hindurch nicht übersteigt.