DE10327239A1

DE10327239A1 - Vorrichtung und Verfahren zum extrahieren eines Testsignalabschnitts aus einem Audiosignal

Info

Publication number: DE10327239A1
Application number: DE10327239A
Authority: DE
Inventors: Michael Dipl.-Ing. Keyhl; Christian Dipl.-Ing. Schmidmer; Roland Dipl.-Ing. Bitto
Original assignee: OPTICOM DIPL ING MICHAEL KEYHL; Opticom Dipl-Ing Michael Keyhl GmbH
Current assignee: OPTICOM DIPL ING MICHAEL KEYHL; Opticom Dipl-Ing Michael Keyhl GmbH
Priority date: 2003-06-17
Filing date: 2003-06-17
Publication date: 2005-01-27
Also published as: WO2004112002A1; US7680056B2; DK1634277T3; PT1634277E; EP1634277B1; US20060177003A1; EP1634277A1; WO2004112002A8; ES2389768T3

Abstract

Zur Extraktion von hörtestkonformen Testsignalabschnitten aus einem Audiosignal insbesondere für nicht-intrusive Tests zur Qualitätsbeurteilung eines Übertragungssystems wird zunächst eine zeitliche Struktur des Audiosignals analysiert, um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals oder einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals zu unterscheiden. Hierauf wird ein Testsignalabschnitt, basierend auf dem informationstragenden Abschnitt des Audiosignals, erzeugt. Damit werden hörtestkonforme Testsignalabschnitte erhalten, die einerseits die Vergleichbarkeit mit anderen Hörtests feststellen und die andererseits eine zu ungenaue Bewertung des Übertragungssystems aufgrund von systemimmanenten Artefakten reduzieren.

Description

Die vorliegende Erfindung bezieht sich auf Hörtests zur Bewertung der Qualität von codierten Sprach- und Audiosignalen bzw. zur Bewertung der Qualität einer Telephonverbindung, wie beispielsweise einer drahtgebundenen oder drahtlosen Telephonverbindung. Insbesondere bezieht sich die vorliegende Erfindung auf die Bereitstellung von Testsignalabschnitten zum Durchführen von sogenannten subjektiven und/oder objektiven Messungen zur Qualitätsbeurteilung.

Zur meßtechnischen Bewertung der Qualität von codierten Sprach- und Audiosignalen werden heute standardisierte perzeptionsbasierte Meßverfahren (Perceptual Measurement) eingesetzt. Bekannte Verfahren sind das sogenannte PESQ-Verfahren (PESQ = Perceptual Evaluation of Speech Quality = gehörrichtige Bewertung der Sprachqualität), das in dem Standardisierungsdokument ITU-T P.862 (02/2001) beschrieben ist. Ein anderes bekanntes Meßverfahren zur Qualitätsbeurteilung ist das sogenannte PEAQ-Verfahren (PEAQ = Objective Measurements of Perceived Audio Quality = objektive Messungen der wahrgenommenen Audioqualität) ist in dem Standardisierungsdokument Rec. ITU-R BS. 1387-1 (1998–2001) dargestellt. Diesen Verfahren bzw. weiteren Verfahren zur Qualitätsbeurteilung ist gemeinsam, daß ein zu testendes Signal („Testsignal"), das in der Regel das Ausgangssignal eines Systems oder Netzwerks oder allgemein eines zu untersuchen den Elements (DUT) ist, mit einem Original- oder auch Referenzsignal, das in der Regel das Eingangssignal in das zu testende DUT ist, verglichen wird.

Ein solches allgemeines „Setting" ist in 6 dargestellt. Das ursprüngliche Audiosignal, das in ein DUT 600 eingespeist wird, stellt hierbei das Referenzsignal oder Eingangssignal dar, während das Ausgangssignal hinter dem DUT 600 dazu verwendet wird, um entweder einen subjektiven Hörtest mit Testpersonen durchzuführen, wie es durch ein Subjekt 602 angedeutet ist, oder ein Qualitätsbeurteilungsverfahren, wie beispielsweise PESQ oder PEAQ durchzuführen, wie es durch ein Modell 604 dargestellt ist. Durch Zuführung des Ausgangssignals aus dem DUT 600 zu dem Subjekt 602 ist somit ein subjektiver Hörtest durchführbar, der typischerweise mit mehreren Testpersonen in standardisierten Räumen durchgeführt wird. Durch Zuführung des ursprünglichen Audiosignals vor dem DUT 600, also des Referenzsignals, und des durch das DUT verzerrten Audiosignals zu dem Modell 604 kann ein objektiver Test, also eine algorithmische Evaluierung ohne subjektive Testpersonen, durchgeführt werden.

Das DUT 600 ist typischerweise ein System, dessen Einfluß auf die Audioqualität bewertet werden soll. Ein solches System ist beispielsweise eine Telekommunikationsverbindung und insbesondere eine Telephonverbindung, die drahtlos oder drahtgebunden sein kann. Ein alternatives DUT 600 ist beispielsweise eine Codierer/Decodiererstrecke, um die Qualitätsbeeinträchtigung eines Codierkonzepts mit nachgeschaltetem Decodierkonzept zu beurteilen. Die Ausgabe des Modells soll, wenn das Modell im beabsichtigen Rahmen arbeitet, eine Vorhersage der wahrgenommenen Qualität sein, die Testpersonen, wenn sie das Ausgangssignal des DUT 600 hören, auf einer Skala subjektiv angeben würden.

Beim PESQ-Verfahren beispielsweise wird das ursprüngliche Audiosignal, also das Audiosignal vor dem DUT 600, das das Referenzsignal ist, unter Berücksichtigung einer zeitlichen Verzögerung (Delay), mit dem durch das DUT 600 verzerrten Audiosignal verglichen, wobei ein psychoakustisches Modell eingesetzt wird. Insbesondere werden sowohl das ursprüngliche Audiosignal vor dem DUT 600 als auch das verzerrte Audiosignal nach dem DUT 600 in eine sogenannte interne Darstellung umgewandelt, die analog zu der psychophysischen Darstellung von Audiosignalen im menschlichen Gehörsystem ist, wobei insbesondere Parameter wie die Bark-Skala und die Lautheit (Sone) berücksichtigt werden, wie es in der Technik bekannt ist. Die interne psychophysikalische Darstellung des ursprünglichen Audiosignals wird dann mit der internen psychophysikalischen Darstellung des verzerrten Audiosignals verglichen, um je nach Modell einen oder mehrere Fehlerparameter zu berechnen, die eine quantitative Qualitätsaussage zulassen.

Ein anhand von 6 dargestelltes Qualitätsbeurteilungsverfahren wird auch als „intrusives" Verfahren bezeichnet, da eine Einspeisung des Referenzsignals, also des ursprünglichen Audiosignals, in das zu testende System (DUT 600) notwendig ist. Am Ausgang des DUT erhält man dann, wie es ausgeführt worden ist, das zu bewertende Testsignal, das in 6 auch als verzerrtes Audiosignal bzw. allgemein als Audiosignal bezeichnet wird. Der Ausgang des DUT 600 kann beispielsweise das ferne Ende einer Telephonverbindung zweier Teilnehmer sein, wobei das ursprüngliche Audiosignal am nahen Ende als Referenzsignal eingespeist wird. In die sem Fall würde das Meßverfahren wie beispielsweise PESQ, die Sprachqualität einer Telephonverbindung charakterisieren.

Wie es ausgeführt worden ist, basieren die algorithmischen Meßverfahren auf einer Kombination von psychoakustischen und kognitiven Erkenntnissen über die menschliche Gehörwahrnehmung. Das zugrundeliegende Experiment dieser Verfahren besteht zunächst darin, daß ein subjektiver Hörtest durchgeführt wird, in dem eine statistisch ausreichende Anzahl von Testhörern („Subjects") eine Reihe von Sprach- bzw. Audiosequenzen zur Beurteilung vorgeführt wird. Die Tester bewerten diese Sequenzen mittels einer diskreten bzw. kontinuierlichen Qualitätsskala, die in der Technik auch als „Opinion Scale" bezeichnet wird und beispielsweise von 1 („bad") bis 5 („excellent") reicht. Solche subjektiven Hörtests sind beispielsweise in dem Standardisierungsdokument ITU-T P.800 (08/1996) dargestellt.

Es hat sich gezeigt, daß reale Testpersonen nur kurze Sequenzen qualitativ beurteilen können. Wird den Testpersonen eine längeren Sequenz, also ein längerer Testsignalabschnitt vorgeführt, so setzt eine gewissermaßen „statistische Mittelung" ein. Anders ausgedrückt führt der kognitive Prozeß des Vergessens von gehörten Störungen zu einer Verfälschung der Aussagen der Testpersonen, wobei diese Verfälschung aufgrund der Tatsache, daß die Testpersonen Menschen sind, systemimmanent ist.

Konsequenterweise sind daher in standardisierten Testprozeduren, wie beispielsweise in dem Standardisierungsdokument Rec. ITU-R BS.1116-1 oder Rec. ITU-R BS.1534, Testsequenzen vorgeschrieben, die eine Dauer von typischerweise zwischen 8 und 12 Sekunden haben, deren maximale Länge jedoch 20 Sekunden nicht überschreitet. Diese Testsequenzen sind zwar reale Signale, sie sind jedoch nicht stochastisch bzw. zufällig aus einem realen Szenario stammend, sondern standardisierte vorgegebene Testsequenzen, die in einem Experiment in das zu betrachtende DUT eingespeist werden können, um das Test-Eingangssignal, also das durch das DUT verzerrte Audiosignal zu gewinnen.

In jüngster Zeit wurden Entwicklungen vorgestellt, die es erlauben, auch nicht-intrusive Tests durchzuführen, die also eine Schätzung der Sprachqualität ausschließlich aufgrund einer Analyse des Testsignals auf der Empfangsseite, also ohne Einspeisung eines Referenzsignals auf der Sendeseite, ermöglichen sollen. Solche Entwicklungen sind für praktische Realisierungen von besonderem Vorteil, da sie beispielsweise eine Aussage über die Sprachqualität einer Mobilfunkverbindung einzig im Endgerät zulassen, ohne daß irgendwelche meßtechnischen Anordnungen oder Vorkehrungen bzw. Manipulationen im Telephonnetz gewissermaßen zur Einspeisung eines Referenzsignals erforderlich wären. Jedes reale Telephongespräch sollte mit einem solchen nichtintrusiven Konzept einer Qualitätsbeurteilung unterziehbar sein.

Dieses neue nicht-intrusive Konzept befindet sich gerade in der Entwicklung. Es wird davon ausgegangen, daß aus Vergleichbarkeitsgründen mit intrusiven Meßkonzepten auch für das nicht-intrusive Meßkonzept Testsequenzlängen vorgeschrieben werden, die den Testsequenzlängen aus den intrusiven Tests ähnlich sind, die also so gewählt sind, daß beim Testhörer aufgrund einer zu langen Sequenz keine sogenannte „statistische Mittelung" oder ein Vergessen eines Fehlers eintritt, und die andererseits lange genug sind, damit überhaupt eine vernünftige Aussage getroffen werden kann. Wie es bereits ausgeführt worden ist, liegt die Dauer der Testsequenzen typischerweise zwischen 8 bis 12 Sekunden, wobei manchmal auch Testsequenzen, also Testsignalabschnitte mit maximal 20 Sekunden zugelassen werden.

Insbesondere bei nicht-intrusiven Qualitätsbeurteilungen eines verzerrten Audiosignals bzw. bei der Beurteilung eines Einflusses eines beispielsweise Übertragungskanals 600 in 6 auf das Audiosignal kann nicht mehr ohne weiteres mit vordefinierten Testsignalabschnitten gearbeitet werden. Statt dessen müssen reale Audiosignale zur Qualitätsbeurteilung herangezogen werden. Dennoch soll eine Vergleichbarkeit der Meßergebnisse gewährleistet werden, da dies gerade ein wesentlicher Vorteil von standardisierten Qualitätsbeurteilungsverfahren ist, nämlich dass die Ergebnisse verschiedener Tests vergleichbar sein sollen.

Nachfolgend wird anhand von 5 die sich dabei ergebende Problematik dargestellt. 5 zeigt ein Zeitdiagramm eines über eine Telephonverbindung übertragenen Signals, also eines Audiosignals, das durch die Übertragung über eine Telephonverbindung verzerrt worden ist. In dem Zeitdiagramm von 5 ist entlang der Ordinate eine normierte Amplitude aufgetragen, während entlang des Abszisse die Zeit t aufgetragen ist. Das in 5 dargestellte Signal zeigt deutlich die Charakteristik eines Sprachsignals, dahingehend, daß zum einen informationstragende Abschnitte, wie beispielsweise der Abschnitt zwischen einer Sekunde und neun Sekunden, vorhanden sind, und daß die informationstragenden Abschnitte durch nicht-informationstragende Abschnitte, die auch als Pausen bezeichnet werden, voneinan der getrennt sind. Der nicht-informationstragende Abschnitt, der auf den ersten informationstragenden Abschnitt folgt, erstreckt sich von etwa 9 Sekunden bis zu etwa 10,8 Sekunden. Dann folgt wieder ein längerer informationstragender Abschnitt von 10,8 Sekunden bis etwa 20,2 Sekunden. Diesem zweiten informationstragenden Abschnitt folgt wieder eine Pause zwischen 20,3 Sekunden etwa und 21,3 Sekunden. Der zweiten Pause folgt wieder ein informationstragender Abschnitt, der sich etwa bis 23,7 Sekunden erstreckt, woraufhin wieder eine Pause folgt.

Die einfachste Möglichkeit zur Extraktion von Testsignalabschnitten würde darin bestehen, das in 5 dargestellte Audiosignal in aneinander angrenzende Abschnitte gleicher Länge zu zerlegen. Eine Art der Fragmentierung, um Testsignalabschnitte mit einer Dauer von etwa 10 Sekunden zu gewinnen, ist durch b(1), b(2) etc. dargestellt. Eine andere Art der Fragmentierung des in 5 dargestellten Audiosignals, um Testsignalabschnitte mit einer Dauer von beispielsweise 7,5 Sekunden zu gewinnen, ist durch a(1), a(2), a(3),..., dargestellt.

Die Fragmentierung des Audiosignals in Abschnitte konstanter Länge ist dahingehend problematisch, daß nicht mehr kalkulierbar ist, wie groß der informationstragende Abschnitt in einem Testsignalabschnitt ist, und wie groß der nicht-informationstragende Abschnitt in einem Testsignalabschnitt ist, d. h. wie groß die Gewichtung Information/Pause ist. Darüber hinaus kann es insbesondere bei Telephongesprächen vorkommen, daß zwischen den Gesprächspartnern längere Pausen entstehen. Dies würde dazu führen, daß ein Testsignalabschnitt beispielsweise nur ausschließlich aus einer Pause bestehen würde. Es ist ohne weiteres er sichtlich, daß allein aufgrund einer Pause keine Qualitätsbeurteilung möglich ist.

Das in 5 gezeigte Prozedere ist lediglich dann „gutartig", wenn jegliches Telephongespräch z. B. immer kürzer als 20 Sekunden ist, so daß das gesamte Telephongespräche als Testsignalabschnitt genommen werden könnte. Ist dies jedoch nicht der Fall, so ergibt die Aufteilung in konstante Zeitabschnitte, wie sie anhand von 5 dargestellt worden ist, keinerlei Vergleichbarkeit mit einem subjektiven Hörtestergebnis. Darüber hinaus werden die Meßperioden unterschiedlicher Dauer zumindest zu unterschiedlichen, wenn nicht unbrauchbaren Ergebnisse führen. Insbesondere für die Messung in Mobilfunknetzen aus dem fahrenden Auto mittels sogenannter „Drive Test Tools" ist eine möglichst kurze Meßdauer erwünscht bzw. die Fragmentierung realer Testgespräche in kürzere Zeitintervalle bzw. Meßperioden, wie sie bei a(1), a(2), a(3) in 5 angedeutet ist. Diese kürzeren Meßdauern sind insbesondere bei Mobilfunknetzen erwünscht, um die Meßperioden dann mit geographischen Daten zu korrelieren, um eine geographisch detaillierte Aussage in der Qualität eines Mobilfunksystems zu erhalten.

Wie es bereits angedeutet worden ist, zeigt 5 die graphische Darstellung des Zeitsignals eines Sprachsignals, gewonnen aus einem realen Telephongespräch. Deutlich ersichtlich sind die sprachaktiven Modulationsteile, also die informationstragenden Abschnitte des Signals, hier gesprochene Sätze, sowie die Sprachpausen dazwischen, also die nicht-informationstragenden Abschnitte. Es sei darauf hingewiesen, daß an der Hörerseite des einen Endes der aktuellen Kommunikation das in 5 gezeigte Signal aufgezeichnet worden ist. Wie es ausgeführt worden ist, treten in ei ner Konversation deutlich längere Pausen auf, in denen die gegenüberliegende Person spricht. Diese sind zur Vereinfachung in 5 vernachlässigt.

In 5 dargestellt sind zwei mögliche Fragmentierungen, basierend auf einer Einteilung in feste Zeitabschnitte. Es ist deutlich zu sehen, daß ein Zeitabschnitt inmitten der Modulation, also eines Wortes oder Satzes, beginnen kann (a(2), b(2)) oder enden kann (a(1), a(2),..., b(1)).

Darüber hinaus kann es ebenso passieren und wird es insbesondere bei einem Dialog der Fall sein, daß ein Testsignalabschnitt zu einem wesentlichen Teil oder ganz aus einer Pause bestehen kann, wie es beispielsweise teilweise anhand des Testsignalabschnitts a(2) ersichtlich ist, der bereits zu einem Drittel aus Pause besteht.

Die Einteilung in feste Zeitabschnitte eines zu beurteilenden Audiosignals wird somit den Anforderungen an hörtestgerechte Sequenzen, also Sprachbeispiele mit typischerweise zwei Sätzen von maximal 20 Sekunden Dauer nicht gerecht. Ferner ist es wünschenswert, daß solche hörtestgerechten Sequenzen idealerweise mit Pausen beginnen, mit Pausen enden und insbesondere, wenn aufeinanderfolgende Testsignalabschnitte betrachtet werden, auch durch Pausen getrennt sind.

Darüber hinaus führt das „harte" Ein- und Ausschalten in Modulationsteilen, wie beispielsweise das harte Ausschalten des informationstragenden Abschnitts im Testsignalabschnitt a(1), zu Störgeräuschen, die auch als spektrale Störgeräusche bzw. „Knacken" bezeichnet werden. Signaltheoretisch bedeutet das harte Abschneiden eines Modulationsteils die Faltung des Signals mit einer Sprungfunktion. Diese Störgeräusche bzw. Artefakte würden von einem Meßverfahren als Störung ausgewertet werden, was unmittelbar dazu führen würde, daß beispielsweise eine Kommunikationsverbindung schlechter beurteilt wird, als sie ist.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes Konzept zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal zu schaffen.

Diese Aufgabe wird durch eine Vorrichtung zum Extrahieren gemäß Patentanspruch 1, ein Verfahren zum Extrahieren gemäß Patentanspruch 18, eine Vorrichtung zur Qualitätsmessung nach Patentanspruch 19, ein Verfahren zur Qualitätsmessung nach Patentanspruch 21 oder ein Computer-Programm gemäß Patentanspruch 22 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß zur Extraktion eines Testsignalabschnitts zunächst die zeitliche Struktur des Audiosignals analysiert werden muß, um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals und einem nachfolgenden nichtinformationstragenden Abschnitt des Audiosignals zu unterscheiden. Auf der Basis der Analyse des Audiosignals im Hinblick auf die Detektion der informationstragenden Abschnitte wird dann ein Testsignalabschnitt basierend auf dem informationstragenden Abschnitt des Audiosignals erzeugt. Damit wird von dem Prozedere der festen Aufteilung in angrenzende Signalabschnitte weggegangen. Testsignalabschnitte werden erfindungsgemäß nunmehr dahingehend gewonnen, daß das Audiosignal einer Signalanalyse im Hinblick auf seine zeitliche Struktur und im Hinblick auf seinen In formationsgehalt unterzogen wird, um basierend auf den so gewonnenen Erkenntnissen für die weitere Verarbeitung Signalausschnitte, also Testsignalabschnitte zu gewinnen, die denen von hörtestkonformen Testsequenzen weitgehend entsprechen. Die erfindungsgemäße Fragmentierung des Audiosignals in Testsignalabschnitte wird daher nicht signalunabhängig sondern signalangepaßt vorgenommen.

Ein Vorteil der vorliegenden Erfindung besteht darin, daß die Audiosignal-adaptive Extraktion eines Testsignalabschnitts dazu führt, daß systemimmanente Artefakte vermieden werden. Statt dessen werden hörtestkonforme Testsignalabschnitte gewonnen, die die Anwendung und Verbreitung von nicht-intrusiven Meßkonzepten überhaupt erst ermöglichen.

Ein weiterer Vorteil der vorliegenden Erfindung besteht darin, daß keine DUT-Modifikationen bzw. Referenzsignale erforderlich sind, sondern daß das erfindungsgemäße Konzept aus realen Audiosignalen Testsignalabschnitte erzeugt, die im Hinblick auf ihre typischerweise durch Hörtests vorgegebenen Kriterien in weiten Grenzen manipulierbar sind.

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung findet die Analyse des Audisignals durch eine Sprachaktivitätserkennung, eine Pausendetektion bzw. Rauschdetektion oder eine nachgeschaltete Spracherkennung statt.

Der Testsignalabschnitt kann, sofern die zeitlichen Längen ausreichend sind, einen kompletten informationstragenden Abschnitt des Audiosignals unmittelbar enthalten. Je nach Ausführungsform kann jedoch auch eine Manipulation an einem informationstragenden Abschnitt des Audiosignals vorgenom men werden, um beispielsweise Pausen am Beginn und am Ende eines informationstragenden Abschnitts hinzuzufügen, um eine vordefinierte Relation von z. B. Sprachmodulation zu z. B. Pause zu erzeugen.

Durch Bereitstellung eines vorbestimmten Minimalwerts für die zeitliche Länge des Testsignalabschnitts und eines vorgegebenen Maximalwerts für die zeitliche Länge eines Testsignalabschnitts ist es bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung möglich, auch aus längeren informationstragenden Abschnitten vorzugsweise durch langsames Ein- und Aus-Blenden dennoch Hörtest-konforme Testsignalabschnitte zu erzeugen, die im wesentlichen artefaktfrei sind, da das unnatürliche schnelle Ein- bzw. Ausschalten eines informationstragenden Abschnitts verschleiert ist.

Die vorliegende Erfindung ist insbesondere dahingehend vorteilhaft, dass sie ein beliebiges Audiosignal, das typischerweise lange Pausen hat, in eine Folge von Testsignalabschnitten umformt, von denen jede zu einem spezifizierbaren Minimalanteil aus einen informationstragenden Abschnitt des Audiosignals besteht. Damit werden gewissermaßen automatisch die üblichen langen Pausen herausgeschnitten. Eine Qualitätsbeurteilung des Übertragungskanals, von dem das Audiosignal stammt, führt diese Qualitätsbeurteilung dann nur mit sinnvollen Testsignalabschnitten durch und vergeudet nicht sinnlose Ressourcen durch den vergeblichen Versuch einer Qualitätsbeurteilung von Pausen eines Teilnehmers in beispielsweise einen Telephongespräch.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
1 ein Blockschaltbild einer Vorrichtung zum Extrahieren eines Testsignalabschnitts gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
2 eine schematische Darstellung der Einrichtung zum Analysieren von 1 gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
3 eine detaillierte Darstellung der Einrichtung zum Erzeugen von 1 gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
4 eine Darstellung der Fragmentierung eines Audiosignals, wie sie durch die vorliegende Erfindung erreicht wird;
5 eine Fragmentierung des Audiosignals in Testsignalabschnitte gleicher Länge; und
6 ein Übersichtsdiagramm zur Erläuterung der prinzipiellen Funktionsweise eines intrusiven Hörtests zur Qualitätsbeurteilung eines zu testenden Systems.
1 zeigt ein bevorzugtes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal. Das Audiosignal wird einer Einrichtung 10 zum Analysieren einer zeitlichen Struktur des Audiosignals zugeführt. Die Einrichtung 10 zum Analysieren der zeitlichen Struktur des Audiosignals ist wirksam, um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals und einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals zu unterscheiden. Der Einrichtung 10 nachgeordnet ist eine Einrichtung 12 zum Erzeugen des Testsignalabschnitts, der vorzugsweise hörtestkonform ist, basierend auf dem informationstragenden Abschnitt des Audiosignals, der bei einer Alternative über eine Verbindungsleitung 14 von der Einrichtung 10 bereitgestellt wird. Alternativ kann die Einrichtung 10 auch ausgebildet sein, um einen Hinweis darauf auszugeben, wo in einem Audiosignal ein informationstragender Abschnitt beginnt, und wo er endet, beispielsweise durch Angabe der Samples, wenn das Audiosignal in zeitdiskreter Form vorliegt, oder durch Angabe von absoluten Zeitpunkten. In einem solchen Fall ist die Einrichtung 12 zum Erzeugen des Testsignalabschnitts basierend auf dem informationstragenden Abschnitt des Audiosignals wirksam, um unter Verwendung der entsprechenden Hinweise auf der Leitung 14 den entsprechenden informationstragenden Abschnitt bzw. zumindest einen Teil des informationstragenden Abschnitts direkt aus dem Audiosignal, das über einen Eingang 16 bereitgestellt wird, zu extrahieren, wie es durch eine Verbindungsleitung vom Eingang 16 zur Einrichtung 12, die in 1 mit 18 bezeichnet ist, dargestellt ist. Wie es ausgeführt worden ist, erzeugt die Einrichtung 12 an einem Ausgang 20 der in 1 gezeigten Vorrichtung vorzugsweise eine Sequenz von Testsignalabschnitten.
4 zeigt die Wirkungsweise des anhand von 1 dargestellten erfindungsgemäßen Konzepts. Die Einrichtung 10 zum Analysieren ist wirksam, um den informationstragenden Abschnitt, der sich etwa von 1,3 Sekunden bis zu 8,8 Sekunden erstreckt, zu erkennen. Zur Untersuchung des Audiosignals im Hinblick auf einen informationstragenden Abschnitt und einen nicht-informationstragenden Abschnitt, beispielsweise eine Pause oder ein Rauschen, existieren in der Technik viele bekannte Maßnahmen, wie beispielsweise eine Sprachaktivitätserkennung, Prädiktionsverfahren, Pausendetektionsverfahren, Pegelerkennungen, Gradientenverfahren etc. Alle diese Verfahren basieren darauf, eine schnelle Veränderung der Signalamplitude von einer langsamen Veränderung der Signalamplitude unter Berücksichtigung der absoluten Änderung über einen bestimmen Zeitraum zu untersuchen. Schnelle Änderungen, die zusätzlich bei einer bestimmten Amplitude, also bei einem bestimmten Lautheitspegel stattfinden, deuten auf sogenannte sprachaktive Modulationsanteile hin, wenn das Signal ein Sprachsignal ist, wie es in 4 dargestellt ist. Dagegen deuten langsame Änderungen auf niedrigem Pegelniveau bzw. schnelle Änderungen auf einem relativ konstanten Pegelniveau auf Pausen bzw. auf Rauschen hin, also auf nicht-informationstragende Abschnitte des Audiosignals. Andere Verfahren unterscheiden z. B. Rauschen von Sprache durch Spektralanalyse und Korrelation.
Die Einrichtung 12 zum Erzeugen der Testsignalabschnitte ist nunmehr wirksam, um beispielsweise die Fragmentierung des Audiosignals in Testsignalabschnitte m(1), m(2), m(3), ..., so durchzuführen, daß einem informationstragenden Abschnitt ein nicht-informationstragender Abschnitt vorausgeht und nachfolgt, wie es beispielsweise anhand der Testsignalabschnitte m(1), m(2), m(3) in 4 zu sehen ist. Im einzelnen ist die Einrichtung zum Erzeugen des Testsignalabschnitts, wie es in 1 bei 12 dargestellt ist, wirksam, um einen informationstragenden Abschnitt des Audiosignals unmittelbar aus dem Audiosignal zu extrahieren und zumindest einen Teil des vorhergehenden nichtinformationstragenden Abschnitts des Audiosignals und einen Teil des nachfolgenden nicht-informationstragenden Abschnitts hinzuzufügen, um einen Testsignalabschnitt mit einer bestimmten vordefinierten Länge zu erhalten.
Dieses Prozedere ist dann gangbar, wenn der informationstragende Abschnitt des Audiosignals kürzer als eine vorgegebene Maximallänge eines Testsignalabschnitts ist, also z. B. 12 Sekunden oder bis zu 20 Sekunden. Diese Randbedingung dürfte insbesondere bei Sprachsignalen, wie sie über Telephonverbindungen auftreten, der Fall sein.
Ist das Audiosignal jedoch ein Musiksignal, so kann durchaus der Fall auftreten, daß ein informationstragender Abschnitt des Musiksignals, also ein Abschnitt mit einer Modulation oberhalb eines bestimmten Modulationsschwellwerts länger als die vorbestimmte Maximallänge ist. Ist dies der Fall, so ist die Einrichtung 12 zum Erzeugen des Testsignalabschnitts wirksam, um einen Testsignalabschnitt dahingehend zu erzeugen, daß zunächst ausgehend von einer Pausen-Situation der informationstragende Abschnitt nach und nach eingeblendet wird, dahingehend, daß eine Dämpfung schrittweise von 1 auf 0 reduziert wird. Dann wird der informationstragende Abschnitt unmittelbar aus dem Audiosignal übernommen, und zwar bis zu einem vorbestimmten Zeitpunkt, bei dem dann wieder eine langsame schrittweise Ausblendung stattfindet, indem ein Dämpfungsfaktor wieder von 0 auf 1 erhöht wird, um schließlich, am Ende des Testsignalabschnitts wieder eine Pausensituation künstlich herzustellen, also zu synthetisieren.
Nachfolgend wird Bezug nehmend auf 2 eine detailliertere Darstellung der Einrichtung 10 zum Analysieren gegeben. Wieder erhält die Einrichtung 10 zum Analysieren das Audiosignal von einem Audiosignaleingang 10. Ausgangsseitig liefert die Signalanalyseeinrichtung 10 einen Hinweis auf den informationstragenden Abschnitt oder den informationstragenden Abschnitt selbst. Alternativ oder zusätzlich liefert die Einrichtung 10 einen Hinweis auf einen nicht-informationstragenden Abschnitt oder den nicht-informationstragenden Abschnitt selbst, wie es durch einen Ausgangsleitung 22 dargestellt ist. Die Signalanalyseeinrichtung 10 führt bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung eine Signalanalyse mittels einer Sprachaktivitätserkennung, einer Pausen/Rauschdetektion, einer Pegeldetektion, einer Lautheitsdetektion, einer Modulationserkennung, etc. durch. Alle diese Konzepte basieren darauf, daß ein informationstragender Abschnitt mit dem zu detektierenden Merkmal dahingehend korreliert ist, daß das Merkmal detektierbar ist, wenn der Abschnitt des Audiosignals Nutzinformationen trägt, und daß das zu detektierende Merkmal nicht vorhanden ist, wenn der Abschnitt des Audiosignals, der betrachtet wird, nicht entsprechende Nutzinformationen trägt, oder umgekehrt. Liegt das Audiosignal beispielsweise als Sprachsignal vor, so ist die Einrichtung zur Signalanalyse wirksam, um mittels einer Sprachaktivitätserkennung („Voice Activity Detection") den Beginn und das Ende eines informationstragenden Abschnitts des Audiosignals, also z. B. eines sprachaktiven Modulationsanteils zu bestimmen. Alternativ oder zusätzlich kann die Signalanalyseeinrichtung 10 eine Pausendetektion bzw. bei realen Netzen eine Rauscherkennung („Noise Detection") durchführen, um die Lage und Länge der Sprachpausen zu bestimmen.
Ein informationstragender Abschnitt ist dann der Abschnitt zwischen zwei Sprachpausen, obgleich er nicht direkt detektiert wird, sondern gewissermaßen indirekt, indem die vorhergehende und die nachfolgende Sprachpause ermittelt werden. Eine Pausendetektion allein, also eine Detektion von einem vorhergehenden und einem nachfolgenden nichtinformationstragenden Abschnitt bezüglich eines betrachteten informationstragenden Abschnitts liefert somit ebenfalls eine Unterscheidung des informationstragenden Abschnitts des Audiosignals von einem vorhergehenden nichtinformationstragenden Abschnitt des Audiosignals und einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals.
Alternativ oder zusätzlich kann die Einrichtung zur Analyse des Audiosignals ausgebildet sein, um mittels einer nachgeschalteten Spracherkennung, die in der Technik auch als ASR oder „Automatic Speech Recognition" bekannt ist, die Sprache sowie die Satzzusammenhänge zu analysieren, um beispielsweise, wenn dies gefordert ist, immer einen Testsignalabschnitt mit einer vorgegebenen Anzahl von Worten bzw. einer vorgegebenen Anzahl von Sätzen zu extrahieren. Diese Funktionalität kann auch, wie es anhand von 3 dargestellt ist, von der Einrichtung 12 zum Erzeugen der Testsignalabschnitte übernommen werden, die gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung in 3 dargestellt ist. Über Leitungen 14 bzw. 22 von 2 erhält die Einrichtung 12 zum Erzeugen eines Testsignalabschnitts z. B. einen Hinweis auf einen informationstragenden Abschnitt also auf eine Modulation bzw. einen Hinweis auf eine Pause, also einen nicht-informationstragenden Abschnitt des Audiosignals, das über die Leitung 18 der Einrichtung 12 bereitgestellt wird. Die Einrichtung 12 erhält ferner Informationen über eine vorbestimmte Maximallänge über einen weiteren Eingang 24 sowie Informationen über eine vorbestimmte Minimallänge über einen weiteren Eingang 26. Ferner wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ein vorbestimmtes Pausen/Modulationsverhältnis in einem Testsignalabschnitt angestrebt. Die Informationen, welches Pausen/Modulationsverhältnis vorbestimmt ist, können über einen weiteren Eingang 28 der Einrichtung 12 zum Erzeugen der Testsignalabschnitte zugeführt werden.
Die Einrichtung 12 zum Erzeugen eines Testsignalabschnitts ist wirksam, um bei einem bevorzugten Ausführungsbeispiel Pausen zu Beginn und zu Ende eines identifizierten informationstragenden Abschnitts hinzuzufügen, um eine definierte Relation von Sprachmodulation zu Pause, wie beispielsweise 40% Sprachmodulation und 60% Pause zu erzeugen. Sollte ein informationstragender Abschnitt zu lang sein, so ist die Einrichtung 12 bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wirksam, um eine Ein- und Ausblendefunktionalität zu schaffen, um den informationstragenden Abschnitt sanft ein- oder auszublenden, was in der Technik auch als „Fade-In" oder „Fade-Out" bekannt ist. Ist ein informationstragender Abschnitt des Audiosignals zwar nicht so lang wie die vorbestimmte Maximallänge, ist sie jedoch länger, als durch das vorbestimmte Pausen/Modulationsverhältnis in einem Testsignalabschnitt vorgegeben ist, so kann die Ein/Ausblendefunktionalität auch vorgenommen werden, um den informationstragenden Abschnitt zugunsten eines längeren nicht-informationstragenden Abschnitts zu „verkürzen".
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird ferner eine rekursive Abarbeitung der Schritte der Sprachaktivitätskennung, der Pausendetektion, der nachgeschalteten Spracherkennung und der Hinzufügung von Pausen durchgeführt, um Hörtest-konforme Testsignalabschnitte, die beispielsweise Sprachsequenzen sein werden, mit unterschiedlicher Länge zu bilden, deren jeweilige Dauer jedoch innerhalb der vorgegebenen Minimallänge t_min und der vorgegebenen Maximallänge t_max liegt.
Das erfindungsgemäße Konzept ist somit wirksam, um zu jedem Audiosignal der Dauer t eine Reihe von i Testsignalabschnitten zu erzeugen, wobei gilt:
wobei t_min die vorgegebene Mindestdauer für eine Sequenz definiert.
Die derart erzeugten Testsignalabschnitte bzw. Fragmente des Audiosignals, die, wie es in 4 dargestellt ist, bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung Überlappungen haben können, werden nunmehr einem weiteren Prozeß, beispielsweise einem Perzeptions-basierten Meßverfahren zur Bestimmung der Sprachqualität gemäß ITU-T P.862 (PESQ) zugeführt. Gleichzeitig können die erzeugten Fragmente auch für einen subjektiven Hörtest gemäß ITU-T P.800 beispielsweise verwendet werden.
Es ist zu sehen, daß die erfindungsgemäß erzeugten Testsignalabschnitte, wie sie in 4 dargestellt sind, im Gegensatz zu den Testsignalabschnitten konstanter Länge keine Sequenzen mehr enthalten, die ausschließlich eine Pause umfassen, also „Null-Signale" sind, so daß die Anzahl der Sequenzen in Abhängigkeit der Modulation für ein gegebenes Audiosignal minimiert wird und im Extremfall sogar 0 betragen kann, wenn das Audiosignal keinen informationstragenden Abschnitt aufweist, also einzig und allein aus einer Pause bzw. aus Rauschen besteht. Dieses Ergebnis deckt sich mit der Anforderung, daß ein Meßverfahren kein Signal auswerten kann, das ausschließlich aus Rauschen oder Pause besteht.
Nachfolgend wird auf eine Fragmentierung eines Audiosignals in hörtestgerechte Testsequenzen gemäß ITU-R BS.111.6 bzw. BS.1534 eingegangen.
Analog zur erfindungsgemäßen Fragmentierung eines Sprachsignals in hörtestgerechte Testsequenzen gemäß ITU-T P.800 wird erfindungsgemäß ein Musiksignal ebenfalls in ca. 10 bis 20 s lange Sequenzen fragmentiert. Bei einem bevorzugten Ausführungsbeispiel ist die Einrichtung 10 zum Analysieren ausgebildet, um im Falle eines Musiksignals eine Pegelerkennung, eine Lautheitserkennung oder eine Modulationserkennung durchzuführen, um den Beginn und das Ende von Modulationsanteilen, also eines informationstragenden Abschnitts zu bestimmen. Ferner ist die Einrichtung 10 ausgebildet, um mittels einer Pausendetektion bzw. bei realen Netzen einer Rauscherkennung die Lage und Länge der Pausen, die in der Technik auch als Silence Intervals bezeichnet werden, zu bestimmen.
Wieder wird es bevorzugt, bei einer zu langen Modulation, also einem zu langen informationstragenden Abschnitt gegebenenfalls mittels einer nachgeschalteten Ein- und Ausblendeautomatik das Musiksignal sanft ein- und auszublenden.
Ferner wird es bevorzugt, unter Hinzufügung von Pausen zu Beginn und zu Ende eines identifizierten informationstragenden Abschnitts eine definierte Relation von Modulation zu Pause, wie beispielsweise 40:60, zu erzeugen.
Wieder wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung eine rekursive Verwendung der Schritte der Pegel-, Lautheits- oder Modulationserkennung, der Pausendetektion, der Ein- und Ausblendeautomatik und der Hinzufügung von Pausen durchgeführt, um Audiosequenzen unterschiedlicher Länge zu bilden, deren Dauer innerhalb vorgegebener Mindest- und Maximallängen t_min und t_max liegt.
Bezüglich beispielhafter Definition der Lautheit und der Modulation wird auf das Standardisierungsdokument Rec. ITU-R BS.1387-1, Abschnitt 3.2 bezüglich der Modulation und Abschnitt 3.3 bezüglich der Lautheit verwiesen. Diese Abschnitte sind hierin durch Bezugnahme aufgenommen.
Als Ergebnis erhält man wieder zu jedem Audiosignal der Dauer t eine Reihe von i Meßsequenzen, wobei wieder gilt:
wobei t_min die vorgegebenen Mindestdauer für eine Sequenz definiert.
Die derart gewonnenen und aufbereiteten Testsignalabschnitte bzw. Fragmente können jetzt einem weiteren Prozeß, beispielsweise einem perzeptionsbasierten Meßverfahren zur Bestimmung der Audioqualität gemäß ITU-R BS.1387-1 PEAQ zuge führt werden. Gleichzeitig können die erzeugten Fragmente auch für einen subjektiven Hörtest eingesetzt werden.
Bei einem alternativen Ausführungsbeispiel der vorliegenden Erfindung wird es bevorzugt, die gewonnenen aufeinanderfolgenden Testsignalabschnitte einer periodischen Lautheitsmessung bzw. Lautheitskorrektur zu untersuchen, beispielsweise unter Verwendung bekannter Verfahren wie sie in ITU-R WP6P Question 2/6 „Audio Metering Characteristics suitable for use in Digital Sound Production" definiert sind. Dieses Konzept dient insbesondere dazu, eine Lautheitsanpassung von Tonsignalen beispielsweise im Fernsehen zu schaffen, um das unter dem Stichwort „zu laute Werbung" bekannte Problem von Pegelschwankungen bei Tonsignalen anzugehen. Das erfindungsgemäße Konzept ist hier insbesondere dahingehend vorteilhaft, daß insbesondere das Pausen/Modulations-Verhältnis der Testsignalabschnitte aufgrund der signaladaptiven Extraktion der Testsignalabschnitte gemäß der vorliegenden Erfindung genau steuerbar ist, also daß keine falschen Lautheitsbeeinflussungen des Tons aufgrund einer ungenauen Audiosignalfragmentierung auftreten.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Extrahieren eines Testsignalabschnitts in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, daß das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Vorrichtung zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal, mit folgenden Merkmalen: einer Einrichtung (10) zum Analysieren einer zeitlichen oder spektralen Struktur des Audiosignals, um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals oder einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals zu unterscheiden; und einer Einrichtung (12) zum Erzeugen des Testsignalabschnitts basierend auf dem informationstragenden Abschnitt des Audiosignals.
Vorrichtung nach Anspruch 1, bei der das Audiosignal Sprachanteile und Pausenanteile zwischen den Sprachanteilen aufweist, und bei der die Einrichtung (10) zum Analysieren ausgebildet ist, um eine Sprachaktivitätserkennung durchzuführen, um einen Sprachanteil als informationstragenden Abschnitt zu erfassen, der in zeitlicher Hinsicht zwischen zwei Pausenanteilen als nichtinformationstragenden Abschnitten angeordnet ist.
Vorrichtung nach Anspruch 1 oder 2, bei der das Audiosignal Signalanteile mit einer vorbestimmten Minimal leistung und Pausenanteile mit einer Leistung kleiner als die vorbestimmte Signalleistung aufweist, und bei der die Einrichtung (10) zum Analysieren ausgebildet ist, um eine Pausendetektion durchzuführen, um zwei zeitlich folgende Pausenanteile zu detektieren, zwischen denen als informationstragender Abschnitt ein Signalanteil angeordnet ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der das Audiosignal Rauschanteile und dazwischenliegende Signalanteile aufweist, und bei der die Einrichtung (10) zum Analysieren ausgebildet ist, um eine Rauscherkennung durchzuführen, um zwei zeitlich folgende Rauschanteile zu erfassen, um einen zwischen den Rauschanteilen liegenden Signalanteil als informationstragenden Abschnitt zu ermitteln.
Vorrichtung nach Anspruch 2, bei der die Einrichtung (10) zum Analysieren ferner ausgebildet ist, um den Sprachanteil einer Spracherkennung zu unterziehen, und den informationstragenden Abschnitt hinsichtlich einer Sprache und/oder eines Satzzusammenhangs zu analysieren, und bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um beim Erzeugen des Testsignalabschnitts die Sprache und/oder den Satzzusammenhang zu berücksichtigen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um den Testsignalabschnitt so zu erzeugen, daß derselbe eine zeitliche Länge hat, die größer oder gleich einer vorbestimmten Minimallänge und kleiner oder gleich einer vorbestimmten Maximallänge ist.
Vorrichtung nach Anspruch 6, bei der die vorbestimmte Minimallänge zwischen 2 und 12 Sekunden liegt, und bei der die vorbestimmte Maximallänge zwischen 12 und 25 Sekunden liegt.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um zumindest einen Teil des informationstragenden Abschnitts des Audiosignals unverändert in den Testsignalabschnitt zu übernehmen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um eine zeitliche Länge des informationstragenden Abschnitts zu erfassen, um festzustellen, ob die zeitliche Länge einen vorbestimmten Maximalwert überschreitet, und um in dem Fall des Überschreitens des vorbestimmten Maximalwerts einen Teil am Anfang oder am Ende des in formationstragenden Abschnitts auszublenden, um einen modifizierten informationstragenden Abschnitt zu erhalten, dessen zeitliche Länge kleiner als der vorbestimmte Maximalwert ist, und um in einem Übergangsbereich zwischen einem ausgeblendeten Abschnitt und einem nicht-modifizierten Abschnitt eine kontinuierliche Pegeländerung des modifizierten informationstragenden Abschnitts zu erhalten, und um den Testsignalabschnitt so zu erzeugen, daß derselbe den Übergangsbereich und den nicht-modifizierten Abschnitt umfaßt.
Vorrichtung nach einem der Ansprüche 1 bis 8, bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um in dem Fall, in dem die zeitliche Länge des informationstragenden Abschnitts kleiner als eine vorbestimmte Maximallänge ist, den gesamten informationstragenden Abschnitt in den Testsignalabschnitt zu übernehmen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (12) zum Erzeugen ausgebildet ist, um dem informationstragenden Abschnitt des Audiosignals einen oder mehrere nicht-informationstragende Abschnitte hinzuzufügen, so daß der Testsignalabschnitt ein vorbestimmtes Verhältnis von zeitlicher Länge des informationstragenden Abschnitts und zeit licher Länge des bzw. der nicht-informationstragenden Abschnitte aufweist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um zwei aufeinanderfolgende Testsignalabschnitte zu erzeugen, wobei ein Endpunkt eines ersten Testsignalabschnitts bezogen auf das Audiosignal zeitlich nach einem Startpunkt eines nachfolgenden zweiten Testsignalabschnitts ist, so daß sowohl der erste Testsignalabschnitt als auch der zweite Testsignalabschnitt zumindest einen Teil eines nichtinformationstragenden Abschnitts des Audiosignals gemeinsam haben.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Analysieren und die Einrichtung (12) zum Erzeugen ausgebildet sind, um das Audiosignal in eine Folge von Testsignalabschnitten unterschiedlicher Länge umzusetzen, wobei jeder Testsignalabschnitt länger als oder gleich einer vorbestimmten Minimallänge und kürzer als oder gleich einer vorbestimmten Maximallänge ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Analysieren ausgebildet ist, um eine Benachrichtigung auszugeben, wenn in dem Audiosignal kein informationstragender Abschnitt detektierbar ist.
Vorrichtung nach Anspruch 1, bei der das Audiosignal einen Musikanteil aufweist, und bei der die Einrichtung (10) zum Analysieren ausgebildet ist, um eine Pegelerkennung, eine Lautheitserkennung oder eine Modulationserkennung durchzuführen, um einen nicht-informationstragenden Abschnitt von einem informationstragenden Abschnitt zu unterscheiden.
Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweisen: eine Einrichtung (20) zum Übermitteln des Testsignalabschnitts an eine Meßvorrichtung zur Qualitätsbeurteilung eines Übertragungssystems (600), aus dem das Audiosignal erhaltbar ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um eine Sequenz von Testsignalabschnitten zu erzeugen, und die ferner eine Einrichtung zur Lautheitsmessung aufweist, um für jeden Testsignalabschnitt einen Lautheitswert zu erhalten, wobei die Lautheitswerte der Testsignalabschnitte von einer Lautheitsrückkopplung verwendbar sind, um einen Lautheitsverlauf des Audiosignals rückkopplungsmäßig zu steuern.
Verfahren zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal, mit folgenden Schritten: Analysieren (10) einer zeitlichen oder spektralen Struktur des Audiosignals, um einen informationstra genden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals oder einem nachfolgenden nichtinformationstragenden Abschnitt des Audiosignals zu unterscheiden; und Erzeugen (12) des Testsignalabschnitts basierend auf dem informationstragenden Abschnitt des Audiosignals.
Vorrichtung zur Qualitätsmessung eines Übertragungskanals, mit folgenden Merkmalen: einer Einrichtung zum Empfangen eines Audiosignals von dem Übertragungskanal; einer Einrichtung zum Extrahieren eines oder mehrerer Testsignalabschnitte gemäß einem der Ansprüche 1 bis 17; und einer Einrichtung zur Qualitätsbeurteilung des Übertragungskanals auf der Basis des einen oder der mehreren Testsignalabschnitte.
Vorrichtung nach Anspruch 19, bei der die Einrichtung zum Extrahieren ausgebildet ist, um das Audiosignal in eine Folge von Testsignalabschnitten unterschiedlicher Länge umzusetzen, wobei jeder Testsignalabschnitt länger als oder gleich einer vorbestimmten Minimallänge und kürzer als oder gleich einer vorbestimmten Maximallänge ist, wobei jeder Testsignalabschnitt zu zumindest einem vorbestimmten Anteil aus einem informationstragenden Abschnitt des Audiosignals besteht, und wobei die Einrichtung zur Qualitätsbeurteilung ausgebildet ist, um für Testsignalabschnitte der Folge von Testsignalabschnitten jeweils einen Qualitätsmesswert zu erzeugen.
Verfahren zur Qualitätsmessung eines Übertragungskanals, mit folgenden Schritten: Empfangen eines Audiosignals von dem Übertragungskanal; Extrahieren eines oder mehrerer Testsignalabschnitte unter Verwendung des Verfahrens gemäß Anspruch 18; und Qualitätsbeurteilen des Übertragungskanals auf der Basis des einen oder der mehreren Testsignalabschnitte.
Computer-Programm mit einem Programmcode zum Durchführen des Verfahrens zum Extrahieren eines Testsignalabschnitts gemäß Patentanspruch 18 oder zum Durchführen des Verfahrens zur Qualitätsmessung gemäß Patentanspruch 21, wenn das Computer-Programm auf einem Computer abläuft.