DE19948546A1 - Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten - Google Patents

Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten

Info

Publication number
DE19948546A1
DE19948546A1 DE19948546A DE19948546A DE19948546A1 DE 19948546 A1 DE19948546 A1 DE 19948546A1 DE 19948546 A DE19948546 A DE 19948546A DE 19948546 A DE19948546 A DE 19948546A DE 19948546 A1 DE19948546 A1 DE 19948546A1
Authority
DE
Germany
Prior art keywords
image
video
image information
user
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19948546A
Other languages
English (en)
Inventor
Tobias Dorfner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voxar AG
Original Assignee
Voxar AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voxar AG filed Critical Voxar AG
Priority to DE19948546A priority Critical patent/DE19948546A1/de
Priority to PCT/DE2000/000442 priority patent/WO2000049806A1/de
Priority to JP2000600429A priority patent/JP2002537734A/ja
Priority to EP00915108A priority patent/EP1192807A1/de
Priority to AU36547/00A priority patent/AU3654700A/en
Priority to IL14487800A priority patent/IL144878A0/xx
Publication of DE19948546A1 publication Critical patent/DE19948546A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung für die ästhetische und inhaltliche Veränderung und Optimierung des Videoinhalts und Audioinhalts zwischen zwei oder mehr Teilnehmern einer audiovisuellen Kommunikationsverbindung, wie Bildtelefon über Festanschluss, Bildtelefon über Short-Range und Long-Range Funkverbindung sowie andere audiovisuelle Kommunikationsmittel, z. B. über Personalcomputer, die in einem Netz verbunden sind. Von einer Videosignalquelle (11) kommende Bilder eines Teilnehmers werden einer Inhaltserkennung (30) unterworfen und in verschiedene Ebenen (31-34) unterteilt, wie z. B. in Hintergrund, Körper, Kopf. Dabei kann nach Wahl des Anwenders eine oder mehrere dieser Ebenen durch ein in einem Speicher abgelegtes Referenzbild oder mehrere Referenzbilder ersetzt werden. Dies geschieht in einer "optimierenden Bildverarbeitung" (40). Zusätzlich kann eine technische und kosmetische Bildoptimierung (42, 43) ausgeführt werden. Das erfindungsgemäße Verfahren enthält zudem Algorithmen zur Erkennung von Gesichtszügen eines Teilnehmers sowie zur Spracherkennung, so dass durch Vergleich des abgespeicherten Referenzgesichtsbildes mit dem Gesicht des Teilnehmers sowie einer Kennungsphrase mit abgespeicherten Sprachproben ermittelt werden kann, ob ein aktueller Anwender berechtigt ist oder nicht.

Description

Stand der Technik
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten gemäß den Oberbegriffen der Patentansprüche 1 und 15.
Es gibt bereits Kommunikationsdienste und -systeme, die neben dem auditiven Bereich auch visuelle Medien bzw. Kanäle zur Übermittlung von Ton- und Bildinformation anbieten.
Bereits heute kommen z. B. bei Videokonferenzsystemen Bildbearbeitungsalgorithmen zum Einsatz (WO 96/09 722).
Die DE-04 02 895 C1 beschreibt ein Verfahren und eine Vorrichtung zur Korrektur des Augenwinkels bei Arbeits­ platzvideosystemen. Hier wird der Augenbereich eines Anwenders editiert, um den Eindruck zu erwecken, man sehe direkt in die Kamera statt auf den Monitor. Diese Editierfunktion arbeitet unbemerkt vom Sender und Empfänger der Übermittlung.
Es ist weiterhin bekannt, dass es im Fernsehbereich Verfahren gibt, die Informationen vor der Weitergabe an die Sendeeinheit in Echtzeit oder fast in Echtzeit zu verändern. Vorteil dabei ist, dass die geänderten Informationen der vom Ersteller gewünschten Darstellung entsprechen bzw. nahe kommen. Zu diesen Verfahren gehört "Blue Box", "Maskierung" und "Automaskierung".
Wie bekannt, übertragen die oben genannten audiovisuellen Kommunikationsdienste und -systeme mehr Informationen als das Telefon. Zu diesen Informationen zählen unter anderem das Erscheinungsbild des sendenden Teilnehmers, seine Körpersprache, Mimik und Gestik sowie die Umgebung, die von der Videokamera eingefangen werden kann. Dabei entsteht jedoch das Problem, dass die Übertragung dieser visuellen Informationen zu psychologischen Hemmschwellen bei der Nutzung der oben genannten audiovisuellen Kommunikationsdienste und -systeme führt. Es gilt als sicher, dass diese psychologischen Hemmschwellen zum großen Teil dazu beigetragen haben, dass sich beispielsweise das Bildtelefon immer noch nicht auf dem Markt durchgesetzt hat.
Aufgabe und Vorteile der Erfindung
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zu ermöglichen, die Anwendern der genannten audiovisuellen Kommunikationsdienste und -systeme die Kontrolle über den Austausch selbstbezogener Informationen ermöglicht.
Diese Aufgabe wird durch ein Verfahren und eine Vorrichtung jeweils mit den Merkmalen und Mitteln der Ansprüche 1 und 15 gelöst.
Dem sendenden Teilnehmer von audiovisuellen Kommunika­ tionssignalen wird durch die Erfindung die Möglichkeit gegeben, den Inhalt so zu beeinflussen, dass der gesendete Inhalt der Vorstellung des sendenden Teil­ nehmers über seine Darstellung nahekommt bzw. mit seiner Vorstellung übereinstimmt. Damit wird folgender Nachteil der bishergen audiovisuellen Kommunikation überwunden: Der sendende Teilnehmer einer audiovisuellen Nachricht kann unabhängig von seiner derzeitigen Erscheinung, z. B. morgens nach dem Aufstehen, bei Krankheit, Missgestal­ tungen des Gesichts oder trotz eines aus anderen Gründen unvorteilhaften Erscheinungsbildes ungehindert kommuni­ zieren.
Durch die Verwendung der vorliegenden Erfindung, z. B. bei der Bildtelefonie, bei Videokonferenzen, Arbeits­ platzkonferenzen, Internet-Konferenzen, etc. stellt ein jeweiliger Teilnehmer an einer audiovisuellen Kommuni­ kation sicher, dass sein Erscheinungsbild und die von der Kamera ebenfalls eingefangene Umgebung beim empfangenden Teilnehmer seinem inneren Selbstwertverständnis ent­ spricht. Somit schützt die Verwendung der vorliegenden Erfindung die Privat- und Intimsphäre.
Gemäß einem wesentlichen Aspekt der Erfindung ist ein die obige Aufgabe lösendes Verfahren zur darstellungs­ optimierten Übertragung von Videodaten und/oder Audio­ daten, insbesondere beim Bildfernsprechen, bei dem von einer Video- und Audioquelle kommende Bild- und Audio­ daten vor ihrer Übertragung zu einem Empfänger anhand von Referenzinformation entsprechend wenigstens einem vorbe­ stimmten oder vorbestimmbaren Kriterium verändert werden, dadurch gekennzeichnet, dass das Verfahren wenigstens folgende Schritte aufweist:
  • a) Referenzbildinformation wird zuvor erstellt und gespeichert;
  • b) Parameter, die Bildinformation betreffen, werden zuvor definiert, gespeichert und der in Schritt a) gespeicherten Referenzbildinformation zugeordnet;
  • c) ein von einer Videoquelle kommendes Bild wird hinsichtlich eines oder mehrerer ausgewählter (auswähl­ barer) Bildinformationsparameter von den in Schritt b) definierten und gespeicherten Parameter extrahiert;
  • d) das Bild von Schritt c) wird basierend auf dem oder den ausgewählten Bildinformationsparameter(n) anhand der zugeordneten Referenzbildinformation editiert; und
  • e) das in Schritt d) editierte Bild wird zu einem oder mehreren Empfängern übertragen.
Die Schritte d) und e) können bei einer Ausführungsart an einem zentralen Ort ausgeführt werden, der vom sendenden Teilnehmer entfernt ist, wobei das Bild, das zugeordnete Referenzbild und der oder die Bildinformationsparameter vom Ort des sendenden Anwenders zum zentralen Ort übertragen werden.
Alternativ können die Schritte a) bis e) am Ort eines sendenden Anwenders ausgeführt werden.
Um sicher zu stellen, dass nur ein berechtigter Anwender die anwenderspezifische Optimierung durchführen und mit editierten Bildern und/oder veränderter Stimmlage auf Sendung gehen kann, weist das Verfahren einen zusätz­ lichen Schritt f) auf, mit dem zuvor gespeicherte Sprach­ proben berechtigter Anwender mit einer gesprochen Kenn­ phrase eines aktuell sendenden Anwenders verglichen werden und bei positivem Vergleichsergebnis eine Sende­ freigabe erfolgt.
Dabei wird bevorzugt im Schritt f) die gespeicherte Sprachprobe einem Referenzbild zugeordnet, das zu einem jeweiligen sendenden Anwender gehört, und letzterer wird anhand der gespeicherten Sprachprobe und des zugehörigen Referenzbildes identifiziert, wozu eine Bildanalyse und eine Sprachanalyse ausgeführt werden.
Bei der Bildanalyse werden bevorzugt charakteristische Gesichtszüge eines jeweiligen Anwenders mit einem zugehörigen Referenzbild verglichen.
Bevorzugt wird ein jeweiliger Anwender vor Ausführung des Verfahrensschritts c) als berechtigt identifiziert, die gespeicherten Referenzdaten zur Editierung des von ihm aufgenommenen Bildes und gespeicherte Sprachänderungs­ algorithmen zur Änderung der Stimmlage seiner Sprache zu verwenden.
Das erfindungsgemäße Verfahren umfasst die anwender­ spezifische Optimierung von Bewegtbildern, zweidimensio­ nalen und dreidimensionalen Bilddaten.
Vorzugsweise wird das zu übertragende Bild, das gegebenenfalls anwenderspezifisch editiert wurde, vor der Übertragung dem jeweiligen Anwender angezeigt.
Eine zur Durchführung des obigen Verfahrens zur darstellungsoptimierten Übertragung von Video- und Audiodaten eingerichtete Vorrichtung ist erfindungsgemäß dadurch gekennzeichnet, dass die Vorrichtung aufweist:
  • - Videoeingabe- und Ausgabemittel;
  • - Audioaus/eingabemittel;
  • - Sende- und Empfangsmittel;
  • - eine Schnittstelle zu einem Übertragungskanal;
  • - eine Eingabevorrichtung zur Eingabe von Steuer- und Befehlssignalen;
  • - eine Speichervorrichtung zur Speicherung von Anwender- und Systemprogrammen sowie von Referenzbilddaten und -audiodaten, wobei
die vorgenannten Mittel und Komponenten mit einer Prozessoreinheit in funktioneller Verbindung stehen, die dazu eingerichtet ist, die Verfahrensschritte in Interaktion mit den genannten Mitteln und Komponenten auszuführen.
Weitere vorteilhafte Merkmale ergeben sich aus der nachfolgenden Beschreibung bevorzugter Ausführungsbei­ spiele, die sich auf die beiliegende Zeichnung bezieht.
Zeichnung
Fig. 1 ist ein Blockdiagramm einer erfindungsgemäßen Vorrichtung zum Senden/Empfang audiovisueller Informa­ tionen mit anwenderoptimierten Inhalt.
Fig. 2 ist ein Blockdiagramm über Details der Funktions­ gruppe "Speicher" gemäß Fig. 1.
Fig. 3 ist ein Blockdiagramm von Funktionen bei der Anwendung der Vorrichtung der Fig. 1 und 2 ohne anwenderkontrollierte Optimierung.
Fig. 4 ist ein Blockdiagramm von Funktionen mit Anwendung einer anwenderkontrollierte Optimierung.
Fig. 5 ist ein Funktionsflussdiagramm von Verfahrens­ schritten, wenn keine anwenderkontrollierte Optimierung ausgeführt wird, und
Fig. 6 ist ein Funktionsflussdiagramm von Verfahrens­ schritten, wenn eine anwenderkontrollierte Optimierung ausgeführt wird.
Ausführungsbeispiele
Die Erfindung geht von dem Vorhandensein audiovisueller Kommunikationsmedien aus. Allgemeine Merkmale audio­ visueller Kommunikationsmedien sind Mikrophon und Laut­ sprecher, Videokamera und Bildschirm, eine Steuerungs­ einheit, eine Verarbeitungseinheit abgehend zur Verar­ beitung von, Audio- und Videosignalen, einer Verar­ beitungseinheit kommend zur Verarbeitung von Audio- und Videosignalen und einer Kompressionseinheit zur optimalen Ausnützung der zur Verfügung stehenden Leitungsband­ breite, z. B. über analoge und digitale Telefonnetze, paketgesteuerte Kommunikation über das Internet, interne Computernetze usw.
In der nachfolgenden Beschreibung werden die Begriffe "Teilnehmer" und "Anwender" synonym verwendet. Die vorliegende Erfindung erweitert die oben genannten Merkmale audiovisueller Kommunikationsmedien um eine Funktion, die nachfolgend "optimierende Bildverarbeitung" (kurz: OBV) genannt wird. Die erfindungsgemäße Funktion OBV kann sowohl in Videobildtelefonen, Videokonferenz­ systemen oder auf Internetprotokoll basierten Systemen angewendet werden. Es soll erwähnt werden, dass sich die Beschreibung hauptsächlich mit der anwenderkontrollierten OBV befasst, und die Sprachoptimierung nicht so detailliert behandelt wird.
Die erfindungsgemäße OBV gibt dem Teilnehmer die Möglich­ keit, 1-n optimierte Abbilder seiner gewünschten Erschei­ nung als Referenzbildinformation in einem oder auch mehreren Speichermedien abzuspeichern. Dabei können auch Speichermedien unterschiedlicher physikalischer Art zum Einsatz kommen.
Nun wird Bezug auf Fig. 1 genommen, die ein Blockdiagramm einer Vorrichtung zeigt, die zur Ausführung des erfindungsgemäßen Verfahrens, d. h. zum Senden/­ Empfang audiovisueller Informationen mit anwender­ kontrollierter Optimierung eingerichtet ist.
Gemäß Fig. 1 steht eine zentrale Prozessoreinheit 10 in funktioneller Verbindung mit einer Bildeingabeeinheit 11, z. B. einer Videokamera, mit einer Anzeigevorrichtung 12, z. B. einem PC-Monitor oder einer Flüssigkristallanzeige, mit einer Audioaus/eingabeeinrichtung 13, mit einer audiovisuellen Kommunikationseinheit 14, 15, 16, die aus einer Sendeeinheit 14, einer Empfangseinheit 15 und einer Schnittstelle 16 zu einem Telefonnetz, Funknetz, Mobilnetz oder Datennetz besteht, mit einer Schnittstelle 17 zu einem übergeordneten Speichermedium oder einem Rechner, wie z. B. einem Personalcomputer, mit einer Eingabevorrichtung 18, z. B. einer Telefontastatur oder einer separaten Tastatur und mit einem Speicher 20, in dem zumindest anwenderspezifische Programme 21 und Referenzbilder 22 und gegebenenfalls Audioreferenzdaten gespeichert sind.
Fig. 2 zeigt, dass die Speichervorrichtung 20 mehrere, auch physikalisch unterschiedliche Speichermedien auf­ weisen kann. Die optimierten Referenzinformationen, d. h. die Referenzbildinformation und die Referenzaudio­ information, werden zum einen über die Bildeingabeeinheit 11, die eine Videokamera, ein Rekorder, etc., sein kann, die Audioeingabeeinheit 13, oder von einer übergeordneten Einheit über die Schnittstelle 17 in die Speichervor­ richtung 20 übertragen. Dabei ist es von untergeordneter Rolle, ob die Anwendungen und das Bildmaterial z. B. in einem ROM-Speicher, einem RAM-Speicher oder einem Massen­ speicher wie z. B. in einer Festplatte, in Flashcards oder ähnlichen Medien zur Verfügung gestellt werden (Fig. 2). Wie erwähnt, kann der Speicher 20 auch Referenzaudioinformation enthalten, die zur anwenderkon­ trollierten Optimierung seiner Sprache verwendet werden kann. Durch die Eingabevorrichtung 18 steuert der Anwender die optimierende Bildverarbeitung, um nach seiner Wahl das zu sendende Bild oder seine Sprache zu optimieren. Die Eingabevorrichtung 17 kann z. B. eine Telefontastatur, ein separat angeschlossenes Tastaturfeld 18, eine Computermaus, ein Lichtstift, ein "graphics tablet" etc. sein.
In Fig. 2 sind Einzelheiten der Speichervorrichtung 20 sowie der darin gespeicherten anwenderspezifischen Informationsinhalte 21 und der Referenzbilder 22 gezeigt. Wie dargestellt, kann die Speichervorrichtung 20, die bei der Erfindung verwendbar ist, einen ROM-Speicher, RAM- Speicher, eine Festplatte, eine Wechselplatte, eine Floppy Disk, eine Flashcard und andere geeignete Speichermedien aufweisen. Sie kann auch eine Kombination solcher Speichermedien enthalten. In dem Inhaltsblock 21, in dem anwenderspezifische Programme und Informationen gespeichert sind, befindet sich ein Block 210 für die Benutzererkennung, ein Block 211 für die, technische Bildoptimierung mit verschiedenen Algorithmen 1, 2, . . . N, ein Block 212 für die kosmetische Erscheinungsopti­ mierung, wieder mit verschiedenen Bildbearbeitungsalgo­ rithmen 1, 2, . . . N, ein Block 213 zur Hinter­ grundbearbeitung, ein Block 214 zur Kopfbearbeitung und ein Block 215 zur Körperbearbeitung. Es muss hier bemerkt werden, dass die im anwenderspezifischen Block 21 enthaltenen und oben aufgeführten Einzelblöcke 211-215 nicht unbedingt vollständig aufgezählt wurden und dass Speicherinhalte zur Spracherkennung und weitere Inhalte, die hier nicht wesentlich sind, enthalten sein können.
Der in Fig. 2 dargestellte Block 22, der das Bild­ material, d. h. die Referenzbildinformation betrifft, enthält einen Block 221 mit Referenzhintergrundbildern 1, . . . N, einen Block 222 mit Referenzbildern 1, 2, . . . N des Kopfs und einem Block 223 mit Referenzbildern 1, 2, . . . N des Körpers des Anwenders. Es muss hier erwähnt werden, dass der Begriff "Körper" die Körperteile außerdem Kopf umfassen.
Für eine audiovisuelle Kommunikationsvorrichtung gemäß der Erfindung, die für mehrere Teilnehmer berechtigt ist, sind die Blöcke 221-223 entsprechend mehrfach vorhanden.
In Fig. 3 ist in Form eines Funktionsblockschaltbildes eine Funktionsweise ohne senderseitige optimierende Bild­ bearbeitung, d. h. ohne die erfindungsgemäße OBV. Die oben genannte OBV, die in einem Funktionsblock 40 dargestellt ist, ist deaktiviert, und das Videosignal von der Videosignalquelle geht direkt zu einem Kodierungs­ block 41.
Dagegen zeigt Fig. 4 in Form eines Funktionsblock­ schaltbildes den Fall, wo eine optimierende Bildver­ arbeitung ausgeführt wird.
Vor der Sendung wird das von einer Videosignalquelle 11 erhaltene Videosignal zur Vorbereitung der Optimierung im Sinne der Erfindung durch einen Inhaltserkennungsblock 30 in einzelne Ebenen 31-33 (englisch: "layers") aufge­ schlüsselt. Die Ebenen 31-33 sind hier nur zum Zwecke des besseren Verständnisses als Ebene 1 (Hintergrund), Ebene 2 (Körper) und Ebene 3 (Kopf) bezeichnet. Diese Ebenen entsprechen den im Speicherbereich 22 gespeicherten Schichten Hintergrund 221, Kopf 222 und Körper 223 (vergleiche Fig. 2). Diese Begriffe Hintergrund, Körper, Kopf dienen somit nur zur Veranschaulichung der Erfindung. Je nach Größe des bereitgestellten Speichers können weitere Ebenen zur weiteren Detaillierung definiert sein. Ebenfalls zur Veranschaulichung des Ver­ fahrens wird eine weitere, gestrichelt eingezeichnete, Spezialebene 34 definiert, die wahlweise zugeschaltet werden kann. Die beschriebenen Ebenen 31-34 werden aus dem Videosignalstrom von der Videosignalquelle 11, z. B. von der Videokamera, mit Bildverarbeitungsalgorithmen im Inhaltserkennungsblock 30 herausgelöst und separat in logischen Speicherebenen verwaltet. Findet eine audio­ visuelle Kommunikation statt, werden je nach Einstellung des Anwenders alle oder einzelne Ebenen durch Bild­ information aus dem Speicher 22 ersetzt. Im Beispiel von Fig. 4 werden die Ebenen 31 und 32, betreffend Hintergrund und Referenzkopf, ersetzt durch ein Referenz­ hintergrundbild 2 und ein Kopfbild 3 aus den Speicher­ bereichen 221 und 222. Die Steuerung der eingesetzten Bildinformation wird durch Referenzmarken sichergestellt.
Als Beispiel soll das Gesicht dienen. Die erkannten Referenzmarken werden zur Steuerung der einzusetzenden Bildinformation der Ebene "Kopf" verwendet. Bewegt der Anwender den Kopf, wenn er z. B. zustimmend nickt, so führt das optimierte Bild die gleiche Bewegung aus. Ist die Ebene "Körper" aktiviert, wird die aktuelle Ebene "Körper" durch eines der gespeicherten Körperreferenz­ bilder im Bereich 223 ersetzt. Alle Ebenen zusammen­ gesetzt bilden das zu sendende optimierte Videobild.
Es muss hier bemerkt werden, dass die Bezeichnung "Ebene" nicht bedeutet, dass mit dem erfindungsgemäßen Verfahren verarbeitete bzw. editierte Bildinformation nur zweidi­ mensional sein kann. Statt dessen können auch drei­ dimensionale Bildinformationen verarbeitet werden.
Das neu zusammengesetzte Videobild wird jetzt technisch hinsichtlich Farbwerte, Kontraste, Helligkeit nach vor­ eingestellten oder voreinstellbaren Parametern optimiert (siehe Block 42 in Fig. 4).
In einer weiteren Funktionseinheit 43, die kosmetische Bildoptimierung genannt ist, werden bevorzugt im Gesichtsbereich kosmetische Verbesserungen vorgenommen. Dazu gehört das Aufhellen der Augen und die Augenwinkel­ korrektur, Aufhellen des Zahnbereichs, Schattenaufhellung (z. B. bei Bartwuchs und bei großflächigen Pigment­ veränderungen der Haut) und das Wegretuschieren von nicht gewünschten kleinen Pigmentstörungen, wie z. B. Warzen.
Das so optimierte Videosignal wird an die Kodierungs­ einheit 41 weitergegeben und schließlich an den oder die Empfänger gesendet.
Nachstehend werden bezogen auf die Fig. 5 und 6 Kommunikationsschritte unter Einsatz des erfindungs­ gemäßen Verfahrens beschrieben. Zunächst wird eine Kommunikationsverbindung von außerhalb beschrieben. Die audiovisuelle Kommunikationsvorrichtung (Fig. 1) erhält ein Signal von der Gegenseite zum Aufbau einer Ver­ bindung. Dem Stand der Technik entsprechende Kommunika­ tionssysteme übermitteln eine sog. Anruferkennung (englisch: "Caller Recognition"). Bei eingehendem Anruf (Schritt 51) wird die Anruferkennung überprüft (Schritt 53). Dies erfolgt durch Vergleich der übermittelten Anruferkennung mit einem Teilnehmerverzeichnis 52 (Telefonbuch mit Teilnehmeradressen), das im Speicher gespeichert ist. Den Einträgen des Teilnehmerver­ zeichnisse 52 können bestimmte OBV-Konfigurationen zuge­ ordnet werden. Im vorgestellten Beispiel wird davon ausgegangen, dass der Anrufer entweder keinen Eintrag im Teilnehmerverzeichnis 52 hat oder dass dem Eintrag im Teilnehmerverzeichnis 52 die OBV-Konfiguration "Büro" zugeordnet wurde. In diesen Fällen wird das Signal der Videokamera 11 an den Inhaltserkennungsfunktionsblock 30 weitergeleitet, der Schritt 57 berechnet die Ebenen (31-34 in Fig. 4), die im Schritt 58 mit den Referenzinformationen der OBV-Konfiguration "Büro" in Echtzeit zusammengesetzt werden. Danach wird die bereits erwähnte kosmetische Bildoptimierung 43 und die technische Bildoptimierung 42 ausgeführt. Nach der technischen Bildoptimierung 42 entsteht im Block 40 das optimierte Videobild nach den voreingestellten Parameter­ werten in Zuordnung zum Teilnehmereintrag im Verzeichnis 52. Die Signale, d. h. die optimierten Bilder und Audiosignale werden anschließend je nach Kommunikations­ protokoll im Funktionsblock 41 kodiert und übertragen.
Nun wird bezogen auf Fig. 5 der Fall betrachtet, dass a) der gewünschte Teilnehmer dem Teilnehmerverzeichnis 52 bekannt ist (Ausgang "JA" des Vergleichsschritts 53) und dass b) dem Teilnehmer die OBV-Konfiguration "Privat" zugeordnet ist (Schritt 55). Dann wird das unbearbeitete Videosignal, d. h. ohne OBV, der Kodierungseinheit 41 übermittelt.
Anschließend wird Bezug auf Fig. 6 genommen, die einen Verbindungsaufbau vom vorliegenden Anwender darstellt. Wenn der vorliegende Anwender eine Kommunikation aufbauen möchte, hat er die Möglichkeit, einen Teilnehmer aus dem Teilnehmerverzeichnis auszuwählen (Schritt 62) oder den entsprechenden Teilnehmercode manuell einzugeben (Schritt 61). Gesetzt der Fall, der gewünschte Teilnehmer wird aus dem Teilnehmerverzeichnis 62 gewählt, lautet die Antwort auf die im Schritt 64 gestellte Frage: Code ID bekannt? "Ja". Dann wird nach Maßgabe des OBV-Parameters im Teilnehmerverzeichnis 62 die OBV-Konfiguration "Freizeit" aktiviert (Schritt 66). In diesem Fall wünscht der An­ wender nur eine kosmetische Bildoptimierung im Funktions­ block 43 und die technische Bildoptimierung im Funktions­ block 42. Das hierdurch veränderte Videosignal wird sodann nach den Erfordernissen des Kommunikations­ protokolls im Funktionsblock 41 kodiert.
Anschließend wird ein Beispiel beschrieben, wo der Anwender den erforderlichen Verbindungscode im Schritt 61 manuell über die Eingabeeinheit 18 (Fig. 1) eingibt. Die im Abfrageschritt 64 ausgeführte Überprüfung der manuell eingegebenen Teilnehmernummer oder -adresse ergibt im Beispiel eine negative Antwort bei der Abfrage 64. Daraufhin aktiviert die OBV die Konfiguration "Büro". Daraufhin wird die komplette Bildbearbeitung, d. h. Optimierung der Bildinformation und gegebenenfalls der Audioinformation ausgeführt. Die Ausführung der Opti­ mierung der Audioinformation ist in den Fig. 5 und 6 nicht dargestellt. Das editierte Signal wird dann an die Kodierungseinheit 41 weitergegeben.
Abgesehen von dieser automatischen Auswahl zwischen der vollständigen OBV-Funktion und der "rudimentären Edi­ tierung" der Bildinformation durch die kosmetische Bildoptimierung 43 und die technische Bildoptimierung 42, hat der Anwender jederzeit die Möglichkeit, über die Eingabeeinheit 18 die OBV-Konfiguration während einer Kommunikation zu aktivieren oder zu deaktivieren.
Das vorbeschriebene erfindungsgemäße Verfahren kann auch dazu verwendet werden, um z. B. Gesichter anderer Menschen oder gänzlich künstlich erstellte Charaktere zu übertragen. Dabei kann der Anwender als "Animateur" auftreten. Die durch die Erfindung ermöglichte Durch­ führung solcher "Animationen" ist wahrscheinlich kommer­ ziellen Anwendung vorbehalten. Hier wird z. B. vom Wunsch von Unternehmen ausgegangen, einen bestimmten Charakter als Marke zu etablieren. Zur Veranschaulichung sei der Charakter "Herr Kaiser" eines Versicherungsunternehmens und außerdem der Charakter "Micky Maus" der Walt Disney Corporation angeführt. Eine kommerzielle Anwendung ist hierbei die Bereitstellung einer erfindungsgemäßen OBV für Telefonagenturen. Unternehmen beauftragen Telefon­ agenturen, um Kundenanfragen und -wünsche zu beantworten oder aufzunehmen. Kunden des oben als Beispiel ange­ führten Versicherungsunternehmens kommunizieren auf diese Weise audiovisuell mit dem durch OBV etablierten Sympathieträger des Unternehmens. Kinder und Jugendliche können über sympathische Comicfiguren, wie z. B. Micky Maus, durch das Unternehmen Informationen über spezielle Aktionen und Tips zur Freizeitgestaltung erfahren.
Um einen Missbrauch des vorbeschriebenen Verfahrens zu unterbinden, stehen Algorithmen zur Gesichtserkennung zur Verfügung. Die Gesichtserkennung ist Bestandteil der Steuerung der oben beschriebenen Ebene "Kopf". Sofern der Anwender nicht die gleichen charakteristischen Gesichts­ merkmale wie das abgespeicherte Kopfbild hat, wird das Videosignal uneditiert an die Kodierungseinheit zur Sendung weitergegeben.
Weiterhin enthält das vorbeschriebene Verfahren zur Aus­ wahl von berechtigten Teilnehmern Spracherkennungsalgo­ rithmen, welche vor allem in kommerziellen Anwendungen aktiviert sind. Ein aktueller Teilnehmer spricht eine Kennphrase, die mit gespeicherten Sprachproben verglichen wird. Ergibt sich eine Übereinstimmung, kann zusätzlich noch eine Korrelation mit der erwähnten Bilderkennung anhand eines gespeicherten Kopfbildes hergestellt werden. Somit ist ein Missbrauch der Erfindung durch Personen­ verwechslung oder Vortäuschung von anderen Personen ausgeschlossen.

Claims (16)

1. Verfahren zur darstellungsoptimierten Über­ tragung von Videodaten und/oder Audiodaten, insbesondere beim Bildfernsprechen, bei dem von einer Video- und Audioquelle kommende Bild- und Audiodaten vor ihrer Übertragung zu einem Empfänger anhand von Referenzinformation entsprechend wenigstens einem vorbestimmten oder vorbestimmbaren Kriterium verändert werden, dadurch gekennzeichnet, dass das Verfahren wenigstens folgende Schritte aufweist:
  • a) Referenzbildinformation wird zuvor erstellt und gespeichert;
  • b) Parameter, die Bildinformation betreffen, werden zuvor definiert, gespeichert und der in Schritt a) gespeicherten Referenzbildinformation zugeordnet;
  • c) ein von einer Videoquelle kommendes Bild wird hinsichtlich eines oder mehrerer ausgewählter (auswählbarer) Bildinformationsparameter von den in Schritt b) definierten und gespeicherten Parameter extrahiert;
  • d) das Bild von Schritt c) wird basierend auf dem oder den ausgewählten Bildinformationsparameter(n) anhand der zugeordneten Referenzbildinformation editiert; und
  • e) das in Schritt d) editierte Bild wird zu einem oder mehreren Empfängern übertragen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Schritte d) und e) an einem zentralen Ort ausgeführt werden, der vom sendenden Anwender entfernt ist, wobei das Bild, das zugeordnete Referenzbild und der oder die Bildinformationsparameter vom Ort des sendenden Anwenders zum zentralen Ort übertragen werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Schritte a) bis e) am Ort eines sendenden Anwenders ausgeführt werden.
4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass es einen zusätzlichen Schritt f) aufweist, mit dem zuvor gespeicherte Sprach­ proben berechtigter Anwender mit einer gesprochenen Kenn­ phase eines aktuell sendenden Anwenders verglichen werden und bei positivem Vergleichsergebnis eine Sende­ freigabe für diesen Anwender erfolgt.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass in Schritt f) außerdem die gespeicherte Sprachprobe einem Referenzbild, das zu einem jeweils sendenden Anwender gehört, oder als zu ihm gehörig ausgewählt wurde, zugeordnet wird, und der jeweilige sendende Anwender anhand der gespeicherten Sprachprobe und des zugehörigen Referenzbildes identifiziert wird.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekenn­ zeichnet, dass in Schritt f) eine Sprachanalyse der gesprochenen Kennphrase und eine Bildanalyse des von der Videoquelle kommenden Bildes ausgeführt werden.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei der Bildanalyse charakteristische Gesichtszüge eines jeweiligen sendenden Anwenders mit einem zuge­ hörigen oder ausgewählten Referenzbild verglichen werden.
8. Verfahren nach einem der Ansprüche 5-7, dadurch gekennzeichnet, dass der jeweilige sendende Anwender vor Ausführung des Schrittes c) als berechtigt identifiziert wird, gespeicherte Referenzinformation zur audiovisuellen Kommunikation zu verwenden.
9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die zu verarbeitenden Bild­ daten, die analysierte und editierte Bildinformation Bewegtbilder, zweidimensionale und dreidimensionale Bild­ information umfassen.
10. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das zu übertragende Bild vor der Übertragung dem sendenden Anwender angezeigt wird.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Anzeige eine interaktive Benutzeroberfläche aufweist, die auch die auswählbaren und/oder ausgewählten Referenzbilder sowie die auswählbaren oder ausgewählten Bildinformationsparameter anzeigt.
12. Verwendung des Verfahrens nach einem der Ansprüche 1-11 zur darstellungsoptimierten Übertragung von Video- und/oder Audiodaten beim Bildfernsprechen.
13. Verwendung des Verfahrens nach einem der Ansprüche 1-11 zur darstellungsoptimierten Übertragung von Video- und/oder Audiodaten bei Videokonferenzen.
14. Verwendung des Verfahrens nach einem der Ansprüche 1-11 zur darstellungsoptimierten Übertragung von Video- und/oder Audiodaten über Computernetze.
15. Vorrichtung zur darstellungsoptimierten Übertragung von Video- und/oder Audiodaten, insbesondere zur Durchführung des Verfahrens nach einem der Ansprüche 1-14, dadurch gekennzeichnet, dass die Vorrichtung aufweist:
  • - Videoeingabe- und Ausgabemittel (11, 12);
  • - Audioaus/eingabemittel (13);
  • - Sende- und Empfangsmittel (14, 15);
  • - eine Schnittstelle (16) zu einem Übertragungskanal;
  • - eine Eingabevorrichtung (18) zur Eingabe von Steuer- und Befehlssignalen;
  • - eine Speichervorrichtung (20) zur Speicherung von Anwender- und Systemprogrammen sowie von Referenz­ bilddaten und -audiodaten, wobei
  • - die vorgenannten Mittel und Komponenten mit einer Prozessoreinheit (10) in funktioneller Verbindung stehen, die dazu eingerichtet ist, die Verfahrensschritte in Interaktion mit den genannten Mitteln und Komponenten auszuführen.
16. Vorrichtung nach Anspruch 15, dadurch gekenn­ zeichnet, dass sie weiterhin eine mit der Prozessor­ einheit (10) in Verbindung stehende Schnittstelle (17) aufweist zur Verbindung mit einer übergeordneten Ver­ waltungseinheit und/oder einem übergeordneten Speicher­ medium, z. B. mit einem "Personal Computer".
DE19948546A 1999-02-16 1999-10-08 Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten Withdrawn DE19948546A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE19948546A DE19948546A1 (de) 1999-02-16 1999-10-08 Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten
PCT/DE2000/000442 WO2000049806A1 (de) 1999-02-16 2000-02-16 Videokommunikationsvorrichtung, -system und -verfahren
JP2000600429A JP2002537734A (ja) 1999-02-16 2000-02-16 ビデオ通信のための装置、システム及び方法
EP00915108A EP1192807A1 (de) 1999-02-16 2000-02-16 Videokommunikationsvorrichtung, -system und -verfahren
AU36547/00A AU3654700A (en) 1999-02-16 2000-02-16 Video communications device, system and method
IL14487800A IL144878A0 (en) 1999-02-16 2000-02-16 Video communications device, system and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19906472 1999-02-16
DE19948546A DE19948546A1 (de) 1999-02-16 1999-10-08 Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten

Publications (1)

Publication Number Publication Date
DE19948546A1 true DE19948546A1 (de) 2000-08-17

Family

ID=7897695

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19948546A Withdrawn DE19948546A1 (de) 1999-02-16 1999-10-08 Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten

Country Status (1)

Country Link
DE (1) DE19948546A1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10062503A1 (de) * 2000-10-04 2002-04-11 Margit Frank Media Art Gmbh Vorrichtung zur Bildwiedergabe
WO2002035811A2 (de) * 2000-10-25 2002-05-02 Siemens Aktiengesellschaft Kommunikationsendgerät
DE10156954A1 (de) * 2001-11-20 2003-06-18 Daimler Chrysler Ag Bildgestützte adaptive Akustik
BE1022303B1 (nl) * 2014-12-15 2016-03-14 Televic Conference Deelnemerseenheid voor een Multimedia Conferentiesysteem

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10062503A1 (de) * 2000-10-04 2002-04-11 Margit Frank Media Art Gmbh Vorrichtung zur Bildwiedergabe
WO2002035811A2 (de) * 2000-10-25 2002-05-02 Siemens Aktiengesellschaft Kommunikationsendgerät
WO2002035811A3 (de) * 2000-10-25 2003-01-09 Siemens Ag Kommunikationsendgerät
DE10156954A1 (de) * 2001-11-20 2003-06-18 Daimler Chrysler Ag Bildgestützte adaptive Akustik
DE10156954B4 (de) * 2001-11-20 2004-12-23 Daimlerchrysler Ag Bildgestützte adaptive Akustik
DE10156954B9 (de) * 2001-11-20 2005-07-14 Daimlerchrysler Ag Bildgestützte adaptive Akustik
BE1022303B1 (nl) * 2014-12-15 2016-03-14 Televic Conference Deelnemerseenheid voor een Multimedia Conferentiesysteem

Similar Documents

Publication Publication Date Title
DE112010005264T5 (de) GUI für mehrere Anwender
EP0814611A2 (de) Kommunikationssystem und Verfahren zur Aufnahme und Verwaltung digitaler Bilder
DE112017005879T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
EP1198957B1 (de) Mobile Bildaufnahme, Retinaprojektion von gemäss Augenposition eines Benutzers ermittelten Bilddaten, sowie Wiedergabe von aus den ermittelten Bilddaten gewonnener Nutzinformation
DE102014004069A1 (de) Verfahren, Softwareprodukt und Vorrichtung zur Steuerung einer Konferenz
EP1252769B1 (de) System und verfahren zur verbreitung von bildobjekten
DE102019126688A1 (de) System und verfahren zur automatischen untertitelanzeige
DE19948546A1 (de) Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten
EP2950500B1 (de) Verfahren und System zum Aufbau von Echtzeit-Audioverbindungen
EP1976291B1 (de) Verfahren und videokommunikationssystem zur Gestik-basierten Echtzeit-Steuerung eines Avatars
EP1560140A1 (de) Verfahren und System zur elektronischen Interaktion in einem Netzwerk
DE10336320A1 (de) Ubiquitäre Dienste
EP1192807A1 (de) Videokommunikationsvorrichtung, -system und -verfahren
DE202008003015U1 (de) Mobile Telekommunikationseinrichtung zum Übertragen und Übersetzen von Informationen
DE19734511A1 (de) Kommunikationseinrichtung
EP3261320B1 (de) System und verfahren zur kommunikation unter einbeziehung einer digitalen aura eines nutzers
EP3859581A1 (de) Computerimplementiertes autorisierungsverfahren
DE102018201711A1 (de) Anordnung und verfahren zum bereitstellen von informationen bei einer kopftragbaren erweiterte-realität-vorrichtung
DE102021130955A1 (de) Computer-implementiertes Videokonferenz-Verfahren
WO2002078351A1 (de) Verfahren und vorrichtung zur übertragung von video- und/oder audiodaten
DE102020209058A1 (de) Verfahren und System zur Kommunikation zwischen Endgeräten
DE102023005306A1 (de) Verfahren und Fahrzeug zum Teilnehmen an Gesprächsrunden
EP2337326B1 (de) Verfahren und Vorrichtung zur Hervorhebung ausgewählter Objekte in Bild- und Videonachrichten
DE69933164T2 (de) Verfahren zur kooperativen Teleheimarbeit und Vorrichtung zur Durchführung des Verfahrens
WO2002043388A1 (de) Telekommunikationseinrichtungen und -verfahren

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee