DE19948546A1 - Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten - Google Patents
Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und AudiodatenInfo
- Publication number
- DE19948546A1 DE19948546A1 DE19948546A DE19948546A DE19948546A1 DE 19948546 A1 DE19948546 A1 DE 19948546A1 DE 19948546 A DE19948546 A DE 19948546A DE 19948546 A DE19948546 A DE 19948546A DE 19948546 A1 DE19948546 A1 DE 19948546A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- video
- image information
- user
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims description 40
- 238000004891 communication Methods 0.000 claims abstract description 24
- 230000006854 communication Effects 0.000 claims abstract description 24
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000010191 image analysis Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 13
- 210000003128 head Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000002537 cosmetic Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000000049 pigment Substances 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000005282 brightening Methods 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Die Erfindung betrifft ein Verfahren und eine Vorrichtung für die ästhetische und inhaltliche Veränderung und Optimierung des Videoinhalts und Audioinhalts zwischen zwei oder mehr Teilnehmern einer audiovisuellen Kommunikationsverbindung, wie Bildtelefon über Festanschluss, Bildtelefon über Short-Range und Long-Range Funkverbindung sowie andere audiovisuelle Kommunikationsmittel, z. B. über Personalcomputer, die in einem Netz verbunden sind. Von einer Videosignalquelle (11) kommende Bilder eines Teilnehmers werden einer Inhaltserkennung (30) unterworfen und in verschiedene Ebenen (31-34) unterteilt, wie z. B. in Hintergrund, Körper, Kopf. Dabei kann nach Wahl des Anwenders eine oder mehrere dieser Ebenen durch ein in einem Speicher abgelegtes Referenzbild oder mehrere Referenzbilder ersetzt werden. Dies geschieht in einer "optimierenden Bildverarbeitung" (40). Zusätzlich kann eine technische und kosmetische Bildoptimierung (42, 43) ausgeführt werden. Das erfindungsgemäße Verfahren enthält zudem Algorithmen zur Erkennung von Gesichtszügen eines Teilnehmers sowie zur Spracherkennung, so dass durch Vergleich des abgespeicherten Referenzgesichtsbildes mit dem Gesicht des Teilnehmers sowie einer Kennungsphrase mit abgespeicherten Sprachproben ermittelt werden kann, ob ein aktueller Anwender berechtigt ist oder nicht.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung
zur darstellungsoptimierten Übertragung von Video- und
Audiodaten gemäß den Oberbegriffen der Patentansprüche 1
und 15.
Es gibt bereits Kommunikationsdienste und -systeme, die
neben dem auditiven Bereich auch visuelle Medien bzw.
Kanäle zur Übermittlung von Ton- und Bildinformation
anbieten.
Bereits heute kommen z. B. bei Videokonferenzsystemen
Bildbearbeitungsalgorithmen zum Einsatz (WO 96/09 722).
Die DE-04 02 895 C1 beschreibt ein Verfahren und eine
Vorrichtung zur Korrektur des Augenwinkels bei Arbeits
platzvideosystemen. Hier wird der Augenbereich eines
Anwenders editiert, um den Eindruck zu erwecken, man sehe
direkt in die Kamera statt auf den Monitor. Diese
Editierfunktion arbeitet unbemerkt vom Sender und
Empfänger der Übermittlung.
Es ist weiterhin bekannt, dass es im Fernsehbereich
Verfahren gibt, die Informationen vor der Weitergabe an
die Sendeeinheit in Echtzeit oder fast in Echtzeit zu
verändern. Vorteil dabei ist, dass die geänderten
Informationen der vom Ersteller gewünschten Darstellung
entsprechen bzw. nahe kommen. Zu diesen Verfahren gehört
"Blue Box", "Maskierung" und "Automaskierung".
Wie bekannt, übertragen die oben genannten audiovisuellen
Kommunikationsdienste und -systeme mehr Informationen als
das Telefon. Zu diesen Informationen zählen unter anderem
das Erscheinungsbild des sendenden Teilnehmers, seine
Körpersprache, Mimik und Gestik sowie die Umgebung, die
von der Videokamera eingefangen werden kann. Dabei
entsteht jedoch das Problem, dass die Übertragung dieser
visuellen Informationen zu psychologischen Hemmschwellen
bei der Nutzung der oben genannten audiovisuellen
Kommunikationsdienste und -systeme führt. Es gilt als
sicher, dass diese psychologischen Hemmschwellen zum
großen Teil dazu beigetragen haben, dass sich
beispielsweise das Bildtelefon immer noch nicht auf dem
Markt durchgesetzt hat.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde,
ein Verfahren und eine Vorrichtung zu ermöglichen, die
Anwendern der genannten audiovisuellen
Kommunikationsdienste und -systeme die Kontrolle über den
Austausch selbstbezogener Informationen ermöglicht.
Diese Aufgabe wird durch ein Verfahren und eine
Vorrichtung jeweils mit den Merkmalen und Mitteln der
Ansprüche 1 und 15 gelöst.
Dem sendenden Teilnehmer von audiovisuellen Kommunika
tionssignalen wird durch die Erfindung die Möglichkeit
gegeben, den Inhalt so zu beeinflussen, dass der
gesendete Inhalt der Vorstellung des sendenden Teil
nehmers über seine Darstellung nahekommt bzw. mit seiner
Vorstellung übereinstimmt. Damit wird folgender Nachteil
der bishergen audiovisuellen Kommunikation überwunden:
Der sendende Teilnehmer einer audiovisuellen Nachricht
kann unabhängig von seiner derzeitigen Erscheinung, z. B.
morgens nach dem Aufstehen, bei Krankheit, Missgestal
tungen des Gesichts oder trotz eines aus anderen Gründen
unvorteilhaften Erscheinungsbildes ungehindert kommuni
zieren.
Durch die Verwendung der vorliegenden Erfindung, z. B.
bei der Bildtelefonie, bei Videokonferenzen, Arbeits
platzkonferenzen, Internet-Konferenzen, etc. stellt ein
jeweiliger Teilnehmer an einer audiovisuellen Kommuni
kation sicher, dass sein Erscheinungsbild und die von der
Kamera ebenfalls eingefangene Umgebung beim empfangenden
Teilnehmer seinem inneren Selbstwertverständnis ent
spricht. Somit schützt die Verwendung der vorliegenden
Erfindung die Privat- und Intimsphäre.
Gemäß einem wesentlichen Aspekt der Erfindung ist ein die
obige Aufgabe lösendes Verfahren zur darstellungs
optimierten Übertragung von Videodaten und/oder Audio
daten, insbesondere beim Bildfernsprechen, bei dem von
einer Video- und Audioquelle kommende Bild- und Audio
daten vor ihrer Übertragung zu einem Empfänger anhand von
Referenzinformation entsprechend wenigstens einem vorbe
stimmten oder vorbestimmbaren Kriterium verändert werden,
dadurch gekennzeichnet, dass das Verfahren wenigstens
folgende Schritte aufweist:
- a) Referenzbildinformation wird zuvor erstellt und gespeichert;
- b) Parameter, die Bildinformation betreffen, werden zuvor definiert, gespeichert und der in Schritt a) gespeicherten Referenzbildinformation zugeordnet;
- c) ein von einer Videoquelle kommendes Bild wird hinsichtlich eines oder mehrerer ausgewählter (auswähl barer) Bildinformationsparameter von den in Schritt b) definierten und gespeicherten Parameter extrahiert;
- d) das Bild von Schritt c) wird basierend auf dem oder den ausgewählten Bildinformationsparameter(n) anhand der zugeordneten Referenzbildinformation editiert; und
- e) das in Schritt d) editierte Bild wird zu einem oder mehreren Empfängern übertragen.
Die Schritte d) und e) können bei einer Ausführungsart an
einem zentralen Ort ausgeführt werden, der vom sendenden
Teilnehmer entfernt ist, wobei das Bild, das zugeordnete
Referenzbild und der oder die Bildinformationsparameter
vom Ort des sendenden Anwenders zum zentralen Ort
übertragen werden.
Alternativ können die Schritte a) bis e) am Ort eines
sendenden Anwenders ausgeführt werden.
Um sicher zu stellen, dass nur ein berechtigter Anwender
die anwenderspezifische Optimierung durchführen und mit
editierten Bildern und/oder veränderter Stimmlage auf
Sendung gehen kann, weist das Verfahren einen zusätz
lichen Schritt f) auf, mit dem zuvor gespeicherte Sprach
proben berechtigter Anwender mit einer gesprochen Kenn
phrase eines aktuell sendenden Anwenders verglichen
werden und bei positivem Vergleichsergebnis eine Sende
freigabe erfolgt.
Dabei wird bevorzugt im Schritt f) die gespeicherte
Sprachprobe einem Referenzbild zugeordnet, das zu einem
jeweiligen sendenden Anwender gehört, und letzterer wird
anhand der gespeicherten Sprachprobe und des zugehörigen
Referenzbildes identifiziert, wozu eine Bildanalyse und
eine Sprachanalyse ausgeführt werden.
Bei der Bildanalyse werden bevorzugt charakteristische
Gesichtszüge eines jeweiligen Anwenders mit einem
zugehörigen Referenzbild verglichen.
Bevorzugt wird ein jeweiliger Anwender vor Ausführung des
Verfahrensschritts c) als berechtigt identifiziert, die
gespeicherten Referenzdaten zur Editierung des von ihm
aufgenommenen Bildes und gespeicherte Sprachänderungs
algorithmen zur Änderung der Stimmlage seiner Sprache zu
verwenden.
Das erfindungsgemäße Verfahren umfasst die anwender
spezifische Optimierung von Bewegtbildern, zweidimensio
nalen und dreidimensionalen Bilddaten.
Vorzugsweise wird das zu übertragende Bild, das
gegebenenfalls anwenderspezifisch editiert wurde, vor der
Übertragung dem jeweiligen Anwender angezeigt.
Eine zur Durchführung des obigen Verfahrens zur
darstellungsoptimierten Übertragung von Video- und
Audiodaten eingerichtete Vorrichtung ist erfindungsgemäß
dadurch gekennzeichnet, dass die Vorrichtung aufweist:
- - Videoeingabe- und Ausgabemittel;
- - Audioaus/eingabemittel;
- - Sende- und Empfangsmittel;
- - eine Schnittstelle zu einem Übertragungskanal;
- - eine Eingabevorrichtung zur Eingabe von Steuer- und Befehlssignalen;
- - eine Speichervorrichtung zur Speicherung von Anwender- und Systemprogrammen sowie von Referenzbilddaten und -audiodaten, wobei
die vorgenannten Mittel und Komponenten mit einer
Prozessoreinheit in funktioneller Verbindung stehen, die
dazu eingerichtet ist, die Verfahrensschritte in
Interaktion mit den genannten Mitteln und Komponenten
auszuführen.
Weitere vorteilhafte Merkmale ergeben sich aus der
nachfolgenden Beschreibung bevorzugter Ausführungsbei
spiele, die sich auf die beiliegende Zeichnung bezieht.
Fig. 1 ist ein Blockdiagramm einer erfindungsgemäßen
Vorrichtung zum Senden/Empfang audiovisueller Informa
tionen mit anwenderoptimierten Inhalt.
Fig. 2 ist ein Blockdiagramm über Details der Funktions
gruppe "Speicher" gemäß Fig. 1.
Fig. 3 ist ein Blockdiagramm von Funktionen bei der
Anwendung der Vorrichtung der Fig. 1 und 2 ohne
anwenderkontrollierte Optimierung.
Fig. 4 ist ein Blockdiagramm von Funktionen mit
Anwendung einer anwenderkontrollierte Optimierung.
Fig. 5 ist ein Funktionsflussdiagramm von Verfahrens
schritten, wenn keine anwenderkontrollierte Optimierung
ausgeführt wird, und
Fig. 6 ist ein Funktionsflussdiagramm von Verfahrens
schritten, wenn eine anwenderkontrollierte Optimierung
ausgeführt wird.
Die Erfindung geht von dem Vorhandensein audiovisueller
Kommunikationsmedien aus. Allgemeine Merkmale audio
visueller Kommunikationsmedien sind Mikrophon und Laut
sprecher, Videokamera und Bildschirm, eine Steuerungs
einheit, eine Verarbeitungseinheit abgehend zur Verar
beitung von, Audio- und Videosignalen, einer Verar
beitungseinheit kommend zur Verarbeitung von Audio- und
Videosignalen und einer Kompressionseinheit zur optimalen
Ausnützung der zur Verfügung stehenden Leitungsband
breite, z. B. über analoge und digitale Telefonnetze,
paketgesteuerte Kommunikation über das Internet, interne
Computernetze usw.
In der nachfolgenden Beschreibung werden die Begriffe
"Teilnehmer" und "Anwender" synonym verwendet. Die
vorliegende Erfindung erweitert die oben genannten
Merkmale audiovisueller Kommunikationsmedien um eine
Funktion, die nachfolgend "optimierende Bildverarbeitung"
(kurz: OBV) genannt wird. Die erfindungsgemäße Funktion
OBV kann sowohl in Videobildtelefonen, Videokonferenz
systemen oder auf Internetprotokoll basierten Systemen
angewendet werden. Es soll erwähnt werden, dass sich die
Beschreibung hauptsächlich mit der anwenderkontrollierten
OBV befasst, und die Sprachoptimierung nicht so
detailliert behandelt wird.
Die erfindungsgemäße OBV gibt dem Teilnehmer die Möglich
keit, 1-n optimierte Abbilder seiner gewünschten Erschei
nung als Referenzbildinformation in einem oder auch
mehreren Speichermedien abzuspeichern. Dabei können auch
Speichermedien unterschiedlicher physikalischer Art zum
Einsatz kommen.
Nun wird Bezug auf Fig. 1 genommen, die ein
Blockdiagramm einer Vorrichtung zeigt, die zur Ausführung
des erfindungsgemäßen Verfahrens, d. h. zum Senden/
Empfang audiovisueller Informationen mit anwender
kontrollierter Optimierung eingerichtet ist.
Gemäß Fig. 1 steht eine zentrale Prozessoreinheit 10 in
funktioneller Verbindung mit einer Bildeingabeeinheit 11,
z. B. einer Videokamera, mit einer Anzeigevorrichtung 12,
z. B. einem PC-Monitor oder einer Flüssigkristallanzeige,
mit einer Audioaus/eingabeeinrichtung 13, mit einer
audiovisuellen Kommunikationseinheit 14, 15, 16, die aus
einer Sendeeinheit 14, einer Empfangseinheit 15 und einer
Schnittstelle 16 zu einem Telefonnetz, Funknetz,
Mobilnetz oder Datennetz besteht, mit einer Schnittstelle
17 zu einem übergeordneten Speichermedium oder einem
Rechner, wie z. B. einem Personalcomputer, mit einer
Eingabevorrichtung 18, z. B. einer Telefontastatur oder
einer separaten Tastatur und mit einem Speicher 20, in
dem zumindest anwenderspezifische Programme 21 und
Referenzbilder 22 und gegebenenfalls Audioreferenzdaten
gespeichert sind.
Fig. 2 zeigt, dass die Speichervorrichtung 20 mehrere,
auch physikalisch unterschiedliche Speichermedien auf
weisen kann. Die optimierten Referenzinformationen, d. h.
die Referenzbildinformation und die Referenzaudio
information, werden zum einen über die Bildeingabeeinheit
11, die eine Videokamera, ein Rekorder, etc., sein kann,
die Audioeingabeeinheit 13, oder von einer übergeordneten
Einheit über die Schnittstelle 17 in die Speichervor
richtung 20 übertragen. Dabei ist es von untergeordneter
Rolle, ob die Anwendungen und das Bildmaterial z. B. in
einem ROM-Speicher, einem RAM-Speicher oder einem Massen
speicher wie z. B. in einer Festplatte, in Flashcards
oder ähnlichen Medien zur Verfügung gestellt werden
(Fig. 2). Wie erwähnt, kann der Speicher 20 auch
Referenzaudioinformation enthalten, die zur anwenderkon
trollierten Optimierung seiner Sprache verwendet werden
kann. Durch die Eingabevorrichtung 18 steuert der
Anwender die optimierende Bildverarbeitung, um nach
seiner Wahl das zu sendende Bild oder seine Sprache zu
optimieren. Die Eingabevorrichtung 17 kann z. B. eine
Telefontastatur, ein separat angeschlossenes Tastaturfeld
18, eine Computermaus, ein Lichtstift, ein "graphics
tablet" etc. sein.
In Fig. 2 sind Einzelheiten der Speichervorrichtung 20
sowie der darin gespeicherten anwenderspezifischen
Informationsinhalte 21 und der Referenzbilder 22 gezeigt.
Wie dargestellt, kann die Speichervorrichtung 20, die bei
der Erfindung verwendbar ist, einen ROM-Speicher, RAM-
Speicher, eine Festplatte, eine Wechselplatte, eine
Floppy Disk, eine Flashcard und andere geeignete
Speichermedien aufweisen. Sie kann auch eine Kombination
solcher Speichermedien enthalten. In dem Inhaltsblock 21,
in dem anwenderspezifische Programme und Informationen
gespeichert sind, befindet sich ein Block 210 für die
Benutzererkennung, ein Block 211 für die, technische
Bildoptimierung mit verschiedenen Algorithmen 1, 2, . . . N,
ein Block 212 für die kosmetische Erscheinungsopti
mierung, wieder mit verschiedenen Bildbearbeitungsalgo
rithmen 1, 2, . . . N, ein Block 213 zur Hinter
grundbearbeitung, ein Block 214 zur Kopfbearbeitung und
ein Block 215 zur Körperbearbeitung. Es muss hier bemerkt
werden, dass die im anwenderspezifischen Block 21
enthaltenen und oben aufgeführten Einzelblöcke 211-215
nicht unbedingt vollständig aufgezählt wurden und dass
Speicherinhalte zur Spracherkennung und weitere Inhalte,
die hier nicht wesentlich sind, enthalten sein können.
Der in Fig. 2 dargestellte Block 22, der das Bild
material, d. h. die Referenzbildinformation betrifft,
enthält einen Block 221 mit Referenzhintergrundbildern 1,
. . . N, einen Block 222 mit Referenzbildern 1, 2, . . . N des
Kopfs und einem Block 223 mit Referenzbildern 1, 2, . . . N
des Körpers des Anwenders. Es muss hier erwähnt werden,
dass der Begriff "Körper" die Körperteile außerdem Kopf
umfassen.
Für eine audiovisuelle Kommunikationsvorrichtung gemäß
der Erfindung, die für mehrere Teilnehmer berechtigt ist,
sind die Blöcke 221-223 entsprechend mehrfach vorhanden.
In Fig. 3 ist in Form eines Funktionsblockschaltbildes
eine Funktionsweise ohne senderseitige optimierende Bild
bearbeitung, d. h. ohne die erfindungsgemäße OBV. Die
oben genannte OBV, die in einem Funktionsblock 40
dargestellt ist, ist deaktiviert, und das Videosignal von
der Videosignalquelle geht direkt zu einem Kodierungs
block 41.
Dagegen zeigt Fig. 4 in Form eines Funktionsblock
schaltbildes den Fall, wo eine optimierende Bildver
arbeitung ausgeführt wird.
Vor der Sendung wird das von einer Videosignalquelle 11
erhaltene Videosignal zur Vorbereitung der Optimierung im
Sinne der Erfindung durch einen Inhaltserkennungsblock 30
in einzelne Ebenen 31-33 (englisch: "layers") aufge
schlüsselt. Die Ebenen 31-33 sind hier nur zum Zwecke des
besseren Verständnisses als Ebene 1 (Hintergrund), Ebene
2 (Körper) und Ebene 3 (Kopf) bezeichnet. Diese Ebenen
entsprechen den im Speicherbereich 22 gespeicherten
Schichten Hintergrund 221, Kopf 222 und Körper 223
(vergleiche Fig. 2). Diese Begriffe Hintergrund, Körper,
Kopf dienen somit nur zur Veranschaulichung der
Erfindung. Je nach Größe des bereitgestellten Speichers
können weitere Ebenen zur weiteren Detaillierung
definiert sein. Ebenfalls zur Veranschaulichung des Ver
fahrens wird eine weitere, gestrichelt eingezeichnete,
Spezialebene 34 definiert, die wahlweise zugeschaltet
werden kann. Die beschriebenen Ebenen 31-34 werden aus
dem Videosignalstrom von der Videosignalquelle 11, z. B.
von der Videokamera, mit Bildverarbeitungsalgorithmen im
Inhaltserkennungsblock 30 herausgelöst und separat in
logischen Speicherebenen verwaltet. Findet eine audio
visuelle Kommunikation statt, werden je nach Einstellung
des Anwenders alle oder einzelne Ebenen durch Bild
information aus dem Speicher 22 ersetzt. Im Beispiel von
Fig. 4 werden die Ebenen 31 und 32, betreffend
Hintergrund und Referenzkopf, ersetzt durch ein Referenz
hintergrundbild 2 und ein Kopfbild 3 aus den Speicher
bereichen 221 und 222. Die Steuerung der eingesetzten
Bildinformation wird durch Referenzmarken sichergestellt.
Als Beispiel soll das Gesicht dienen. Die erkannten
Referenzmarken werden zur Steuerung der einzusetzenden
Bildinformation der Ebene "Kopf" verwendet. Bewegt der
Anwender den Kopf, wenn er z. B. zustimmend nickt, so
führt das optimierte Bild die gleiche Bewegung aus. Ist
die Ebene "Körper" aktiviert, wird die aktuelle Ebene
"Körper" durch eines der gespeicherten Körperreferenz
bilder im Bereich 223 ersetzt. Alle Ebenen zusammen
gesetzt bilden das zu sendende optimierte Videobild.
Es muss hier bemerkt werden, dass die Bezeichnung "Ebene"
nicht bedeutet, dass mit dem erfindungsgemäßen Verfahren
verarbeitete bzw. editierte Bildinformation nur zweidi
mensional sein kann. Statt dessen können auch drei
dimensionale Bildinformationen verarbeitet werden.
Das neu zusammengesetzte Videobild wird jetzt technisch
hinsichtlich Farbwerte, Kontraste, Helligkeit nach vor
eingestellten oder voreinstellbaren Parametern optimiert
(siehe Block 42 in Fig. 4).
In einer weiteren Funktionseinheit 43, die kosmetische
Bildoptimierung genannt ist, werden bevorzugt im
Gesichtsbereich kosmetische Verbesserungen vorgenommen.
Dazu gehört das Aufhellen der Augen und die Augenwinkel
korrektur, Aufhellen des Zahnbereichs, Schattenaufhellung
(z. B. bei Bartwuchs und bei großflächigen Pigment
veränderungen der Haut) und das Wegretuschieren von nicht
gewünschten kleinen Pigmentstörungen, wie z. B. Warzen.
Das so optimierte Videosignal wird an die Kodierungs
einheit 41 weitergegeben und schließlich an den oder die
Empfänger gesendet.
Nachstehend werden bezogen auf die Fig. 5 und 6
Kommunikationsschritte unter Einsatz des erfindungs
gemäßen Verfahrens beschrieben. Zunächst wird eine
Kommunikationsverbindung von außerhalb beschrieben. Die
audiovisuelle Kommunikationsvorrichtung (Fig. 1) erhält
ein Signal von der Gegenseite zum Aufbau einer Ver
bindung. Dem Stand der Technik entsprechende Kommunika
tionssysteme übermitteln eine sog. Anruferkennung
(englisch: "Caller Recognition"). Bei eingehendem Anruf
(Schritt 51) wird die Anruferkennung überprüft (Schritt
53). Dies erfolgt durch Vergleich der übermittelten
Anruferkennung mit einem Teilnehmerverzeichnis 52
(Telefonbuch mit Teilnehmeradressen), das im Speicher
gespeichert ist. Den Einträgen des Teilnehmerver
zeichnisse 52 können bestimmte OBV-Konfigurationen zuge
ordnet werden. Im vorgestellten Beispiel wird davon
ausgegangen, dass der Anrufer entweder keinen Eintrag im
Teilnehmerverzeichnis 52 hat oder dass dem Eintrag im
Teilnehmerverzeichnis 52 die OBV-Konfiguration "Büro"
zugeordnet wurde. In diesen Fällen wird das Signal der
Videokamera 11 an den Inhaltserkennungsfunktionsblock 30
weitergeleitet, der Schritt 57 berechnet die Ebenen
(31-34 in Fig. 4), die im Schritt 58 mit den
Referenzinformationen der OBV-Konfiguration "Büro" in
Echtzeit zusammengesetzt werden. Danach wird die bereits
erwähnte kosmetische Bildoptimierung 43 und die
technische Bildoptimierung 42 ausgeführt. Nach der
technischen Bildoptimierung 42 entsteht im Block 40 das
optimierte Videobild nach den voreingestellten Parameter
werten in Zuordnung zum Teilnehmereintrag im Verzeichnis
52. Die Signale, d. h. die optimierten Bilder und
Audiosignale werden anschließend je nach Kommunikations
protokoll im Funktionsblock 41 kodiert und übertragen.
Nun wird bezogen auf Fig. 5 der Fall betrachtet, dass a)
der gewünschte Teilnehmer dem Teilnehmerverzeichnis 52
bekannt ist (Ausgang "JA" des Vergleichsschritts 53) und
dass b) dem Teilnehmer die OBV-Konfiguration "Privat"
zugeordnet ist (Schritt 55). Dann wird das unbearbeitete
Videosignal, d. h. ohne OBV, der Kodierungseinheit 41
übermittelt.
Anschließend wird Bezug auf Fig. 6 genommen, die einen
Verbindungsaufbau vom vorliegenden Anwender darstellt.
Wenn der vorliegende Anwender eine Kommunikation aufbauen
möchte, hat er die Möglichkeit, einen Teilnehmer aus dem
Teilnehmerverzeichnis auszuwählen (Schritt 62) oder den
entsprechenden Teilnehmercode manuell einzugeben (Schritt
61). Gesetzt der Fall, der gewünschte Teilnehmer wird aus
dem Teilnehmerverzeichnis 62 gewählt, lautet die Antwort
auf die im Schritt 64 gestellte Frage: Code ID bekannt?
"Ja". Dann wird nach Maßgabe des OBV-Parameters im
Teilnehmerverzeichnis 62 die OBV-Konfiguration "Freizeit"
aktiviert (Schritt 66). In diesem Fall wünscht der An
wender nur eine kosmetische Bildoptimierung im Funktions
block 43 und die technische Bildoptimierung im Funktions
block 42. Das hierdurch veränderte Videosignal wird
sodann nach den Erfordernissen des Kommunikations
protokolls im Funktionsblock 41 kodiert.
Anschließend wird ein Beispiel beschrieben, wo der
Anwender den erforderlichen Verbindungscode im Schritt 61
manuell über die Eingabeeinheit 18 (Fig. 1) eingibt. Die
im Abfrageschritt 64 ausgeführte Überprüfung der manuell
eingegebenen Teilnehmernummer oder -adresse ergibt im
Beispiel eine negative Antwort bei der Abfrage 64.
Daraufhin aktiviert die OBV die Konfiguration "Büro".
Daraufhin wird die komplette Bildbearbeitung, d. h.
Optimierung der Bildinformation und gegebenenfalls der
Audioinformation ausgeführt. Die Ausführung der Opti
mierung der Audioinformation ist in den Fig. 5 und 6
nicht dargestellt. Das editierte Signal wird dann an die
Kodierungseinheit 41 weitergegeben.
Abgesehen von dieser automatischen Auswahl zwischen der
vollständigen OBV-Funktion und der "rudimentären Edi
tierung" der Bildinformation durch die kosmetische
Bildoptimierung 43 und die technische Bildoptimierung 42,
hat der Anwender jederzeit die Möglichkeit, über die
Eingabeeinheit 18 die OBV-Konfiguration während einer
Kommunikation zu aktivieren oder zu deaktivieren.
Das vorbeschriebene erfindungsgemäße Verfahren kann auch
dazu verwendet werden, um z. B. Gesichter anderer
Menschen oder gänzlich künstlich erstellte Charaktere zu
übertragen. Dabei kann der Anwender als "Animateur"
auftreten. Die durch die Erfindung ermöglichte Durch
führung solcher "Animationen" ist wahrscheinlich kommer
ziellen Anwendung vorbehalten. Hier wird z. B. vom Wunsch
von Unternehmen ausgegangen, einen bestimmten Charakter
als Marke zu etablieren. Zur Veranschaulichung sei der
Charakter "Herr Kaiser" eines Versicherungsunternehmens
und außerdem der Charakter "Micky Maus" der Walt Disney
Corporation angeführt. Eine kommerzielle Anwendung ist
hierbei die Bereitstellung einer erfindungsgemäßen OBV
für Telefonagenturen. Unternehmen beauftragen Telefon
agenturen, um Kundenanfragen und -wünsche zu beantworten
oder aufzunehmen. Kunden des oben als Beispiel ange
führten Versicherungsunternehmens kommunizieren auf diese
Weise audiovisuell mit dem durch OBV etablierten
Sympathieträger des Unternehmens. Kinder und Jugendliche
können über sympathische Comicfiguren, wie z. B. Micky
Maus, durch das Unternehmen Informationen über spezielle
Aktionen und Tips zur Freizeitgestaltung erfahren.
Um einen Missbrauch des vorbeschriebenen Verfahrens zu
unterbinden, stehen Algorithmen zur Gesichtserkennung zur
Verfügung. Die Gesichtserkennung ist Bestandteil der
Steuerung der oben beschriebenen Ebene "Kopf". Sofern der
Anwender nicht die gleichen charakteristischen Gesichts
merkmale wie das abgespeicherte Kopfbild hat, wird das
Videosignal uneditiert an die Kodierungseinheit zur
Sendung weitergegeben.
Weiterhin enthält das vorbeschriebene Verfahren zur Aus
wahl von berechtigten Teilnehmern Spracherkennungsalgo
rithmen, welche vor allem in kommerziellen Anwendungen
aktiviert sind. Ein aktueller Teilnehmer spricht eine
Kennphrase, die mit gespeicherten Sprachproben verglichen
wird. Ergibt sich eine Übereinstimmung, kann zusätzlich
noch eine Korrelation mit der erwähnten Bilderkennung
anhand eines gespeicherten Kopfbildes hergestellt werden.
Somit ist ein Missbrauch der Erfindung durch Personen
verwechslung oder Vortäuschung von anderen Personen
ausgeschlossen.
Claims (16)
1. Verfahren zur darstellungsoptimierten Über
tragung von Videodaten und/oder Audiodaten, insbesondere
beim Bildfernsprechen, bei dem von einer Video- und
Audioquelle kommende Bild- und Audiodaten vor ihrer
Übertragung zu einem Empfänger anhand von
Referenzinformation entsprechend wenigstens einem
vorbestimmten oder vorbestimmbaren Kriterium verändert
werden, dadurch gekennzeichnet, dass das Verfahren
wenigstens folgende Schritte aufweist:
- a) Referenzbildinformation wird zuvor erstellt und gespeichert;
- b) Parameter, die Bildinformation betreffen, werden zuvor definiert, gespeichert und der in Schritt a) gespeicherten Referenzbildinformation zugeordnet;
- c) ein von einer Videoquelle kommendes Bild wird hinsichtlich eines oder mehrerer ausgewählter (auswählbarer) Bildinformationsparameter von den in Schritt b) definierten und gespeicherten Parameter extrahiert;
- d) das Bild von Schritt c) wird basierend auf dem oder den ausgewählten Bildinformationsparameter(n) anhand der zugeordneten Referenzbildinformation editiert; und
- e) das in Schritt d) editierte Bild wird zu einem oder mehreren Empfängern übertragen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass die Schritte d) und e) an einem zentralen Ort
ausgeführt werden, der vom sendenden Anwender entfernt
ist, wobei das Bild, das zugeordnete Referenzbild und der
oder die Bildinformationsparameter vom Ort des sendenden
Anwenders zum zentralen Ort übertragen werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass die Schritte a) bis e) am Ort eines sendenden
Anwenders ausgeführt werden.
4. Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass es einen zusätzlichen
Schritt f) aufweist, mit dem zuvor gespeicherte Sprach
proben berechtigter Anwender mit einer gesprochenen Kenn
phase eines aktuell sendenden Anwenders verglichen
werden und bei positivem Vergleichsergebnis eine Sende
freigabe für diesen Anwender erfolgt.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet,
dass in Schritt f) außerdem die gespeicherte Sprachprobe
einem Referenzbild, das zu einem jeweils sendenden
Anwender gehört, oder als zu ihm gehörig ausgewählt
wurde, zugeordnet wird, und der jeweilige sendende
Anwender anhand der gespeicherten Sprachprobe und des
zugehörigen Referenzbildes identifiziert wird.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekenn
zeichnet, dass in Schritt f) eine Sprachanalyse der
gesprochenen Kennphrase und eine Bildanalyse des von der
Videoquelle kommenden Bildes ausgeführt werden.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet,
dass bei der Bildanalyse charakteristische Gesichtszüge
eines jeweiligen sendenden Anwenders mit einem zuge
hörigen oder ausgewählten Referenzbild verglichen werden.
8. Verfahren nach einem der Ansprüche 5-7, dadurch
gekennzeichnet, dass der jeweilige sendende Anwender vor
Ausführung des Schrittes c) als berechtigt identifiziert
wird, gespeicherte Referenzinformation zur audiovisuellen
Kommunikation zu verwenden.
9. Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass die zu verarbeitenden Bild
daten, die analysierte und editierte Bildinformation
Bewegtbilder, zweidimensionale und dreidimensionale Bild
information umfassen.
10. Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass das zu übertragende Bild vor
der Übertragung dem sendenden Anwender angezeigt wird.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet,
dass die Anzeige eine interaktive Benutzeroberfläche
aufweist, die auch die auswählbaren und/oder ausgewählten
Referenzbilder sowie die auswählbaren oder ausgewählten
Bildinformationsparameter anzeigt.
12. Verwendung des Verfahrens nach einem der Ansprüche
1-11 zur darstellungsoptimierten Übertragung von Video-
und/oder Audiodaten beim Bildfernsprechen.
13. Verwendung des Verfahrens nach einem der Ansprüche
1-11 zur darstellungsoptimierten Übertragung von Video-
und/oder Audiodaten bei Videokonferenzen.
14. Verwendung des Verfahrens nach einem der Ansprüche
1-11 zur darstellungsoptimierten Übertragung von Video-
und/oder Audiodaten über Computernetze.
15. Vorrichtung zur darstellungsoptimierten Übertragung
von Video- und/oder Audiodaten, insbesondere zur
Durchführung des Verfahrens nach einem der Ansprüche
1-14, dadurch gekennzeichnet, dass die Vorrichtung
aufweist:
- - Videoeingabe- und Ausgabemittel (11, 12);
- - Audioaus/eingabemittel (13);
- - Sende- und Empfangsmittel (14, 15);
- - eine Schnittstelle (16) zu einem Übertragungskanal;
- - eine Eingabevorrichtung (18) zur Eingabe von Steuer- und Befehlssignalen;
- - eine Speichervorrichtung (20) zur Speicherung von Anwender- und Systemprogrammen sowie von Referenz bilddaten und -audiodaten, wobei
- - die vorgenannten Mittel und Komponenten mit einer Prozessoreinheit (10) in funktioneller Verbindung stehen, die dazu eingerichtet ist, die Verfahrensschritte in Interaktion mit den genannten Mitteln und Komponenten auszuführen.
16. Vorrichtung nach Anspruch 15, dadurch gekenn
zeichnet, dass sie weiterhin eine mit der Prozessor
einheit (10) in Verbindung stehende Schnittstelle (17)
aufweist zur Verbindung mit einer übergeordneten Ver
waltungseinheit und/oder einem übergeordneten Speicher
medium, z. B. mit einem "Personal Computer".
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19948546A DE19948546A1 (de) | 1999-02-16 | 1999-10-08 | Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten |
PCT/DE2000/000442 WO2000049806A1 (de) | 1999-02-16 | 2000-02-16 | Videokommunikationsvorrichtung, -system und -verfahren |
JP2000600429A JP2002537734A (ja) | 1999-02-16 | 2000-02-16 | ビデオ通信のための装置、システム及び方法 |
EP00915108A EP1192807A1 (de) | 1999-02-16 | 2000-02-16 | Videokommunikationsvorrichtung, -system und -verfahren |
AU36547/00A AU3654700A (en) | 1999-02-16 | 2000-02-16 | Video communications device, system and method |
IL14487800A IL144878A0 (en) | 1999-02-16 | 2000-02-16 | Video communications device, system and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19906472 | 1999-02-16 | ||
DE19948546A DE19948546A1 (de) | 1999-02-16 | 1999-10-08 | Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19948546A1 true DE19948546A1 (de) | 2000-08-17 |
Family
ID=7897695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19948546A Withdrawn DE19948546A1 (de) | 1999-02-16 | 1999-10-08 | Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19948546A1 (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10062503A1 (de) * | 2000-10-04 | 2002-04-11 | Margit Frank Media Art Gmbh | Vorrichtung zur Bildwiedergabe |
WO2002035811A2 (de) * | 2000-10-25 | 2002-05-02 | Siemens Aktiengesellschaft | Kommunikationsendgerät |
DE10156954A1 (de) * | 2001-11-20 | 2003-06-18 | Daimler Chrysler Ag | Bildgestützte adaptive Akustik |
BE1022303B1 (nl) * | 2014-12-15 | 2016-03-14 | Televic Conference | Deelnemerseenheid voor een Multimedia Conferentiesysteem |
-
1999
- 1999-10-08 DE DE19948546A patent/DE19948546A1/de not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10062503A1 (de) * | 2000-10-04 | 2002-04-11 | Margit Frank Media Art Gmbh | Vorrichtung zur Bildwiedergabe |
WO2002035811A2 (de) * | 2000-10-25 | 2002-05-02 | Siemens Aktiengesellschaft | Kommunikationsendgerät |
WO2002035811A3 (de) * | 2000-10-25 | 2003-01-09 | Siemens Ag | Kommunikationsendgerät |
DE10156954A1 (de) * | 2001-11-20 | 2003-06-18 | Daimler Chrysler Ag | Bildgestützte adaptive Akustik |
DE10156954B4 (de) * | 2001-11-20 | 2004-12-23 | Daimlerchrysler Ag | Bildgestützte adaptive Akustik |
DE10156954B9 (de) * | 2001-11-20 | 2005-07-14 | Daimlerchrysler Ag | Bildgestützte adaptive Akustik |
BE1022303B1 (nl) * | 2014-12-15 | 2016-03-14 | Televic Conference | Deelnemerseenheid voor een Multimedia Conferentiesysteem |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112010005264T5 (de) | GUI für mehrere Anwender | |
EP0814611A2 (de) | Kommunikationssystem und Verfahren zur Aufnahme und Verwaltung digitaler Bilder | |
DE112017005879T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
EP1198957B1 (de) | Mobile Bildaufnahme, Retinaprojektion von gemäss Augenposition eines Benutzers ermittelten Bilddaten, sowie Wiedergabe von aus den ermittelten Bilddaten gewonnener Nutzinformation | |
DE102014004069A1 (de) | Verfahren, Softwareprodukt und Vorrichtung zur Steuerung einer Konferenz | |
EP1252769B1 (de) | System und verfahren zur verbreitung von bildobjekten | |
DE102019126688A1 (de) | System und verfahren zur automatischen untertitelanzeige | |
DE19948546A1 (de) | Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten | |
EP2950500B1 (de) | Verfahren und System zum Aufbau von Echtzeit-Audioverbindungen | |
EP1976291B1 (de) | Verfahren und videokommunikationssystem zur Gestik-basierten Echtzeit-Steuerung eines Avatars | |
EP1560140A1 (de) | Verfahren und System zur elektronischen Interaktion in einem Netzwerk | |
DE10336320A1 (de) | Ubiquitäre Dienste | |
EP1192807A1 (de) | Videokommunikationsvorrichtung, -system und -verfahren | |
DE202008003015U1 (de) | Mobile Telekommunikationseinrichtung zum Übertragen und Übersetzen von Informationen | |
DE19734511A1 (de) | Kommunikationseinrichtung | |
EP3261320B1 (de) | System und verfahren zur kommunikation unter einbeziehung einer digitalen aura eines nutzers | |
EP3859581A1 (de) | Computerimplementiertes autorisierungsverfahren | |
DE102018201711A1 (de) | Anordnung und verfahren zum bereitstellen von informationen bei einer kopftragbaren erweiterte-realität-vorrichtung | |
DE102021130955A1 (de) | Computer-implementiertes Videokonferenz-Verfahren | |
WO2002078351A1 (de) | Verfahren und vorrichtung zur übertragung von video- und/oder audiodaten | |
DE102020209058A1 (de) | Verfahren und System zur Kommunikation zwischen Endgeräten | |
DE102023005306A1 (de) | Verfahren und Fahrzeug zum Teilnehmen an Gesprächsrunden | |
EP2337326B1 (de) | Verfahren und Vorrichtung zur Hervorhebung ausgewählter Objekte in Bild- und Videonachrichten | |
DE69933164T2 (de) | Verfahren zur kooperativen Teleheimarbeit und Vorrichtung zur Durchführung des Verfahrens | |
WO2002043388A1 (de) | Telekommunikationseinrichtungen und -verfahren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |