DE10162990A1

DE10162990A1 - Apparatus and method for compression sequences of images or video sequences by forming and transmitting image mosaics

Info

Publication number: DE10162990A1
Application number: DE10162990A
Authority: DE
Inventors: Andre Kaup
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2001-12-20
Filing date: 2001-12-20
Publication date: 2003-07-17

Abstract

The compression method involves determining segment boundaries in the video sequence. A given number of key images are selected from the resulting video segments and are combined into an image mosaic. The mosaic is then coded and transmitted and/or stored. The sequence may be converted into an encoded video sequence first. The segment boundaries may be formed based on the difference between two or more successive images in the sequence. Independent claims also cover an apparatus for carrying out the method.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung, bei dem/der bestimmte Bilder aus einer Bildfolge ausgewählt und übertragen bzw. gespeichert werden. Derartige Verfahren bzw. Vorrichtungen kommen vor allem dort zum Einsatz, wo nur eine begrenzte Übertragungsrate bzw. ein begrenztes Speichervermögen zur Verfügung steht. The invention relates to a method and a device, where certain pictures are selected from a picture sequence and transferred or saved. Such procedures devices are used wherever only a limited transmission rate or a limited one Storage capacity is available.

Ein typisches Beispiel hierfür sind moderne digitale Kameras, die zunehmend neben der Aufzeichnung von Einzelbildern auch ganze Videosequenzen aufzeichnen können. Einzelbilder werden dabei zumeist im JPEG-Format komprimiert und abgelegt, während Videosequenzen typischerweise mit MPEG-1 oder neuerdings auch MPEG-4 codiert werden. Die Bilddaten werden in der Regel lokal in der digitalen Kamera auf einer Speicherkarte abgelegt und später per Kabelschnittstelle auf einen PC zur Weiterverarbeitung übertragen. Zukünftige digitale Kameras werden allerdings zunehmend mit einer Funkschnittstelle ausgestattet sein, zum Beispiel weil die Kamera mit einem Mobiltelefon in einem Gehäuse integriert wird oder aber das klassische Mobiltelefon um eine Kamerafunktion erweitert wird. In diesem Fall ergibt sich die Möglichkeit, die aufgenommenen Bild- oder Videodaten neben der lokalen Speicherung auch unmittelbar über die Funkschnittstelle an einen Empfänger zu versenden. Hierbei tritt jedoch bei Videosequenzen das Problem auf, dass die zu übertragende Datenmenge sehr groß sein kann. So benötigt eine Minute digitales Video in ITU-R 601 Format bei vertretbarer Qualität eine Aufzeichnungsrate von 512 kbit/s unter Verwendung einer MPEG-1 Codierung und damit mehr als 3,8 MB Speicherplatz. Die Übertragung dieser Datenmenge über einen Funkkanal nach dem GPRS- oder HSCSD-Verfahren bei angenommenen 112 kbit/s verfügbarer Kanalkapazität würde in diesem Fall mehr als 4,5 Stunden dauern. Dieses Problem der ernormen Datenmengen bei Videosequenzen wird bei der Aufzeichnung in mobilen Endgeräte heute in der Regel so gelöst, dass die Daten nur lokal in der digitalen Kamera oder dem Bildtelefon gespeichert werden und später durch Kabel zur Weiterverarbeitung an zum Beispiel einen PC geschickt werden. Im Fall der Weiterleitung per Funk an einen Empfänger werden zum Beispiel die oben genannten bekannten Kompressionsverfahren verwendet. Die Übertragung erfolgt dann entweder zeitsynchron zur Aufnahme oder aber zeitlich versetzt und zusätzlich eventuell verlangsamt. A typical example of this are modern digital cameras, which can increasingly record entire video sequences in addition to the recording of individual images. Individual images are usually compressed and stored in JPEG format, while video sequences are typically encoded with MPEG-1 or, more recently, MPEG-4. The image data is usually stored locally in the digital camera on a memory card and later transferred to a PC for further processing via a cable interface. Future digital cameras will, however, increasingly be equipped with a radio interface, for example because the camera is integrated in a housing with a mobile phone or because the classic mobile phone is expanded to include a camera function. In this case, there is the possibility of sending the recorded image or video data to a receiver in addition to the local storage and also directly via the radio interface. However, the problem with video sequences is that the amount of data to be transmitted can be very large. One minute of digital video in ITU-R 601 format with acceptable quality requires a recording rate of 512 kbit / s using MPEG-1 coding and thus more than 3.8 MB of storage space. The transmission of this amount of data over a radio channel according to the GPRS or HSCSD method with assumed 112 kbit / s available channel capacity would take more than 4.5 hours in this case. This problem of the enormous amounts of data in video sequences is usually solved today when recording in mobile devices in such a way that the data is only stored locally in the digital camera or videophone and later sent via cable to a PC for further processing, for example. In the case of forwarding by radio to a receiver, for example, the known compression methods mentioned above are used. The transmission then takes place either synchronously with the recording or at different times and may also slow down.

Die der Erfindung zugrunde liegende Aufgabe besteht nun darin, ein Verfahren und eine Vorrichtung zur Kompression von Bildfolgen anzugeben, das/die bei begrenzter Übertragungsrate bzw. bei begrenztem Speichervermögen eine für den Menschen möglichst guten Überblick über die gesamte Bildfolge ermöglicht. The object underlying the invention now exists therein a method and apparatus for compressing Specify image sequences that at a limited transmission rate or one for humans with limited storage capacity best possible overview of the entire image sequence allows.

Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch die Merkmale des Patentanspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Patentanspruchs 8 gelöst. This object is achieved with regard to the Method by the features of claim 1 and with regard to the device by the features of Claim 8 solved.

Die Erfindung besteht im Wesentlichen darin, dass aus einer Videosequenz beispielsweise aufgrund von Szenenwechseln Segmente gebildet und hieraus wiederum repräsentative Schlüsselbilder ermittelt werden, die anschließend zu einem einzigen Bildmosaik zusammengefasst und mit einem Bildcodierverfahren codiert werden. Das Verfahren lässt sich zur direkten Übertragung von Videos aus einer mobilen digitalen Kamera, bei der Abfrage von Videonachrichten aus dem Festnetz auf ein mobiles Endgerät oder aber zur Übersichterstellung jeder beliebigen Videosequenz anwenden. Die damit erreichten Vorteile bestehen in einer geringen Übertragungsrate, in einer einfachen Handhabung, in der geringen Komplexität und in einer höheren Effizienz eines großen Mosaikgesamtbildes in Folge der geringeren Overheadinformation. The invention essentially consists in the fact that a Video sequence, for example due to scene changes Segments formed and from this in turn representative Keyframes are determined, which then become a single picture mosaic summarized and with one Image coding method are encoded. The procedure can be for direct transmission of videos from a mobile digital camera, when querying video messages the fixed network to a mobile device or Apply a summary of any video sequence. The advantages achieved with this are minor Transfer rate, in a simple handling, in the low complexity and in a higher efficiency one large overall picture of the mosaic as a result of the smaller Overhead information.

Die Erfindung wird nun anhand eines in der Zeichnung ausgeführten Darstellungsbeispiels näher erläutert. The invention is now based on one in the drawing executed display example explained in more detail.

Die Zeichnung zeigt eine Kamera 1 zur Erfassung von Bildern und/oder Bildfolgen 12, wobei insbesondere die Bildfolgen beispielsweise durch eine einfache PCM-Codierung oder durch eine MPEG-Codierung in einer Codiereinheit 2 zu einer codierten Videosequenz 24 codiert werden. In der Codierungseinheit werden Signale 23 für eine Segmenterkennungseinheit 3 gebildet, in der ihrerseits Segmentgrenzen 34 für eine Schlüsselbilderzeugungseinheit 4 gebildet werden. The drawing shows a camera 1 for capturing images and / or image sequences 12 , the image sequences in particular being encoded, for example, by simple PCM coding or by MPEG coding in a coding unit 2 to form a coded video sequence 24 . Signals 23 for a segment recognition unit 3 are formed in the coding unit, in which segment boundaries 34 for a key image generation unit 4 are in turn formed.

Alternativ werden auch die Bildfolgen 12 selbst, ohne vorherige Codierung, zur Schlüsselbilderzeugung und Segmenterkennung herangezogen. Alternatively, the image sequences 12 themselves are used for key image generation and segment recognition without prior coding.

In der Einheit 4 wird aus der codierten Videosequenz 24 mit Hilfe der Segmentgrenzen 34 aus den hierdurch festgelegten Videosegmenten eine vorgebbare Anzahl von Schlüsselbildern 45 ausgewählt. Diese ausgewählten Schlüsselbilder 45 werden daraufhin in einer Mosaikgenerierungseinheit 5 zu einem Bildmosaik 56 kombiniert und anschließend durch ein Bildcodierungsverfahren in einer Codierungseinheit 6 codiert und in einer Einheit 7 gespeichert oder übertragen. Nach dem Auslesen aus dem Speicher oder einer Übertragung erfolgt eine Decodierung in einer Decodiereinheit 8 und schließlich wird das Bildmosaik in einer Anzeige 9 dargestellt. In unit 4 , a predeterminable number of key frames 45 is selected from the coded video sequence 24 with the aid of the segment boundaries 34 from the video segments defined thereby. These selected key images 45 are then combined in a mosaic generation unit 5 to form an image mosaic 56 and then encoded by an image coding method in a coding unit 6 and stored or transmitted in a unit 7 . After reading out from the memory or a transfer, a decoding takes place in a decoding unit 8 and finally the picture mosaic is shown in a display 9 .

Die Segmentgrenzen werden beispielsweise aufgrund des Wechsels der globalen Bildaktivität von einem Bild der Sequenz zum nächsten ermittelt. Übersteigt das Merkmal für diesen globalen Bildaktivitätswechsel einen vorgegebenen Schwellwert, so wird ein neues Videosegment initiiert. The segment boundaries are based, for example, on the Switch global image activity from an image to the Sequence determined to the next. Exceeds the characteristic for this global image activity change a predetermined one Threshold, a new video segment is initiated.

Es besteht beispielsweise die Möglichkeit, dass die gesamte Videosequenz gespeichert wird und entsprechend einer vorgegebenen Anzahl von Schlüsselbildern die längsten Segmente ausgewählt und pro Segment genau wiederum ein Schlüsselbild ausgewählt wird. For example, there is a possibility that the entire Video sequence is saved and according to a predetermined number of keyframes the longest Segments selected and exactly one for each segment Keyframe is selected.

Eine andere Erfindungsvariante besteht beispielsweise darin, dass ebenfalls die Videosequenz gespeichert wird und eine Unterschiedsschwelle zur Bildung der Segmentgrenzen derart geregelt wird, dass eine vorgegebene Anzahl von Schlüsselbildern der Anzahl aller so gebildeten Videosegmente entspricht und wiederum pro Segment genau ein Schlüsselbild ausgewählt wird. Another variant of the invention is, for example, that the video sequence is also saved and one Difference threshold for forming the segment boundaries in this way it is regulated that a predetermined number of Keyframes of the number of all video segments thus formed corresponds and again exactly one key frame per segment is selected.

Die Auswahl eines Schlüsselbildes kann dabei beispielsweise dadurch erfolgen, dass ein Bild in der Mitte des jeweiligen Videosegments genommen wird oder dass ein Schlüsselbild dadurch ausgewählt wird, dass ein Bild ermittelt wird, das zu möglichst vielen Bildern dieses Videosegments einen möglichst geringen Unterschied aufweist. The selection of a key frame can, for example done by placing an image in the middle of each Video segments is taken or that a keyframe is selected by determining an image that corresponds to as many pictures of this video segment as possible has little difference.

Durch die Erfindung wird eine deutliche Reduktion der zu übertragenden Datenmenge erreicht. In dem eingangs genannten Fall könnten zum Beispiel 6 Schlüsselbilder repräsentativ für die aufgezeichnete Sequenz sein, was einem Abstand von 10 Sekunden entspricht. Bei einer CIF-Auflösung dieser Schlüsselbilder und einem typischen Kompressionsfaktor von etwa 10 bei Anwendung einer JPEG-Codierung ergibt sich eine Gesamtdatenmenge von ca. 91 KB. Gegenüber der oben genannten MPEG-1 Codierung ist die Übertragung damit um den Faktor 41 kleiner und würde sich auf etwa 6,5 Sekunden reduzieren, was einen für die praktische Anwendung durchaus akzeptablen Wert darstellt. Ein weiterer Vorteil der Mosaikdarstellung ist, dass der Empfänger den Inhalt des Videostroms auf einen Blick und damit wesentlich schneller erfassen kann als durch die Betrachtung des vollständigen Videos. The invention significantly reduces the amount of data transferred. In the above For example, 6 keyframes could be representative of be the recorded sequence, which is a distance of 10 Seconds. With a CIF resolution this Key images and a typical compression factor of about 10 when using JPEG coding results in one Total data volume of approx. 91 KB. Compared to the above MPEG-1 coding is the transmission by a factor of 41 smaller and would reduce to about 6.5 seconds what a value that is perfectly acceptable for practical use represents. Another advantage of the mosaic display is that the receiver can see the content of the video stream at a glance and can thus capture much faster than through the Watch the full video.

Claims

1. Verfahren zur Kompression von Bildfolgen, bei dem in der Videosequenz Segmentgrenzen (34) ermittelt werden,
bei dem aus den durch die Segmentgrenzen festgelegten Videosegmenten eine vorgebbare Anzahl von Schlüsselbildern (45) ausgewählt und zu einem Bildmosaik (56) kombiniert werden und
bei dem das Bildmosaik codiert (6) und übertragen/gespeichert (7) wird. 1. Method for compressing image sequences, in which segment boundaries ( 34 ) are determined in the video sequence,
in which a predeterminable number of key frames ( 45 ) are selected from the video segments defined by the segment boundaries and combined to form an image mosaic ( 56 ) and
in which the image mosaic is coded ( 6 ) and transmitted / stored ( 7 ).

2. Verfahren nach Anspruch 1, bei dem Bildfolgen zuvor in eine codierte Videosequenz (24) umgewandelt werden. 2. The method of claim 1, wherein the image sequences are previously converted into an encoded video sequence ( 24 ).

3. Verfahren nach Anspruch 1 oder 2, bei dem die Segmentgrenzen auf der Basis der Unterschiede zweier oder mehrerer aufeinander folgender Bilder der Videosequenz gebildet werden. 3. The method according to claim 1 or 2, where the segment boundaries are based on the differences two or more successive images of the Video sequence are formed.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Videosequenz gespeichert wird und bei dem entsprechend der vorgegebenen Anzahl von Schlüsselbildern die längsten Segmente ausgewählt und pro Segment genau ein Schlüsselbild ausgewählt wird. 4. The method according to any one of claims 1 to 3, where the video sequence is saved and with the corresponding number of Keyframes the longest segments selected and per Segment exactly one keyframe is selected.

5. Verfahren nach Anspruch 3, bei dem die Videosequenz gespeichert wird und eine Unterschieds-Schwelle zur Bildung der Segmentgrenzen derart geregelt wird, dass die vorgegebene Anzahl der Schlüsselbilder der Anzahl der Videosegmente entspricht und pro Segment genau ein Schlüsselbild ausgewählt wird. 5. The method according to claim 3, in which the video sequence is saved and a Difference threshold for the formation of the segment boundaries in this way it is regulated that the specified number of Key frames correspond to the number of video segments and exactly one keyframe is selected for each segment.

6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem das Schlüsselbild dadurch ausgewählt wird, dass ein Bild in der Mitte der jeweiligen Videosequenz als Bestandteil des Bildmosaiks entnommen wird. 6. The method according to any one of claims 1 to 5, where the keyframe is selected by a Image in the middle of the respective video sequence as a component is taken from the picture mosaic.

7. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Schlüsselbild dadurch ausgewählt wird, dass ein Bild ermittelt wird, das zu möglichst vielen Bildern dieses Videosegments einen möglichst geringen Unterschied aufweist. 7. The method according to any one of claims 1 to 4, where the keyframe is selected by a Image is determined that this as many images as possible Video segment has the smallest possible difference.

8. Vorrichtung zur Kompression von Bildfolgen, bei der

a) eine Einheit (1, 2) zur Erfassung von Bildfolgen und deren Codierung,

b) eine Einheit (3) zur Bildung von Videosegmenten,

c) eine Einheit (4) zur Auswahl von Schlüsselbildern aus diesen Segmenten,

d) eine Einheit (5) zur Bildung eines Bildmosaiks aus diesen Schlüsselbildern und

e) eine Einheit (6, 7) zur Codierung und Übertragung/Speicherung dieses Bildmosaiks vorhanden sind.

8. Device for compressing image sequences in which

a) a unit ( 1 , 2 ) for acquiring image sequences and coding them,

b) a unit ( 3 ) for forming video segments,

c) a unit ( 4 ) for selecting key frames from these segments,

d) a unit ( 5 ) for forming an image mosaic from these key images and

e) a unit ( 6 , 7 ) for coding and transmission / storage of this picture mosaic are present.