Methode und Vorrichtung zur Bestimmung eines Bildausschnitts und Auslösen von Bilderfassungen mittels einer einzigen berührungsbasierten
Geste
Die Erfindung betrifft eine Methode zur Bestimmung eines Bildausschnitts und Durchführung von Bilderfassungen mit einer Kamera sowie eine Vorrichtung mit ausführbarem Computerprogramm zur Bestimmung eines Bildausschnitts und Durchführung von Bilderfassungen. Bildinformationen werden erfasst, wobei die Auswahl des relevanten Bildbereichs vom Benutzer auf eine intuitive und schnelle Weise über eine berührungsbasierte Geste durchgeführt wird. Die erfassten Bildinformationen können insbesondere für den Anwendungsfall der optischen Objekterkennung maschinell weiterverarbeitet werden.
Im Stand der Technik sind verschiedene Verfahren zur Bestimmung eines
Bildausschnittes kombiniert mit der Erfassung des ausgeschnittenen Bildes bekannt. Bilderfassungsgeräte sind beispielsweise in Kameras oder anderen elektronischen Geräten implementiert. Die Kameras können beispielsweise Bestandteil von Smartphones, iPads2, Tablet Computern, Laptops, Computern oder Bildschirmen sein. Die genannten Bilderfassungsgeräte können dazu verwendet werden, ein Motiv so abzubilden, dass ausschließlich der gewünschte Ausschnitt des Motivs ohne dessen Umgebung erfasst wird. Im Stand der Technik sind verschiedene Verfahren offenbart, die in Bilderfassungsgeräten ablaufen. Ein häufig eingesetztes Verfahren ist eines, welches Vergrößerungsfunktionen nutzt. Voraussetzung sind Bedienelemente für die Vergrößerung bzw. Verkleinerung des Kameraerfassungsbereichs, die entweder physisch vorliegen oder auf dem berührungsempfindlichen Bildschirm eingeblendet werden können. Der Benutzer des Geräts kann hierdurch das gewünschte Motiv erfassen, indem er die Kamera des Geräts auf das gewünschte Motiv richtet. Nach Erfassung des Motivs kann das Kamerabild durch Betätigung der Bedienelemente beliebig durch Vergrößern oder Verkleinern skaliert werden. Falls erforderlich, muss die Ausrichtung der Kamera durch den Benutzer nachjustiert werden, insbesondere wenn sich das Motiv nicht in der Mitte des Kameraerfassungsbereichs befindet. Der
Justierprozess wird so oft wiederholt, bis sich das Motiv in der gewünschten
Größe und Position im Bilderfassungsbereich befindet. Die endgültige Auslösung der Bilderfassung erfolgt durch den Benutzer durch im Stand der Technik bekannte Bedienelemente.
In einem weiteren bekannten System bzw. in einem weiteren bekannten Verfahren wird ein berührungsempfindlicher Bildschirm eingesetzt, auf dem ein
Auswahlrahmen zur Bestimmung des gewünschten Bildausschnittes eingeblendet wird. Dazu richtet der Benutzer das Bilderfassungsgerät zunächst auf das gewünschte Motiv, so dass die Kamera des Geräts das Motiv erfasst. Danach aktiviert der Benutzer den Modus zur Auswahl des Bildausschnitts durch die Betätigung eines vorgesehenen Bedienelements. Die Begrenzung des
Bildausschnittes wird durch den eingeblendeten Auswahlrahmen dargestellt. Der Benutzer kann den Auswahlrahmen durch Berührung und Bewegung der Ecken in der Position oder in der Größe ändern. Hat der Benutzer die gewünscht
Bereichsmarkierung eingestellt, löst er durch die Betätigung eines dafür vorgesehenen Bedienelementes die Bildaufnahme aus. Derartige Verfahren arbeiten mit Algorithmen, die dem Fachmann bekannt sind. Diese Algorithmen sind Teil eines Systems bzw. eines Verfahrens, welches das technische Problem der Bestimmung und der Erfassung des ausgewählten Bildausschnittes löst.
Die bekannten Systeme, Vorrichtungen und Verfahren weisen jedoch zahlreiche Nachteile auf.
Die bisherigen Verfahren erfordern die Ausführung vieler und unterschiedlicher manueller Benutzerinteraktionen, um einen gewünschten Bildausschnitt zu bestimmen und die Bilderfassung auszulösen. Mit der Vielzahl manueller Schritte, die der Benutzer ausführen muss, erhöhen sich der Gesamtzeitaufwand und die Komplexität der Bedienführung.
Ein hoher Zeitaufwand kann negative Auswirkungen auf das Erfassungsresultat haben, wenn die Aufnahmesituation während des Ausführungsprozesses nicht statisch ist. Eine solche zeitkritische Aufnahmesituation liegt vor, wenn der Inhalt des Motivs über die Zeit variiert oder sich die Erfassungsperspektive und
Entfernung des Benutzers relativ zum Motiv durch eine Positionsänderung verschiebt. Aus den genannten Gründen kann zum Zeitpunkt der tatsächlichen Auslösung der Bilderfassung die Aufnahmesituation so stark von der
Ausgangssituation abweichen, dass der Benutzer die Erfassungsprozedur vorzeitig beendet oder er eine für ihn nicht weiter verwertbare Aufnahme erhält.
Ein weiterer Punkt, den der Gesamtzeitaufwand zur Ausführung des Verfahrens direkt beeinflusst, ist die Anzahl der Ausführungen, die der Benutzer innerhalb eines betrachteten Zeitraums vollziehen kann. Je mehr Zeit der Nutzer mit der Ausführung einer Aufnahme bzw. der Vorbereitung des ersten Auslösens verbringt, desto weniger Aufnahmen kann er in einem bestimmten Zeitraum tätigen.
Die Erhöhung der Verfahrenskomplexität erschwert und verlängert das Erlernen der Bedienung durch den Benutzer. Des Weiteren wird das Verfahren dadurch fehleranfälliger, da jede manuelle Interaktion unbeabsichtigte und ungewünschte Nebeneffekte auslösen kann. Beispielsweise wäre jede Betätigung von
Bedienelementen mit einer Bewegung und Berührung durch den Benutzer verbunden. Dadurch kann sich jedes Mal die Position und Ausrichtung des
Bilderfassungsgeräts ungewollt verändern. Die zusätzlich notwendige
Nachjustierung führt wiederum zu einer Anhebung des Gesamtzeitaufwandes.
Ein weiterer wichtiger Aspekt ist die Akzeptanz der Verfahren durch den Benutzer. Hierbei kann die erhöhte Komplexität der Bedienführung als Hürde für die Nutzung des Verfahrens angesehen werden. Zur Veranschaulichung wird als Beispiel ein System mit einer rechnergestützten Bildverarbeitung zur Objektidentifikation betrachtet. Ziel des Systems ist es, das auf einem Bild befindliche Objekt durch Vergleiche mit bereits bekannten Referenzobjekten zu identifizieren.
Konventionelle Systeme dieser Art benötigen für eine Vergleichsanalyse grundsätzlich Bildmaterial mit einem möglichst auf das Motiv fokussierten
Ausschnitt. Aus Gründen der Bequemlichkeit könnte der Benutzer auf die
Eingrenzung des Bildausschnitts verzichten, so dass ein optimaler Vergleich nicht mehr gewährleistet werden kann. Je komplexer die Bedienführung ist, desto mehr wird dies aus der Perspektive des Benutzers als Mehraufwand wahrgenommen.
Die beschriebenen Verfahren ohne Multi-Touch-Geste zur Markierung eines relevanten Bereichs auf einem berührungsempfindlichen Bildschirm als heutiger Stand der Technik sind weniger direkt, weniger intuitiv, da die Anwender zunehmend direkte Touchscreen-Interaktionsmöglichkeiten erwarten. Die
Verfahren benötigen im Vergleich zu der folgend beschriebenen Erfindung mehr Bedienelemente. Zusätzlich zum Auslöser sind je nach Verfahren Bedienelemente für das Vergrößern und Verkleinern des Kameraerfassungsbereichs oder ein Bedienelement zum Aktivieren des Modus zur Auswahl eines Bildausschnitts notwendig. Sowohl bei auf dem Bildschirm eingeblendeten als auch bei physisch vorliegenden Bedienelementen muss entsprechend der Platz bereitgestellt werden. Die folgend dargestellte Erfindung benötigt keine Bedienelemente, da sie allein auf einer Geste beruht. Die verschiedenen manuellen Aktionen der
Verfahren des Stands der Technik erzeugen als Gesamtheit einen höheren Zeitaufwand und eine höhere Komplexität bei der Bestimmung eines
Bildausschnitts und der Auslösung der Bilderfassung.
Jede manuelle Aktion auf dem Gerät bedeutet eine mögliche Störung der
Erfassung des Motivs. Die Position der Kamera könnte verfälscht oder die
Aufnahme verwackelt werden. Ein höherer Zeitaufwand bedeutet eine höhere Anfälligkeit gegenüber Szenenänderungen. Bei einer sich ständig ändernden
Aufnahmesituation wird das Vorhaben, das Motiv in einem bestimmten Zustand zu erfassen, durch die längere Durchführungsdauer erschwert. Ein höherer
Zeitaufwand führt außerdem dazu, dass weniger Aufnahmen innerhalb eines bestimmten Zeitraums durchgeführt werden können. Eine hohe Komplexität der Bedienführung kann eine niedrigere Akzeptanz beim Benutzer bewirken. Der
Benutzer könnte auf die Markierung eines bestimmten Bildausschnitts verzichten, falls diese für ihn einen Mehraufwand bedeute. Die Bereitschaft sinkt
insbesondere, wenn für ihn kein unmittelbarer Vorteil ersichtlich ist. Darunter fallen Einsatzbereiche, in denen die Aufnahmen nicht für ihn bestimmt sind, sondern für andere Systeme oder Personen.
Ein weiteres Verfahren offenbart die WO 201 1/007264 A1 . Eine Ausführung der Offenbarung bezieht sich auf ein Computerprogramm und eine elektronische Vorrichtung. Die elektronische Vorrichtung umfasst eine Kameraeinheit zum Generieren von Digitalbildern, einer Anzeigeeinheit zum Anzeigen des
Digitalbildes und zum Erkennen der Positionen von mindestens zwei
Berührungspunkten relativ zur Oberfläche des Bildschirms. In Folge der
Beendigung der Detektion der Berührungspunkte wird die Aufnahme des vergrößerten Digitalbildes ausgelöst. Dabei ist die Vergrößerung abhängig vom
durch die Berührungspunkte markierten Bereich. Mit dem beschriebenen
Verfahren ist es möglich, eine Bildaufnahme von einem relevanten Bereich auszulösen. Sollen weitere Aufnahmen von einem Motiv gemacht werden, muss die berührungsbasierte Geste entsprechend wiederholt werden. Das kann der Fall sein, wenn die erste Aufnahme durch ungewollte Störungen wie Verwackeln nicht der geforderten Qualität entspricht. Ein anderer Grund könnte der Wunsch nach einer Bildserie von einem sich bewegenden oder sich verändernden Motiv sein.
Weiterhin beschreibt die US 2010/020221 A1 eine Methode, die mittels einer elektronischen Vorrichtung mit einer eingebauten Kamera und einem
berührungsempfindlichen Bildschirm ausgeführt wird. Die Methode beinhaltet die Erkennung von Multi-Finger-Gesten auf dem berührungsempfindlichen Bildschirm, wobei das Kamerabild auf dem Bildschirm dargestellt wird. Mittels einer MultiFinger-Geste kann ein Bereich auf dem Bildschirm ausgewählt werden, der mit dem Bereich korrespondiert, der von der Kamera erfasst wird. Die
berührungsbasierte Geste löst eine automatische Anpassung von
Aufnahmeparametern aus, wobei der ausgewählte Bereich vorrangig
berücksichtigt wird. Die Aufnahmeparameter betreffen die Fokussierung, die Belichtung und die Farbkorrektur. Die ermittelten Aufnahmeparameter werden bei der nächsten Bildaufnahme eingesetzt. Die Auslösung der Bildaufnahme kann durch Betätigen einer Auslösetaste, das Beenden der Multi-Finger-Geste oder direkt nach der Anpassung der Aufnahmeparameter erfolgen.
Die bekannten Verfahren mit Verwendung von Multi-Touch-Gesten zur Markierung eines relevanten Bereichs auf einem berührungsempfindlichen Bildschirm als heutiger Stand der Technik bieten eine Möglichkeit, einen relevanten Bereich zu markieren und eine Bildaufnahme auszulösen. Sie weisen den Vorteil der
Einsparung von Bedienelementen, der Verminderung der Störungen durch weniger manueller Aktionen, der Verkürzung der Durchführungsdauer und der Erhöhung der Akzeptanz des Verfahrens auf.
Dennoch weisen auch diese bekannten Systeme, Vorrichtungen und Verfahren zahlreiche Nachteile auf. Die beschriebenen Verfahren mit Verwendung von Multi- Touch-Gesten zur Markierung eines relevanten Bereichs auf einem
berührungsempfindlichen Bildschirm sind darauf ausgerichtet, die Aufnahme eines Bildausschnittes auszulösen, nachdem der gewünschte Bildbereich und die
gewünschten Aufnahmeparameter Fokussierung, Belichtung und Farbkorrektur ermittelt wurden. Der gewünschte Bildbereich wird vom Benutzer ermittelt, indem er den Bildbereich mittels einer berührungsbasierten Geste markiert und die Geste mit Beenden der Detektion der Berührungspunkte auf dem
berührungsempfindlichen Bildschirm abschließt.
In bestimmten zeitkritischen Anwendungsfällen ist das bekannte Verfahren zur Bestimmung und Aufnahme von Bildausschnitten zu umständlich und
zeitaufwändig. Ein Beispiel für einen Anwendungsfall wäre die automatisierte Erkennung eines Videos als Motiv in kürzester Zeit. Hierzu wird ein
computergestütztes Bilderkennungssystem eingesetzt, welches auf
Bildverarbeitungsverfahren basiert. Zur Erhöhung der Erkennungsrate sind mehrere Bilder des Videos zu unterschiedlichen Zeiten von Vorteil. Zur Erfüllung der Anforderungen einer schnellen Erkennung und einer hohen Erkennungsrate muss der Benutzer mit den bekannten Verfahren die Kamera auf das Motiv richten und für jede Aufnahme eines Bildausschnitts eine berührungsbasierte Geste durchführen und abschließen. Je höher die angestrebte Anzahl der Aufnahmen ist, desto häufiger ist die berührungsbasierte Geste durchzuführen. Dies kann wiederum zu einer verstärkten Beeinträchtigung der Position der Kamera und zu möglichen verwackelten Aufnahmen führen. Außerdem ist das Zeitintervall zwischen zwei Aufnahmen mindestens abhängig von der Durchführungszeit pro berührungsbasierte Geste und kann nicht kürzer als diese Durchführungszeit sein.
Ein weiteres Beispiel für einen Anwendungsfall stellt die angestrebte Aufnahme eines Bildausschnitts mit dem enthaltenen relevanten Motiv zu einem bestimmten Moment dar. Mit den bekannten Verfahren muss der Benutzer bis kurz vor diesen Moment warten und danach die berührungsbasierte Geste durchführen und abschließen. Zur Erhöhung der Wahrscheinlichkeit, den einen Moment mit der eingesetzten Vorrichtung aufzunehmen, kann die Anzahl der Bildaufnahmen durch wiederholtes Durchführung der berührungsbasierten Geste erhöht werden. Dies kann wiederum zu einer verstärkten Beeinträchtigung der Position der Kamera und zu möglichen verwackelten Aufnahmen führen.
Ein weiteres Beispiel für einen Anwendungsfall ist die Extraktion von
Informationen aus mehreren Aufnahmen eines bestimmten Motivs anhand von Bildausschnitten. Hierbei kann es sich um die Registrierung und Messung von
Veränderung handeln. Die Erfassung der Bildausschnitte kann durch das wiederholte Durchführen der berührungsbasierten Geste realisiert werden. Dies kann wiederum zu einer verstärkten Beeinträchtigung der Position der Kamera und zu möglichen verwackelten Aufnahmen führen. Es bestand daher ein starkes Bedürfnis, Vorrichtungen, Systeme oder Verfahren bereitzustellen, welche die Nachteile des Standes der Technik nicht aufweisen.
Es war völlig überraschend, dass die erfindungsgemäßen Mittel und Verfahren die genannten Nachteile des Standes der Technik nicht aufweisen. Die
erfindungsgemäßen Mittel und Verfahren werden durch den Hauptanspruch und durch die unabhängigen Ansprüche definiert. Vorteilhafte Ausführungsformen der Erfindung ergeben sich durch die Unteransprüche.
Es war völlig überraschend, dass eine Methode zur Bestimmung eines
Bildausschnittes und Durchführung mindestens einer Bilderfassung mit einer Kamera, aufweisend einen Bildschirm und eine berührungsempfindliche
Oberfläche mit Multi-Touch-Funktion, mittels einer einzigen berührungsbasierten Geste die Nachteile des Standes der Technik nicht aufweist, wobei a) die Kamera auf ein Motiv gerichtet und b) ein Bild des Motivs auf dem Bildschirm angezeigt, c) der gewünschte Bereich des Motivs mit der berührungsbasierten Geste auf der genannten Oberfläche markiert, d) mindestens eine Bilderfassung während der genannten Geste ausgelöst wird, wobei die Größe und Position des zum Zeitpunkt der Auslösung markierten Bereichs zum Erzeugen des Bildausschnitts verwendet wird und e) die Auslösung der Bilderfassungen durch Beenden der genannten Geste gestoppt wird.
Im Sinne der Erfindung bezeichnet der Begriff Bild allgemein einen
zweidimensionalen Satz von Pixeln, die eine zweidimensionale Ansicht eines Gegenstandes auf einer Bildebene, bevorzugt auf der berührungsempfindlichen Oberfläche mit Multi-Touch-Funktion, bilden.
Im Zusammenhang mit der Erfindung ist Bildschirm mit Multi-Touch-Funktion ein kombiniertes Ein- und Ausgabegerät, bei dem durch Berührung von Teilen eines Bildes der Programmablauf eines technischen Gerätes, meist eines Computers, direkt gesteuert werden kann. Das Bild, welches durch das darauf oder darunter
befindliche Touchpad berührungsempfindlich gemacht wird, kann auf
verschiedene Weise erzeugt werden: dynamisch mittels Monitoren, über
Projektion oder physikalisch.
Im Sinne der Erfindung sollen Begriffe wie Bild, Multi-Touch-Funktion, Kamera, Motiv in ihrer Verwendung zur Beschreibung von Aspekten der Erfindung allgemein vielfältige Techniken bezeichnen, die im Zusammenhang mit der Bilderfassung und des Auslösens von Bildaufnahmen zum Einsatz kommen können, um Bilder mit einer Kamera aufzunehmen und zu verarbeiten. Zu jedem Element der erfindungsgemäßen Lehre, insbesondere der Vorrichtungen, kann auch jede physische Hardware im Zusammenhang mit der Aufnahme von Motiven und ihrer Verarbeitung gehören. Somit sollen Begriffe wie Bilderfassung,
Bildausschnitt, berührungsbasierte Geste, Multi-Touch-Funktion, Kamera und andere weit gefasst interpretiert werden, sofern keine spezifischere Bedeutung anderweitig angegeben ist oder aus dem Kontext hervorgeht. Die Erfindung betrifft daher in einem Aspekt die Verwendung eines
Bilderfassungsgerätes zur Aufnahme von Bildern von einem Motiv, so dass unterschiedliche gewünschte Motive ohne deren Umgebung erfasst werden können. Dabei werden die Bestimmung des Bildausschnittes und die Auslösung der Bilderfassungen mittels einer einzigen berührungsbasierten Geste
durchgeführt. Ein wesentlicher Bestandteil der erfindungsgemäßen Lehre ist daher ein Bilderfassungsgerät mit einer Kamerafunktion, des Weiteren ein Bildschirm und eine berührungsempfindliche Oberfläche mit Multi-Touch-Fähigkeit. Als Multi- Touch-Fähigkeit wird insbesondere die Fähigkeit verstanden, gleichzeitig mehrere Berührungen - beispielsweise mittels zweier Finger - zu erkennen und
verarbeiten zu können. Die gleichzeitig mehreren Berührungen werden bevorzugt als berührungsbasierte Gesten von Fingern realisiert. Der Bildschirm dient zur Anzeige des Bilderfassungsbereiches und gibt dem Benutzer die Möglichkeit, Effekte insbesondere seiner Gesten unmittelbar nachzuverfolgen.
In einer bevorzugten Ausführungsform der Erfindung ist der Bildschirm mit der berührungsempfindlichen Oberfläche direkt miteinander kombiniert. D. h., die berührungsempfindliche Oberfläche liegt direkt auf dem Bildschirm und ist mit diesem gekoppelt. Denkbar wären allerdings auch Versionen des
Bilderfassungsgerätes, bei dem die berührungsempfindliche Oberfläche nicht direkt auf dem Bildschirm liegen muss.
In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass die berührungsbasierte Geste mittels mindestens zweier Finger, bevorzugt von einer einzigen Hand durchgeführt wird. Der Benutzer hat die Möglichkeit, die Veränderung des Bildausschnittes durch die berührungsbasierten Gesten mittels bevorzugt mindestens zweier Finger unmittelbar und direkt zu steuern und zu korrigieren.
In einer weiteren bevorzugten Ausführungsform der Erfindung berühren bei zwei Fingern die beiden Finger die genannte Oberfläche an zwei Punkten P1 und P2 und die Position der Punkte wird durch einen Auswahlrahmen in Form einer geometrischen Figur, vorzugsweise eines Rechteckes, miteinander verbunden, wobei die Position und die Größe des Auswahlrahmens durch die
Berührungspunkte bestimmt wird. Der Auswahlrahmen kann jede geometrische Figur wie einen Kreis, ein Sechseck, ein Dreieck oder andere Figuren einnehmen, wobei allerdings Rechtecke bevorzugt sind.
In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass die Beendigung der Bilderfassungen erfolgt, indem der Benutzer seine Finger von der berührungsempfindlichen Oberfläche hebt, wobei das Heben der Finger im Wesentlichen gleichzeitig erfolgt und wobei der Zeitraum zwischen dem Heben des ersten und des letzten Fingers weniger als eine Sekunde beträgt, bevorzugt weniger als 300 Millisekunden.
Gemäß der genannten bevorzugten Ausführungsformen der Erfindung kann der Benutzer das erfindungsgemäße Verfahren beginnen, indem er die
Kamerafunktion des Bilderfassungsgerätes startet und die Kamera auf das relevante Motiv richtet. Hierbei wird das Kamerabild auf dem Bildschirm des Gerätes angezeigt. Der Benutzer kann nun beispielsweise mittels zweier Finger per berührungsbasierter Geste einen bestimmten Bereich auf der
berührungsempfindlichen Oberfläche mit Multi-Touch-Funktion markieren, indem er mit seinen Fingern die genannte Oberfläche berührt. Auf dem Bildschirm wird zwischen den beiden Punkten, an denen die Finger die Oberfläche berühren, ein Auswahlrahmen in Form einer geometrischen Figur gespannt, wobei die Finger
das Ausmaß des Rahmens definieren und somit begrenzen. Die Position und die Ausdehnung des Auswahlrahmens werden durch die relative Position der Finger bestimmt. So lange die Berührung besteht, kann durch das Verschieben der Finger der Auswahlrahmen entsprechend der Anforderungen des Benutzers skaliert werden. Dadurch kann eine genaue Markierung des gewünschten
Bildausschnittes erreicht werden. Mithilfe des Auswahlrahmens kann eine
Autofokusfunktion auf den gewünschten Bereich begrenzt werden, wenn die entsprechende Funktionalität vom jeweiligen Gerät und Betriebssystem
bereitgestellt werden. Dabei wird die Position des Autofokusbereichs auf den Mittelpunkt des Auswahlrahmens gelegt. Mit der gezielten Fokussierung kann eine schärfere Abbildung des gewünschten Motivs erreicht werden. Unmittelbar nach Detektion der Berührungspunkte der beiden Finger auf der
berührungsempfindlichen Oberfläche und während der ausgeführten
berührungsbasierten Geste wird bevorzugt die erste Bildaufnahme ausgelöst. Gemäß dem Auswahlrahmen wird insbesondere aus der Bildaufnahme ein entsprechender Bildausschnitt erzeugt.
Hierbei kann es beispielsweise in einer bevorzugten Ausführungsform der
Erfindung vorgesehen sein, dass x1 und y1 die Koordinaten des ersten
Berührungspunktes P1 und x2 und y2 die Koordinaten des zweiten
Berührungspunktes P2 sind und die beiden Punkte als gegenüberliegende
Eckpunkte des bevorzugt einzublendenden Rechtecks darstellen, wobei die restlichen zwei Eckpunkte P3 und P4 mithilfe der Koordinaten der bekannten Eckpunkte mittels P3 (x1 ; y2) und P4 (x2; y1 ) visuell, insbesondere als gestrichelte Linien, dargestellt werden. In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass nach Erzeugen des Bildausschnitts die Weiterverarbeitung des
Bildausschnitts erfolgt, indem relevante Informationen aus dem Bildausschnitt von einer dafür vorgesehenen Verarbeitungseinheit extrahiert werden. Diese
Verarbeitungseinheit kann Teil des Bilderfassungsgeräts sein oder sich in einer externen Vorrichtung befinden.
In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass nach Erzeugen des ersten Bildausschnitts weitere Bilderfassungen während der berührungsbasierten Geste durchgeführt werden. Dabei erfolgt die
nächstfolgende Bilderfassung erst, wenn der Bildinhalt des derzeitigen
Auswahlrahmens sich genügend stark von dem des zuvor erzeugten
Bildausschnitts unterscheidet. Hierzu wird vorzugsweise eine erste Funktion verwendet, die Bilder nach bestimmten Kriterien miteinander vergleichen kann und Werte gemäß seinem Ähnlichkeitsmaß zurückliefert. Die erste Auslösung der Bilderfassung erfolgt insbesondere unmittelbar nach Beginn der Geste. Das Auslösen der nachfolgenden Bilderfassungen erfolgt jeweils, wenn der
Bildausschnitt des aktuellen Kamerabilds sich vom Bildausschnitt der letzten Bilderfassung gemäß des Ähnlichkeitsmaßes der genannten Funktion genügend stark unterscheidet. Die Grenze, ab der zwei Bildausschnitte als genügend stark unterschiedlich anzusehen sind, wird vorher festgelegt.
Weiterhin ist es bevorzugt, wenn bei Vorliegen des Auswahlrahmens die
Autofokusfunktion auf den gewünschten Bereich angewendet wird, wobei die Position des Autofokus auf den Mittelpunkt des Auswahlrahmens gelegt wird. Im Sinne der Erfindung können Bilderfassungsgeräte alle EDV-Systeme sein, wie Mobiltelefone, Personal Digital Assistants (PDA), Smartphones, PCs,
programmierbare Unterhaltungselektronik, Digitalkameras, Minicomputer,
Laptopgeräte etc. Diese Bilderfassungsgeräte können einen automatischen Fokus-Mechanismus zur automatischen Anpassung von Fokuseinstellungen besitzen. Der automatische Fokus - auch Autofokus genannt - ist eine Technik in optischen Apparaten, die es ermöglicht, auf das Motiv scharf zu stellen. Im Sinne der Erfindung wird durch den Begriff des Autofokus sowohl der passive als auch der aktive Autofokus erfasst. Selbstverständlich kann es im Sinne der Erfindung auch vorgesehen sein, dass die Scharfstellung des Motivs durch einen manuell zu bedienenden Fokus erfolgt. Ziel des automatischen oder manuellen Fokus ist die Fokussierung der Linse mittels eines Computers, der mit einem Minimotor assoziiert vorliegt. Die Fokussierung erfolgt durch die Bewegung des Objektivs so lange, bis die jeweils schärfsten Bilder des Motivs auf einen Bildsensor bzw. die berührungsempfindliche Oberfläche projiziert werden. Oberflächen mit Multi-Touch-Funktion können Bildschirme mit resistiven
Touchscreens sein, wie sie in Tablet PCs, Electronic Organizer, PDAs oder Handys/Smartphones verarbeitet werden. Weiterhin ist die Verwendung von kapazitiven Touchscreens möglich, wie sie in Smartphones wie dem Apple
iPhone, iPad oder dem HTC Dream oder Microsofts Zune HD bzw. Motorola Backflip, Palm Pre und Samsung Galaxy genutzt werden. Außerdem ist die Verwendung optischer Touchscreens möglich bzw. der Einsatz induktiver
Touchscreens. Die Erfindung betrifft auch das maschinenimplementierte Verfahren zur
Bestimmung eines Bildausschnittes und zur Durchführung einer Bilderfassung mit einer Kamera. Weiterhin betrifft die Erfindung ein maschinenlesbares Medium mit einem ausführbaren Computerprogramm, welches die Bestimmung eines
Bildausschnittes und die Durchführung von Bilderfassungen mit einer Kamera im Sinne der Erfindung erlaubt. Das maschinenimplementierte Verfahren sowie das maschinenlesbare Medium mit dem ausführbaren Computerprogramm weisen die für das Verfahren beschriebenen Vorrichtungsmerkmale wie Kamera, Bildschirm, berührungsempfindliche Oberfläche mit Multi-Touch-Funktion sowie weitere im Stand der Technik bekannten Elemente für Bilderfassungsgeräte, wie sie z. B. für Smartphones bekannt sind, auf.
Im Folgenden soll die Erfindung anhand eines Beispiels etwas näher erläutert werden, ohne auf dieses Beispiel beschränkt zu sein.
Als Beispiel wird ein Server-Client-System mit einer rechnergestützten
Bildverarbeitung zur Objektidentifikation betrachtet. Der Server ist eine
Applikation, welches die Objektidentifikation als Dienst anbietet und zentral über einen Rechner von anderen Applikationen, den Clients, angesprochen wird. Die Objektidentifikation basiert auf dem Vergleich der zu untersuchenden
Objektabbildung (Anfragebild), mit bereits bekannten Objektabbildungen
(Referenzbilder). Dazu werden aus den Referenzbildern, die für eine Suche relevanten Informationen extrahiert und in einer Datenbank abgelegt. Neben der Datenbank und den Algorithmen für die Bildsuche besitzt der Server Methoden für die Kommunikation zwischen Server und Clients.
Über einen Client können Benutzer Anfragebilder generieren und für die Bildsuche an den Server weiterleiten. Voraussetzung für die Generierung der Anfragebilder ist das Vorhandensein einer Kamerafunktion auf dem Bilderfassungsgerät, auf dem die Client-Applikation ausgeführt wird. Für die Erfindung ist außerdem eine berührungsempfindliche Oberfläche mit Multi-Touch-Fähigkeit, die über Finger zu
bedienen ist, erforderlich. Als Multi-Touch-Fähigkeit wird die Fähigkeit des Geräts verstanden, gleichzeitig mehrere Berührungen zu erkennen und verarbeiten zu können. Zur Erfassung von Bildern wird daher ein Mobiltelefon eingesetzt, welches eine Kamera und einen berührungsempfindlichen Bildschirm mit Multi- Touch-Fähigkeit besitzt. Der Bildschirm des Mobiltelefons dient zur Anzeige der Bilddaten und der grafischen Elemente für die Bedienführung. Zum Senden von Daten an den Server und zum Empfangen von Daten vom Server werden die vom Mobiltelefon bereitgestellten Kommunikationswege benutzt. Das auf dem
Mobiltelefon laufende Betriebssystem stellt dabei sämtliche Funktionen zur Verfügung, die von Applikationen zur Ansteuerung der eingebauten Hardware verwendet werden können.
Zum Generieren von Anfragebildern wird die Client-Applikation auf dem
Mobiltelefon gestartet. Die Applikation befindet sich nun im Aufnahmemodus und ruft über eine vom Betriebssystem bereitgestellte Funktion permanent Bilddaten von der Kamera ab, um diese in Echtzeit auf dem Bildschirm anzuzeigen.
Überdies werden die Eingabedaten der berührungsempfindlichen Oberfläche im Aufnahmemodus von der Client-Applikation im Hintergrund ständig abgefragt und verarbeitet. Die Eingabedaten umfassen die Anzahl der Berührungspunkte, die kartesischen Koordinaten auf dem Bildschirm zu dem jeweiligen Berührungspunkt und das Berührungsereignis. Durch die Kopplung des Bildschirms und der berührungsempfindlichen Oberfläche entsprechen in den meisten Mobiltelefonen die Koordinaten der Berührungspunkte den Koordinaten auf dem Bildschirm. Mögliche Berührungsereignisse können folgende sein: Start der Berührung, Positionsänderung der Berührung, Beenden der Berührung durch Heben des Fingers.
Der Benutzer kann nun die Kamera auf ein bestimmtes Motiv richten, so dass das Motiv auf dem Bildschirm erscheint. Das Motiv kann ein starres, ein sich optisch änderndes oder bewegendes Objekt sein. Beispiele hierfür sind Werbeplakate, Tiere, fahrende Autos und Geräte zum Anzeigen von Bewegtbildern. Zur Auswahl eines Bildausschnitts führt der Benutzer eine Geste aus, indem er mit seinen Fingern zwei Stellen auf dem Bildschirm berührt, die um das relevante Motiv herum liegen. Sobald das Gerät eine Berührung von genau zwei Stellen durch den Benutzer auf der Oberfläche eindeutig registriert und diese Information durch die
Applikation abgerufen wurde, wird auf Basis der beiden Berührungspunkte ein Auswahlrahmen in Form eines Rechtecks auf den Bildschirm gespannt. Die Position und Größe des Auswahlrahmens wird folglich durch die
Berührungspunkte bestimmt. Seien und die Koordinaten des ersten
Berührungspunkts und x2 und y2 die Koordinaten des zweiten
Berührungspunkts P2. Die beiden Stellen werden als gegenüberliegende
Eckpunkte des einzublendenden Rechtecks betrachtet. Die restlichen zwei Eckpunkte P3 und P4 werden mit Hilfe der Koordinaten der bekannten Eckpunkte wie folgt ermittelt: Ps(xi; 2) und P (x2;yi). Zur visuellen Darstellung des
Auswahlrahmens werden zum Beispiel gestrichelte Linien zwischen den
Eckpunkten angezeigt. Zum Einzeichnen der grafischen Elemente verwendet die Client-Applikation die vom Betriebssystem vorgesehenen Methoden. Bei Vorliegen des Auswahlrahmens kann die Autofokus-Funktion auf den ausgewählten Bereich angewendet werden, wenn das Gerät und das Betriebssystem die entsprechende Funktionalität anbietet. Dabei wird die Position des Fokusbereichs auf den
Mittelpunkt des Auswahlrahmens gelegt. Durch die Einblendung des
Auswahlrahmens kann der Benutzer seine Markierung überprüfen und bei Bedarf korrigieren. Sollte eine Nachjustierung des Auswahlrahmens notwendig sein, kann der Benutzer den Auswahlrahmen durch das Bewegen seiner Finger und damit der Berührungspunkte anpassen. Die Positionsänderung der Berührungspunkte werden von der Oberfläche registriert, woraufhin die Applikation eine Anpassung der Anzeige mit den neuen Koordinaten vornimmt. Unmittelbar nach Detektion der Berührungspunkte der beiden Finger auf der berührungsempfindlichen Oberfläche und während der ausgeführten berührungsbasierten Geste wird vorteilhafterweise die erste Bildaufnahme ausgelöst. Gemäß dem Auswahlrahmen wird aus der Bildaufnahme ein entsprechender Bildausschnitt erzeugt. Nach Erzeugen des ersten Bildausschnitts werden weitere Bilderfassungen während der
berührungsbasierten Geste durchgeführt. Dabei erfolgt die nächstfolgende
Bilderfassung erst, wenn der Bildinhalt des derzeitigen Auswahlrahmens sich genügend stark von dem des zuvor erzeugten Bildausschnitts unterscheidet.
Hierzu wird eine Verarbeitungseinheit verwendet, die die Bewegung eines bestimmten Motivs aus zwei Bildern ermitteln kann. Mögliche Methoden sind im Bereich„Optical Flow" der Bildverarbeitung zu finden. Wird zwischen zwei aufeinanderfolgenden Bildausschnitten eine starke Bewegung oder Veränderung
des Motivs registriert, wird die nächste Bilderfassung ausgelöst. Die Grenze, ab der die Bewegung als genügend stark anzusehen ist, wird vorher festgelegt.
Es ist bevorzugt, dass die Bildausschnitte direkt nach der Erfassung
weiterverarbeitet werden, um gewünschte Informationen zu extrahieren. Die Weiterverarbeitung der Bildausschnitte kann vorzugsweise innerhalb der
Vorrichtung, in der sich die Kamera befindet, erfolgen oder außerhalb, indem die Bildausschnitte an eine externe Vorrichtung versendet wird.
Vorzugsweise werden die Bildausschnitte nach der Erfassung gesammelt und erst nach Beendigung der Geste weiterverarbeitet, um gewünschte Informationen zu extrahieren. Die Weiterverarbeitung der Bildausschnitte kann insbesondere innerhalb der Vorrichtung, in der sich die Kamera befindet, erfolgen oder außerhalb, indem die Bildausschnitte an eine externe Vorrichtung versendet wird.
Ferner ist bevorzugt, dass eine zweite Funktion existiert, die ein Bild nach bestimmten Qualitätskriterien bewerten kann. Vorteilhafterweise kann eine dritte Funktion, die Bilder anhand der Qualitätsbewertungen der zweiten Funktion miteinander vergleichen. Mit Hilfe der beiden genannten Funktionen können bestimmte Bildausschnitte herausgefiltert werden.
Das Beenden der Bilderfassungen erfolgt bevorzugt, indem der Benutzer seine Finger von der berührungsempfindlichen Oberfläche hebt. Das Heben der beiden Finger muss nahezu gleichzeitig erfolgen, wobei der Zeitraum zwischen dem Heben des ersten Fingers und dem des zweiten Fingers 300 ms betragen kann. Außerhalb des Zeitraumes werden die Hebebewegungen nicht als gleichzeitig angesehen und der Auswahlprozess abgebrochen. Ein Abbruch des
Auswahlprozesses kann auch erfolgen, wenn nicht genau zwei Berührungspunkte existieren, z.B. durch Berühren der Oberfläche mit mehr als zwei Fingern oder durch einen zu geringen Abstand zwischen den beiden Berührungspunkten, so dass die berührungsempfindliche Oberfläche nicht eindeutig zwei
Berührungspunkte registrieren kann. Aufgrund der einfachen und
ineinandergreifenden Bildausschnittsbestimmung und Aufnahmeauslösungen ist eine Ausführungszeit von wenigen Millisekunden möglich.
Nach Auslösen einer Bildaufnahme durch das Ausführen einer vom Betriebssystem vorgesehenen Methode erhält die Client-Applikation die Bilddaten der Kamera. Mittels der Koordinaten des Auswahlrahmens extrahiert die
Applikation den entsprechenden Bildausschnitt aus dem aufgenommenen Bild. Auch hierfür ruft die Applikation eine vorhandene Methode des Betriebssystems auf oder verwendet eine eigene Methode zum Ausschneiden von Bilddaten aus einem vorgegebenen Bereich. Die so erzeugten Bildausschnitte können
vorteilhafterweise danach zum Abgleich mit den bekannten Referenzobjekten an den Server gesendet werden. Das Versenden eines Bildausschnitts statt der gesamten erfassten Bildaufnahme kann aufgrund des geringeren
Bilddatenvolumens bedeutend schneller erledigt werden. Gleichzeitig werden auch die Kommunikationswege weniger beansprucht und der Speicherverbrauch verringert, was zu Kosteneinsparungen führen kann. Beim Vorliegen eines
Ergebnisses wird die Client-Applikation entsprechend benachrichtigt. Das beschriebene System verwendet spezielle Algorithmen für den effizienten und zuverlässigen Vergleich von Bildern. Dazu werden aus Bildern die für einen Vergleich notwendigen Merkmale extrahiert. Für die Identifikation von Objekten dienen als Grundlage Objektabbildungen, die möglichst keinen Hintergrund enthalten und keine sonstigen Bildelemente, die nicht Teile des Objekts
repräsentieren. Somit kann sichergestellt werden, dass ausschließlich die
Merkmale des betrachteten Objekts berücksichtigt werden. In dem Kontext des beschriebenen Systems werden solche Objektabbildungen als qualitativ hochwertig bezeichnet. Das bedeutet, dass die Verwendung von hochwertigen Bildern die Erkennungsrate des Systems erhöhen kann. Es ist daher wichtig, dass Bilder von Motiven ohne störende Umgebungselemente erzeugt werden. Mit dem vorgestellten Verfahren über eine berührungsbasierte Geste kann diese
Anforderung durch den Benutzer leicht erfüllt werden.
Das System mit den Algorithmen für den Vergleich von Bildern kann auf die Erkennung von Videos erweitert werden. Videos werden aus vielen Einzelbildern zusammengesetzt. Diese Einzelbilder oder eine geeignete Untergruppe von Einzelbildern können als Referenzbilder im System abgelegt werden und das Video repräsentieren. Soll ein Video über den beschriebenen Client identifiziert werden, wird eine Momentaufnahme des Videos als Anfragebild an den Server
zum Abgleich gesendet. Die Erkennungsrate kann über eine Erhöhung der Anzahl von Momentaufnahmen verbessert werden. Mit dem vorgestellten Verfahren über die Bilderfassungen während einer berührungsbasierte Geste kann diese
Anforderung durch den Benutzer leicht erfüllt werden. Die Erfindung bzw. vorteilhafte Ausführungsformen der Erfindung werden im Folgenden anhand von Figuren beispielhaft dargestellt.
Abb. 1 zeigt ein Bilderfassungsgerät (1 ) sowie das Motiv (2), den
Kameraerfassungsbereich (3) sowie die Kamera (4). In Abb. 1 ist dargestellt, dass der Benutzer die Kamera auf das von ihm gewünschte Motiv gerichtet hat und das Kamerabild auf dem Bildschirm des Gerätes angezeigt wird (2). Wie in Abb. 2 dargestellt, kann der Benutzer nun per berührungsbasierter Geste mittels zweier Finger einen bestimmten Bereich markieren, indem er mit den zwei Fingern äußere Bereiche des Motivs berührt und somit den Auswahlrahmen (5) spannt, wobei die Finger das Ausmaß des Rahmens begrenzen. Die Position und die Ausdehnung des Auswahlrahmens werden durch die relative Position der Finger bestimmt. Während der Durchführung der berührungsbasierten Geste werden bevorzugt die Bildaufnahmen ausgelöst und die Bildausschnitte erzeugt. Die Bilderfassungen werden gestoppt, wenn die beiden Finger von der
berührungsempfindlichen Oberfläche gehoben werden. In der
Übersichtsdarstellung gemäß Abb. 3 wird dieser Vorgang illustriert, wobei es bevorzugt ist, dass die Bilderfassungen in festgelegten zeitlichen Abständen ausgelöst werden. Es ist ferner bevorzugt, dass der Zeitpunkt der Auslösung einer Bilderfassung abhängig von der jeweils vorangegangenen Auslösung der
Bilderfassung und des zugehörigen Zeitaufwands für die mögliche
Weiterverarbeitung des erfassten Bildes ist. In einer weiteren Ausführungsform erfolgt die erste Auslösung der Bilderfassung vorteilhafterweise nach Beginn der Geste, insbesondere unmittelbar nach Beginn der Geste. Der Begriff„unmittelbar" bezeichnet im Sinne der Erfindung insbesondere, dass die Auslösung der
Bilderfassung im Wesentlichen ohne zeitliche Verzögerung nach Beginn der Geste erfolgt. In Abb.4 ist der Vorgang illustriert, bei dem die Bilderfassungen
hintereinander durchgeführt werden. In Abb. 5 ist der Vorgang illustriert, bei dem das Auslösen einer Bilderfassung jeweils erfolgt, wenn der Bildausschnitt des aktuellen Kamerabilds sich vom Bildausschnitt der letzten Bilderfassung genügend
stark unterscheidet. Die Bewertung der Unterschiedlichkeit zweier Bildausschnitte wird mittels einer dafür vorgesehenen Verarbeitungseinheit durchgeführt.
Die folgende Zusammenfassung und die o. g. Ausführungsformen enthalten keine erschöpfende Darstellung aller Aspekte der vorliegenden Erfindung. Es ist vorgesehen, dass die Erfindung alle Systeme und Methoden, die der Fachmann als gleichwirkend erkennt und die beispielsweise eine Kombination der verschiedenen o. g. Aspekte darstellen, umfasst.