DE112019001121T5

DE112019001121T5 - Erkennen von malware

Info

Publication number: DE112019001121T5
Application number: DE112019001121.9T
Authority: DE
Inventors: Andrey Finkelshtein; Eitan Menahem
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-05-15
Filing date: 2019-04-24
Publication date: 2020-11-19
Anticipated expiration: 2039-04-25
Also published as: CN112041815B; JP2021523434A; WO2019220241A1; GB202018989D0; US20190354682A1; US10846403B2; CN112041815A; DE112019001121B4; GB2586195A; JP7300804B2

Abstract

Auf einem Computer implementiertes Verfahren zum Identifizieren von Malware in Computersystemen, das aufweist: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind, Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind, Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist, Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist, und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.

Description

HINTERGRUND
Die vorliegende Erfindung behandelt Techniken zum Erkennen von schädlichen ausführbaren Programmdateien durch Durchführen einer statischen Analyse der Überlagerung (overlay) von ausführbaren Programmdateien.
Schädliche Dateien (Malware) bergen ein großes Risiko für private Benutzer und Organisationen. Die Aufgabe, Malware zu erkennen, ist seit einigen Jahren ein großes Problem, da die Anzahl der Arten von Malware zunimmt und die Techniken zum Maskieren von Malware ständig verbessert werden.
Bei den derzeitigen schädlichen ausführbaren Programmen werden verschiedene und vielfältige Techniken verwendet, um ein Erkennen durch Antivirensysteme (AV) zu verhindern. Diese Techniken, z.B. Code-Packing, Polymorphie, Metamorphose, Verschlüsselung usw., werden in der Regel „vor Ort“ durchgeführt, d.h. in Teilen der schädlichen Datei, die zu Beginn der Ausführung der Datei in den Speicher geladen werden. Bestehende Mechanismen zum Erkennen eines solchen schädlichen Codes arbeiten mit hoher Effizienz und Wahrscheinlichkeit, so dass solche Angriffe weniger erfolgreich sind. Daher wurde Malware so weiterentwickelt, dass die Schadensroutine (Payload) in Abschnitten der Datei versteckt wird, die beim Ausführen der Datei nicht in den Speicher geladen werden, d.h. wo Schadensroutinen nicht erwartet werden. Nachdem ihr „unschädlicher“ Inhalt in den Speicher geladen wurde, lädt solche Malware ihren schädlichen Inhalt aus anderen Quellen und umgeht so die bestehenden Abwehrmechanismen. Eine der beliebtesten Techniken zum Durchführen dieser schwer erkennbaren Technik ist das Anhängen der Schadensroutine als Überlagerung der Datei.
Eine Überlagerung einer ausführbaren Programmdatei kann als ein Zusatz zu der Datei definiert werden, der nicht im Header der Datei angegeben ist. Es gibt also keine Informationen über das Vorhandensein oder den Inhalt der Überlagerung in der Datei. Die Überlagerung wird nicht in den Speicher geladen, wenn die Datei ausgeführt wird. Durch einfache Programmierung kann jedoch der „unschädliche“ laufende Prozess veranlasst werden, den schädlichen Inhalt der Überlagerung auszulesen und ihn zur Laufzeit in den Hauptspeicher des Computers zu laden. Dieser Code-Ladevorgang unterscheidet sich grundlegend von einer herkömmlichen Dateiausführung, so dass bestehende Erkennungsmechanismen heutiger Antivirensysteme solche Aktionen möglicherweise nicht als schädlich erkennen. Zudem ist es relativ einfach, eine Überlagerung zu einem bestehenden unschädlichen Code hinzuzufügen, da die Überlagerung an jede ausführbare Programmdatei angehängt werden kann, ohne deren elektronischen Signierungsmechanismus zu zerstören. Der Signierungsmechanismus ermöglicht ein Überprüfen der Herkunft oder des Namens des Erstellers des betreffenden ausführbaren Programms.
Auch wenn Malware-Entwickler die Überlagerung verwenden können, „belastet“ das alleinige Vorhandensein einer Überlagerung eine Datei nicht unbedingt. Es gibt berechtigte Anwendungen für Überlagerungen von ausführbaren Programmdateien in unschädlicher Software. Beispielsweise kann eine Überlagerung nützlich sein, wenn Daten zu einem Programm hinzugefügt werden sollen, ohne zusätzliche Dateien hinzuzufügen. Dementsprechend wird mit den vorhandenen Techniken das Problem nicht angemessen behandelt, schädliche Inhalte in einer Überlagerung einer ausführbaren Programmdatei zu erkennen.
Es besteht ein Bedarf an Techniken zum Erkennen schädlicher Software, die sich in einer Überlagerung einer ausführbaren Programmdatei befindet.
KURZDARSTELLUNG
Ausführungsformen der vorliegenden Systeme und Verfahren können schädliche ausführbare Programmdateien auf der Grundlage einer Überlagerung der ausführbaren Programmdatei erkennen, wodurch eine Verbesserung gegenüber heutigen Technologien bereitstellt wird. In Ausführungsformen kann eine verdächtige ausführbare Programmdatei analysiert werden, indem die Überlagerung der Datei (falls vorhanden) extrahiert wird, die Überlagerung analysiert wird und mittels der Analyse verschiedene Eigenschaften der Überlagerung ermittelt werden. Diese Eigenschaften können (möglicherweise mit anderen Eigenschaften der Datei) an einen Klassifikator weitergegeben werden, der entscheidet, ob die Datei schädlich oder unschädlich ist.
In einer Ausführungsform kann ein auf einem Computer implementiertes Verfahren zum Identifizieren von Malware in Computersystemen beispielsweise aufweisen: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind, Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind, Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist, Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist, und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.
In Ausführungsformen können die extrahierten Eigenschaften mindestens eine Eigenschaft umfassen, die aus einer Gruppe ausgewählt wird, die grundlegende Überlagerungseigenschaften aufweist, darunter Vorhandensein der Überlagerung und/oder eine Größe der Überlagerung und/oder ein Verhältnis zwischen der Größe der Überlagerung und einer Größe der ausführbaren Programmdatei und/oder statistische Inhaltseigenschaften von Datenblöcken der Überlagerung der ausführbaren Programmdatei und/oder Deep-Content-Eigenschaften, die einen Inhalt der Überlagerung charakterisieren, darunter Reputation von URLs und/oder Domains und IP-Adressen, die in der Überlagerung gefunden wurden und/oder Signaturen oder Fingerabdrücke, die im Binärcode der Überlagerung gefunden wurden und/oder Textanalyse des lesbaren Inhalts der Überlagerung sowie andere Eigenschaften auf der Grundlage von Techniken zur Dateianalyse, die modifiziert oder an eine Überlagerungsanalyse angepasst wurden, zum Beispiel ein N-Gramm der Überlagerung. Das maschinelle Lernmodell kann mindestens ein Modell aufweisen, das aus einer Gruppe ausgewählt wird, die überwachte Lernmodelle umfasst, darunter ein Klassifikatormodell, ein neuronales Netzwerkmodell, ein Bayes-Modell, ein Entscheidungsbaummodell, ein Support-Vector-Maschinenmodell, sowie unüberwachte Lernmodelle umfasst, darunter ein Clustering-Modell und ein neuronales Netzwerkmodell. Die Eigenschaften können durch statische Analyse aus den Überlagerungen extrahiert werden, wobei die ausführbaren Programmdateien und Überlagerungen untersucht werden, wenn sie nicht ausgeführt werden. Die empfangenen ausführbaren Programmdateien können von einer Quelle empfangen werden, die einen Webbrowser und/oder eine eMail-Nachricht und/oder ein Dateisystem umfasst. Bei der Überlagerung kann es sich um eine PE-Datei (Portable Executable) handeln, und das Ermitteln erfolgt durch Analyse der Überlagerung getrennt von jeglicher Analyse anderer Abschnitte der empfangenen ausführbaren Programmdatei.
In einer Ausführungsform kann ein System zum Identifizieren von Malware in Computersystemen einen Prozessor, einen Speicher, auf den der Prozessor zugreifen kann, und Anweisungen für Computerprogramme aufweisen, die im Speicher gespeichert sind und durch den Prozessor ausführbar sind zum Durchführen von: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind, Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind, Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist, Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist, und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.
In einer Ausführungsform kann ein Computerprogrammprodukt zum Identifizieren von Malware in Computersystemen einen nichtflüchtigen computerlesbaren Speicher aufweisen, in den Programmanweisungen eingebettet sind, wobei die Programmanweisungen von einem Computer ausführbar sind, um zu bewirken, dass der Computer ein Verfahren durchführt, das Folgendes aufweist: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind, Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind, Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist, Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist, und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.
Figurenliste
Die Einzelheiten der vorliegenden Erfindung, sowohl was ihren Aufbau als auch ihre Funktionsweise betrifft, können am besten anhand der beigefügten Zeichnungen verstanden werden, in denen sich gleiche Referenznummern und Bezeichnungen auf die gleichen Elemente beziehen.

1 zeigt ein beispielhaftes Blockschaubild eines Systems, in dem Techniken der vorliegenden Systeme und Verfahren implementiert werden können.
2 ist ein beispielhaftes Flussdiagramm einer Ausführungsform eines Prozesses einer Trainingsphase.
3 ist ein beispielhaftes Flussdiagramm einer Ausführungsform eines Prozesses einer Betriebsphase.
4 ist eine beispielhafte Darstellung von Kategorien von Eigenschaften, die durch die in 2 und 3 dargestellten Prozesse extrahiert werden können.
5 ist ein beispielhaftes Blockschaubild eines Computersystems, in dem Prozesse, die in den hier beschriebenen Ausführungsformen enthalten sind, implementiert werden können.

AUSFÜHRLICHE BESCHREIBUNG
Ausführungsformen der vorliegenden Systeme und Verfahren können schädliche Inhalte erkennen, die sich in einer Überlagerung einer ausführbaren Programmdatei befinden, wodurch eine Verbesserung gegenüber heutigen Technologien bereitstellt wird. In Ausführungsformen kann eine verdächtige ausführbare Programmdatei analysiert werden, indem die Überlagerung der Datei (falls vorhanden) extrahiert wird, die Überlagerung analysiert wird und mittels der Analyse verschiedene Eigenschaften der Überlagerung ermittelt werden. Diese Eigenschaften können (möglicherweise mit anderen Eigenschaften der Datei) an einen Klassifikator weitergegeben werden, der entscheidet, ob die Datei schädlich oder unschädlich ist.
Ausführungsformen der vorliegenden Systeme und Verfahren verwenden automatische statische Analysen, die auf einem überwachten maschinellen Lernen aufbauen. Ein Mechanismus zum Erkennen von Malware analysiert die Überlagerung von PE-Dateien (Portable Executable) getrennt von den anderen Abschnitten des ausführbaren Programms. Eine Reihe von Eigenschaften der PE-Datei-Überlagerung (nämlich Funktionen) werden extrahiert, ein Algorithmus für maschinelles Lernen wird auf diese extrahierten Funktionen trainiert, und es wird zwischen unschädlicher und schädlicher Software unterschieden.
Ein beispielhaftes Blockschaubild eines Systems 100, in dem Techniken der vorliegenden Systeme und Verfahren implementiert werden können, ist in 1 dargestellt. In diesem Beispiel umfasst System 100 Computersystem 102 und Netzwerk 104. In der Regel kann Computersystem 102 mittels eines oder mehrerer programmierter Allzweck-Computersysteme implementiert werden, z.B. Personal Computer, Smartphones, Tablets oder Tablet-Computer, Workstations, Serversysteme, Minicomputer oder Großrechner usw. Netzwerk 104 ist in der Regel das Internet, kann aber ein beliebiges Standard- oder proprietäres, öffentliches oder privates Netzwerk sein. In der Regel ist Computersystem 102 ein System, das an das Internet angeschlossen ist und von einem Benutzer bedient wird, aber es kann jede Art von Computersystem verwendet werden, das an jede Art von Netzwerk angeschlossen ist. In der Regel empfängt Computersystem 102 eine ausführbare Programmdatei 106 vom Netzwerk 104, zum Beispiel über einen Webbrowser, einen eMail-Dienst, ein Dateisystem usw. Eine solche ausführbare Programmdatei kann eine Überlagerung 108 umfassen oder ihr zugehörig sein. Beispielsweise kann die ausführbare Programmdatei 106 beim Empfangen einen Teil einer Überlagerung 108 umfassen, der in Headern oder anderen Metadaten der Datei nicht weiter angegeben ist. Ebenso kann die ausführbare Programmdatei 106 beim Empfangen keinen Teil einer Überlagerung 108 umfassen, sondern Überlagerung 108 vom Netzwerk 104 oder einem anderen Speicher erhalten und bewirken, dass Überlagerung 108 in den Speicher geladen wird. Die ausführbare Programmdatei 106 und Überlagerung 108 können vom Malware-Erkennungssystem 110 analysiert werden, um die Wahrscheinlichkeit zu ermitteln, dass es sich bei der ausführbaren Programmdatei 106 und/oder Überlagerung 108 um Malware handelt.
In Ausführungsformen können die vorliegenden Techniken zum Erkennen von Malware zwei Arbeitsphasen umfassen: eine Trainingsphase und eine Betriebs- oder Online-Phase. Die Trainingsphase kann das Training eines Klassifikationsmodells anhand eines Korpus von als schädlich und unschädlich gekennzeichneten Dateien umfassen, um ein trainiertes Klassifikatormodell 112 zu erzeugen. Die Trainingsphase kann vor der Betriebsphase durchgeführt werden. In der Betriebsphase können Proben verdächtiger PE-Dateien auf dem Computersystem 102 ankommen, und mittels des trainierten Klassifikatormodells 112 können die Proben als unschädlich oder schädlich klassifiziert werden.
Ein beispielhaftes Flussdiagramm einer Ausführungsform eines Trainingsphasenprozesses 200, der in den vorliegenden Techniken enthalten ist, ist in 2 dargestellt. Trainingsphasenprozess 200 kann mit 202 beginnen, wo ausführbare Programmdateien, die als schädlich oder unschädlich gekennzeichnet wurden, durch den Trainingsphasenprozess 200 empfangen werden können. Bei 204 können die empfangenen ausführbaren Programmdateien analysiert und jeder Überlagerungsteil extrahiert oder abgerufen werden. Bei 206 können die extrahierten oder abgerufenen Überlagerungen analysiert werden, um die gegebenenfalls vorliegenden Eigenschaften zu ermitteln. In Ausführungsformen kann eine statische Analyse durchgeführt werden, d.h., die ausführbaren Programmdateien und zugehörigen Überlagerungen werden geprüft, wenn sie nicht ausgeführt werden. Bei 208 können die relevanten ermittelten Eigenschaften aus den Überlagerungen extrahiert werden. Bei 210 kann ein maschinelles Lernmodell trainiert werden, um schädliche Beispiele mittels der extrahierten Eigenschaften und der Kennzeichnungen zu erkennen und solche schädlichen Beispiele von unschädlichen Beispielen zu unterscheiden. In der Regel kann das maschinelle Lernmodell ein Klassifikatormodell sein, aber es kann jedes beliebige maschinelle Lernmodell verwendet werden. Beispielsweise können andere überwachte Lernmodelle verwendet werden wie einige Arten von neuronalen Netzwerkmodellen, Bayes-Modelle, Entscheidungsbaummodelle, Support-Vector-Maschinen usw. Ebenso können, auch wenn gekennzeichnete Daten vorliegen, oder alternativ, wenn nicht gekennzeichnete Daten vorliegen, unüberwachte Lernmodelle verwendet werden, z.B. Clustering-Modelle, einige Arten von neuronalen Netzwerken usw. In Ausführungsformen können bei 212 andere oder zusätzliche Eigenschaften extrahiert und für das Training 210 des maschinellen Lernmodells verwendet werden.
Ein beispielhaftes Flussdiagramm eines Betriebsphasenprozesses 300, der in den vorliegenden Techniken enthalten ist, ist in 3 dargestellt. Trainingsphasenprozess 300 kann mit 302 beginnen, wo ausführbare Programmdateien, die als schädlich oder unschädlich ermittelt werden sollen, durch Betriebsphasenprozess 300 empfangen werden können. Bei 304 können die empfangenen ausführbaren Programmdateien analysiert und jeder Überlagerungsteil extrahiert oder abgerufen werden. Bei 306 können die extrahierten oder abgerufenen Überlagerungen analysiert werden, um die gegebenenfalls vorliegenden Eigenschaften zu ermitteln. In Ausführungsformen kann eine statische Analyse durchgeführt werden, d.h., die ausführbaren Programmdateien und zugehörigen Überlagerungen werden geprüft, wenn sie nicht ausgeführt werden. Bei 308 können die relevanten ermittelten Eigenschaften aus den Überlagerungen extrahiert werden. Bei 310 kann ein maschinelles Lernmodell zum Klassifizieren der extrahierten Eigenschaften und Kennzeichnungen verwendet werden, um für jede empfangene ausführbare Programmdatei zu entscheiden, ob sie schädlich oder unschädlich ist, und es kann ein zugehöriges Konfidenzniveau für die Ermittlung festgelegt werden. In der Regel kann das maschinelle Lernmodell ein Klassifikatormodell sein, aber es kann jedes beliebige maschinelle Lernmodell verwendet werden. Beispielsweise können andere überwachte Lernmodelle verwendet werden wie einige Arten von neuronalen Netzwerkmodellen, Bayes-Modelle, Entscheidungsbaummodelle, Support-Vector-Maschinen usw. Bei 312 kann die ermittelte Entscheidung und ein jeweils zugehöriges Konfidenzniveau bereitgestellt werden. In Ausführungsformen können bei 314 andere oder zusätzliche Eigenschaften extrahiert und durch das maschinelle Lernmodell für Klassifizierung 310 verwendet werden.
Beispiele für Kategorien von Eigenschaften 400, die extrahiert werden können, sind in 4 dargestellt. In diesem Beispiel können die dargestellten Kategorien der Überlagerungseigenschaften umfassen: grundlegende Überlagerungseigenschaften 402, statistische Inhaltseigenschaften 404, Deep-Content-Eigenschaften 406 und Eigenschaften bezüglich der Anpassung von Dateianalyseverfahren. Grundlegende Überlagerungseigenschaften 404 können einfache Eigenschaften über die Überlagerung umfassen, z.B. das Vorhandensein der Überlagerung (ein boolescher oder Wahr/Falsch-Wert), die Größe der Überlagerung, das Verhältnis zwischen der Größe der Überlagerung und der Größe der gesamten Datei usw. Statistische Inhaltseigenschaften 404 können die Behandlung der Überlagerung als Datenblöcke (z.B. Bytes, Kilobytes usw.) und die Anwendung statistischer Messungen auf diese Blöcke umfassen. Beispielsweise können die Byte-Verteilung der Überlagerung und die Shannon-Entropie der Überlagerung für Byte-Blöcke verwendet werden.
Deep-Content-Eigenschaften 406 können den Inhalt der Überlagerung charakterisieren. Genauer gesagt können diese Eigenschaften die Inhaltsart, die die Überlagerung umschließt, und Informationen über diese Inhaltsart widerspiegeln. In der Regel können Deep-Content-Eigenschaften Charakterisierungen des Inhalts der Überlagerung sein, die auf der Grundlage von bestimmten in der Überlagerung gefundenen Daten erzeugt werden. Beispielsweise können die Reputation von URLs, Domains und IP-Adressen, die in der Überlagerung gefunden wurden, Signaturen/Fingerabdrücke, die im Binärcode gefunden wurden, und Textanalysen des lesbaren Inhalts erzeugt werden. Darüber hinaus können andere Techniken zum Extrahieren von Eigenschaften für die Malware-Erkennung die Überlagerung angewendet werden, z.B. eine N-Gramm-Analyse auf Byte-Ebene. Eine Anpassung der Dateianalyseverfahren 408 kann Eigenschaften umfassen, die auf Dateianalyseverfahren beruhen, die modifiziert oder an eine Überlagerungsanalyse angepasst wurden. Beispielsweise kann die Begriffshäufigkeit von „unschädlichen“ und „schädlichen“ N-Grammen in der Datei für die Überlagerungsanalyse angepasst werden durch: 1) Erstellen eines neuen Repository von „unschädlichen“ und „schädlichen“ N-Grammen für den Überlagerungsinhalt ; und 2) Berechnen der Eigenschaften der Begriffshäufigkeit nur für die Überlagerung selbst und nicht für die gesamte Datei. Beispielsweise kann ein N-Gramm eine zusammenhängende Folge von n binären Elementen einer bestimmten Textprobe sein, beispielsweise Bytes, Opcodes, Montageanweisungen, Systemaufruf usw. Alle anderen derartigen Techniken können für eine Überlagerungsanalyse modifiziert oder an sie angepasst werden. Beispiele können Kreuzentropie-/relative Entropieeigenschaften, Bildverarbeitungseigenschaften usw. umfassen.
Ein beispielhaftes Blockschaubild eines Computersystems 502, in dem Prozesse, die in den hier beschriebenen Ausführungsformen enthalten sind, implementiert werden können, ist in 5 dargestellt. Computersystem 502 kann mittels eines oder mehrerer programmierter Allzweck-Computersysteme implementiert werden, z.B. eingebettete Prozessoren, Ein-Chip-Systeme (System-on-a-Chip), Personal Computer, Workstations, Serversysteme sowie Minicomputer oder Großrechner, oder in verteilten, vernetzten Computerumgebungen. Computersystem 502 kann einen oder mehrere Prozessoren (CPUs) 502A bis 502N, Eingabe-/Ausgabeschaltkreise 504, Netzwerkadapter 506 und Speicher 508 umfassen. CPUs 502A bis 502N führen Programmanweisungen aus, um die Funktionen der vorliegenden Datenübertragungssysteme und -verfahren auszuführen. Bei den CPUs 502A bis 502N handelt es sich in der Regel um einen oder mehrere Mikroprozessoren, z.B. einen INTEL CORE^®-Prozessor. 5 stellt eine Ausführungsform dar, in der Computersystem 502 als ein einzelnes Multiprozessor-Computersystem implementiert ist, in dem mehrere Prozessoren 502A bis 502N Systemressourcen wie Speicher 508, Eingabe-/Ausgabeschaltkreise 504 und Netzwerkadapter 506 gemeinsam nutzen. Die vorliegenden Datenübertragungssysteme und -verfahren umfassen jedoch auch Ausführungsformen, in denen Computersystem 502 als eine Mehrzahl von vernetzten Computersystemen implementiert ist, die Einprozessor-Computersysteme, Multiprozessor-Computersysteme oder eine Mischung davon sein können.
Eingabe-/Ausgabeschaltkreise 504 ermöglichen die Eingabe von Daten in das Computersystem 502 bzw. die Ausgabe von Daten aus dem Computersystem 502. Beispielsweise können Eingabe-/Ausgabeschaltkreise Eingabeeinheiten wie Tastaturen, Mäuse, Touchpads, Trackballs, Scanner, Analog-Digital-Wandler usw. umfassen sowie Ausgabeeinheiten wie Videoadapter, Monitore, Drucker usw. und Eingabe-/Ausgabeeinheiten wie Modems usw. Netzwerkadapter 506 verbindet Einheit 500 mit einem Netzwerk 510. Netzwerk 510 kann jedes öffentliche oder proprietäre LAN oder WAN sein, darunter das Internet, ohne darauf beschränkt zu sein.
Speicher 508 speichert Programmanweisungen, die von CPU 502 ausgeführt werden, sowie Daten, die von CPU 502 verwendet und verarbeitet werden, um die Funktionen des Computersystems 502 durchzuführen. Speicher 508 kann z.B. elektronische Speichereinheiten umfassen wie Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), programmierbaren Nur-Lese-Speicher (PROM), elektronisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM), Flash-Speicher usw., und elektromechanischen Speicher wie Magnetplattenlaufwerke, Bandlaufwerke, optische Plattenlaufwerke usw., die Folgendes verwenden können: eine IDE-Schnittstelle (Integrated Drive Electronics) oder eine Variation oder Verbesserung davon, z.B. Enhanced IDE (EIDE) oder Ultra-Direkt-Speicherzugriff (UDMA), oder eine SCSI-gestützte Schnittstelle (Small Computer System Interface) oder eine Variation oder Verbesserung davon, z.B. Fast SCSI, Wide SCSI, Fast Wide SCSI usw., oder Serial ATA (Serial Advanced Technology Attachment, SATA) oder eine Variation oder Verbesserung davon, oder eine FC-AL-Schnittstelle (Fibre Channel-Arbitrated Loop).
Der Inhalt des Speichers 508 kann variieren, je nach der Funktion, für die das Computersystem 502 programmiert ist. In dem in 5 dargestellten Beispiel werden exemplarisch Speicherinhalte gezeigt, die Routinen und Daten für Ausführungsformen der oben beschriebenen Prozesse zeigen. Ein Fachmann würde jedoch erkennen, dass diese Routinen zusammen mit den mit diesen Routinen verbundenen Speicherinhalten möglicherweise nicht auf einem System oder einer Einheit enthalten sind, sondern vielmehr auf der Grundlage bekannter technischer Überlegungen auf eine Mehrzahl von Systemen oder Einheiten verteilt sein können. Die vorliegenden Datenübertragungssysteme und - verfahren können alle derartigen Zusammenstellungen umfassen.
In dem in 5 dargestellten Beispiel kann Speicher 508 Überlagerungsextraktionsroutinen 512, Eigenschaftenanalyse- und Eigenschaftenextraktionsroutinen 514, Modelltrainingsroutinen 516, Überlagerungsklassifikationsroutinen 518, Entscheidungsroutinen 520, Modelldaten 522 und Betriebssystem 524 umfassen. Überlagerungsextraktionsroutinen 512 können Softwareroutinen zum Analysieren empfangener ausführbarer Programmdateien und zum Extrahieren oder Abrufen jedes zugehörigen Überlagerungsteils umfassen. Eigenschaftenanalyse- und Eigenschaftenextraktionsroutinen 514 können Softwareroutinen zum Analysieren der extrahierten oder abgerufenen Überlagerungen umfassen, um die möglicherweise vorliegenden Eigenschaften zu ermitteln und die relevanten ermittelten Eigenschaften aus den Überlagerungen zu extrahieren. Modelltrainingsroutinen 516 können Softwareroutinen zum Trainieren eines maschinellen Lernmodells umfassen, so dass es schädliche Beispiele mittels der extrahierten Eigenschaften und der Kennzeichnungen von gekennzeichneten ausführbaren Programmdateien erkennt und solche schädlichen Beispiele von unschädlichen Beispielen unterscheidet. Überlagerungsklassifikationsroutinen 518 können Softwareroutinen zum Klassifizieren der extrahierten Eigenschaften von nicht gekennzeichneten ausführbaren Programmdateien umfassen, um für jede empfangene nicht gekennzeichnete ausführbare Programmdatei zu entscheiden, ob sie schädlich oder unschädlich ist, und können ein zugehöriges Konfidenzniveau für die Ermittlung festlegen. Entscheidungsroutinen 520 können Softwareroutinen umfassen, die die ermittelte Entscheidung bereitstellen oder übermitteln, und können jedes zugehörige Konfidenzniveau bereitstellen oder übermitteln. Modelldaten 522 können sowohl Daten umfassen, die die Struktur des maschinellen Lernmodells definieren, als auch Daten, die das trainierte maschinelle Lernmodell implementieren. Betriebssystem 520 kann die gesamte Systemfunktionalität bereitstellen.
Wie in 5 dargestellt, können die vorliegenden Datenübertragungssysteme und -verfahren eine Implementierung auf einem System oder Systemen umfassen, die Multiprozessor-, Multitasking-, Multiprozess- und/oder Multithread-Datenverarbeitung bereitstellen, sowie eine Implementierung auf Systemen, die nur Einprozessor-, Einzelthread-Datenverarbeitung bereitstellen. Bei der Multiprozessor-Datenverarbeitung wird die Datenverarbeitung durch mehr als einen Prozessor durchgeführt. Bei der Multitasking-Datenverarbeitung wird die Datenverarbeitung durch mehr als eine Betriebssystemaufgabe durchgeführt. Eine Aufgabe ist ein Betriebssystemkonzept, das sich auf die Kombination aus einem Programm, das ausgeführt wird, und buchhalterischen Informationen bezieht, die vom Betriebssystem verwendet werden. Immer wenn ein Programm ausgeführt wird, erstellt das Betriebssystem eine neue Aufgabe für dieses Programm. Die Aufgabe ist wie ein Briefumschlag für das Programm, da sie das Programm mit einer Aufgabennummer kennzeichnet und andere buchhalterische Informationen daran anhängt. Viele Betriebssysteme, darunter Linux, UNIX^®, OS/2^® und Windows^®, können viele Aufgaben gleichzeitig ausführen und werden als Multitasking-Betriebssysteme bezeichnet. Multitasking ist die Fähigkeit eines Betriebssystems, mehr als ein ausführbares Programm gleichzeitig auszuführen. Jedes ausführbare Programm läuft in seinem eigenen Adressraum, was bedeutet, dass die ausführbaren Programme ihren Speicher keinesfalls gemeinsam nutzen können. Dies hat Vorteile, denn es ist unmöglich, dass ein Programm die Ausführung eines der anderen auf diesem System laufenden Programme beschädigt. Die Programme können jedoch keine Informationen austauschen, außer durch das Betriebssystem (oder durch Lesen von Dateien, die in dem Dateisystem gespeichert sind). Multiprozess-Datenverarbeitung ist der Multitasking-Datenverarbeitung ähnlich, da die Begriffe Aufgabe und Prozess oft synonym verwendet werden, obwohl bei einigen Betriebssystemen zwischen beiden unterschieden wird.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailstufe der Integration handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) umfassen, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen. Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Zwar wurden spezifische Ausführungsformen der vorliegenden Erfindung beschrieben, der Fachmann wird jedoch verstehen, dass es andere Ausführungsformen gibt, die den beschriebenen Ausführungsformen entsprechen. Dementsprechend ist zu verstehen, dass die Erfindung nicht durch die konkret dargestellten Ausführungsformen, sondern nur durch den Umfang der beigefügten Ansprüche beschränkt werden soll.

Claims

Auf einem Computer implementiertes Verfahren zum Identifizieren von Malware in Computersystemen, das aufweist: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind; Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind; Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist; Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist; und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.
Verfahren nach Anspruch 1, wobei die extrahierten Eigenschaften mindestens eine Eigenschaft umfassen, die aus einer Gruppe ausgewählt wird, die grundlegende Überlagerungseigenschaften aufweist, darunter Vorhandensein der Überlagerung und/oder eine Größe der Überlagerung und/oder ein Verhältnis zwischen der Größe der Überlagerung und einer Größe der ausführbaren Programmdatei und/oder statistische Inhaltseigenschaften von Datenblöcken der ausführbaren Programmdatei und/oder der Überlagerung oder beidem und/oder Deep-Content-Eigenschaften, die einen Inhalt der Überlagerung charakterisieren, darunter Reputation von URLs und/oder Domains und/oder IP-Adressen, die in der Überlagerung gefunden wurden und/oder Signaturen oder Fingerabdrücke, die im Binärcode der Überlagerung gefunden wurden und/oder Textanalyse des lesbaren Inhalts der Überlagerung sowie andere Eigenschaften auf der Grundlage von Techniken zur Dateianalyse, die modifiziert oder an eine Überlagerungsanalyse angepasst wurden, zum Beispiel ein N-Gramm der Überlagerung.
Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell mindestens ein Modell aufweist, das aus einer Gruppe ausgewählt wird, die überwachte Lernmodelle umfasst, darunter ein Klassifikatormodell, ein neuronales Netzwerkmodell, ein Bayes-Modell, ein Entscheidungsbaummodell, ein Support-Vector-Maschinenmodell, sowie unüberwachte Lernmodelle umfasst, darunter ein Clustering-Modell und ein neuronales Netzwerkmodell.
Verfahren nach Anspruch 1, wobei die Eigenschaften durch statische Analyse aus den Überlagerungen extrahiert werden, wobei die ausführbaren Programmdateien und Überlagerungen untersucht werden, wenn sie nicht ausgeführt werden.
Verfahren nach Anspruch 1, wobei die empfangenen ausführbaren Programmdateien von einer Quelle empfangen werden, die einen Webbrowser und/oder eine eMail-Nachricht und/oder ein Dateisystem umfasst.
Verfahren nach Anspruch 1, wobei es sich bei der Überlagerung um eine PE-Datei (Portable Executable) handelt, und das Ermitteln durch Analyse der Überlagerung erfolgt, getrennt von jeglicher Analyse anderer Abschnitte der empfangenen ausführbaren Programmdatei.
System zum Identifizieren von Malware in Computersystemen, wobei das System einen Prozessor, einen Speicher, auf den der Prozessor zugreifen kann, und Anweisungen für Computerprogramme aufweist, die im Speicher gespeichert sind und durch den Prozessor ausführbar sind zum Durchführen von: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind; Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind; Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist; Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist; und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.
System nach Anspruch 7, wobei die extrahierten Eigenschaften mindestens eine Eigenschaft umfassen, die aus einer Gruppe ausgewählt wird, die grundlegende Überlagerungseigenschaften aufweist, darunter Vorhandensein der Überlagerung und/oder eine Größe der Überlagerung und/oder ein Verhältnis zwischen der Größe der Überlagerung und einer Größe der ausführbaren Programmdatei und/oder statistische Inhaltseigenschaften von Datenblöcken der ausführbaren Programmdatei und/oder der Überlagerung oder beidem und/oder Deep-Content-Eigenschaften, die einen Inhalt der Überlagerung charakterisieren, darunter Reputation von URLs und/oder Domains und/oder IP-Adressen, die in der Überlagerung gefunden wurden und/oder Signaturen oder Fingerabdrücke, die im Binärcode der Überlagerung gefunden wurden, und/oder Textanalyse des lesbaren Inhalts der Überlagerung sowie andere Eigenschaften auf der Grundlage von Techniken zur Dateianalyse, die modifiziert oder an eine Überlagerungsanalyse angepasst wurden, zum Beispiel ein N-Gramm der Überlagerung.
System nach Anspruch 7, wobei das maschinelle Lernmodell mindestens ein Modell aufweist, das aus einer Gruppe ausgewählt wird, die überwachte Lernmodelle umfasst, darunter ein Klassifikatormodell, ein neuronales Netzwerkmodell, ein Bayes-Modell, ein Entscheidungsbaummodell, ein Support-Vector-Maschinenmodell, sowie unüberwachte Lernmodelle umfasst, darunter ein Clustering-Modell und ein neuronales Netzwerkmodell.
System nach Anspruch 7, wobei die Eigenschaften durch statische Analyse aus den Überlagerungen extrahiert werden, wobei die ausführbaren Programmdateien und Überlagerungen untersucht werden, wenn sie nicht ausgeführt werden.
System nach Anspruch 7, wobei die empfangenen ausführbaren Programmdateien von einer Quelle empfangen werden, die einen Webbrowser und/oder eine eMail-Nachricht und/oder ein Dateisystem umfasst.
System nach Anspruch 7, wobei es sich bei der Überlagerung um eine PE-Datei (Portable Executable) handelt, und das Ermitteln durch Analyse der Überlagerung erfolgt, getrennt von jeglicher Analyse anderer Abschnitte der empfangenen ausführbaren Programmdatei.
Computerprogrammprodukt zum Identifizieren von Malware in Computersystemen, wobei das Computerprogrammprodukt einen nichtflüchtigen computerlesbaren Speicher aufweist, in den Programmanweisungen eingebettet sind, wobei die Programmanweisungen von einem Computer ausführbar sind, um zu bewirken, dass der Computer ein Verfahren durchführt, das Folgendes aufweist: Empfangen einer Mehrzahl von ausführbaren Programmdateien, die als schädlich oder unschädlich gekennzeichnet sind; Trainieren eines maschinellen Lernmodells unter Verwendung von Eigenschaften, die aus Überlagerungen extrahiert werden, die jeder der Mehrzahl von empfangenen gekennzeichneten ausführbaren Programmdateien zugehörig sind; Empfangen einer ausführbaren Programmdatei, die nicht gekennzeichnet ist; Ermitteln, ob die empfangene nicht gekennzeichnete ausführbare Programmdatei schädlich oder unschädlich ist, und zwar mittels des trainierten maschinellen Lernmodells auf der Grundlage von Eigenschaften, die aus einer Überlagerung extrahiert wurden, die der empfangenen nicht gekennzeichneten ausführbaren Programmdatei zugehörig ist; und Übertragen von Informationen, die die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich identifizieren, wenn die empfangene nicht gekennzeichnete ausführbare Programmdatei als schädlich ermittelt wird.
Computerprogrammprodukt nach Anspruch 13, wobei die extrahierten Eigenschaften mindestens eine Eigenschaft umfassen, die aus einer Gruppe ausgewählt wird, die grundlegende Überlagerungseigenschaften aufweist, darunter Vorhandensein der Überlagerung und/oder eine Größe der Überlagerung und/oder ein Verhältnis zwischen der Größe der Überlagerung und einer Größe der ausführbaren Programmdatei und/oder statistische Inhaltseigenschaften von Datenblöcken der ausführbaren Programmdatei und/oder der Überlagerung oder beidem und/oder Deep-Content-Eigenschaften, die einen Inhalt der Überlagerung charakterisieren, darunter Reputation von URLs und/oder Domains und IP-Adressen, die in der Überlagerung gefunden wurden und/oder Signaturen oder Fingerabdrücke, die im Binärcode der Überlagerung gefunden wurden, und/oder Textanalyse des lesbaren Inhalts der Überlagerung sowie andere Eigenschaften auf der Grundlage von Techniken zur Dateianalyse, die modifiziert oder an eine Überlagerungsanalyse angepasst wurden, zum Beispiel ein N-Gramm der Überlagerung.
Computerprogrammprodukt nach Anspruch 13, wobei das maschinelle Lernmodell mindestens ein Modell aufweist, das aus einer Gruppe ausgewählt wird, die überwachte Lernmodelle umfasst, darunter ein Klassifikatormodell, ein neuronales Netzwerkmodell, ein Bayes-Modell, ein Entscheidungsbaummodell, ein Support-Vector-Maschinenmodell, sowie unüberwachte Lernmodelle umfasst, darunter ein Clustering-Modell und ein neuronales Netzwerkmodell.
Computerprogrammprodukt nach Anspruch 13, wobei die Eigenschaften durch statische Analyse aus den Überlagerungen extrahiert werden, wobei die ausführbaren Programmdateien und Überlagerungen untersucht werden, wenn sie nicht ausgeführt werden.
Computerprogrammprodukt nach Anspruch 13, wobei die empfangenen ausführbaren Programmdateien von einer Quelle empfangen werden, die einen Webbrowser und/oder eine eMail-Nachricht und/oder ein Dateisystem.
Computerprogrammprodukt nach Anspruch 13, wobei es sich bei der Überlagerung um eine PE-Datei (Portable Executable) handelt, und das Ermitteln durch Analyse der Überlagerung erfolgt, getrennt von jeglicher Analyse anderer Abschnitte der empfangenen ausführbaren Programmdatei.