Spam in Google Analytics erfolgreich filtern

Spam in Google Analytics kann unterschiedlichste Dimensionen annehmen – nur wenige wissen allerdings, wie mit welchem Spam umgegangen werden soll. Dieser Beitrag erklärt Ihnen, welche Arten es gibt und wie Sie das Problem am besten lösen können.

Im Zusammenhang mit Spam in Google Analytics wird oft der Begriff “Referrer Spam” verwendet. Sprich es werden die Referrer-Einträge der vermeintlich menschlichen Besucher gefälscht. Dieser Begriff und dessen häufige Verwendung kommt daher, dass es sich am Beginn dieser Spam-Art ausschließlich um das Fälschen der Referrer-Einträge gehandelt hat. Bei Crawler Spam, handelt es sich oft – aber nicht nur! – um Referrer Spam. Denn die Crawler hinterlassen eine gefakte Referreradresse um nicht nachverfolgbar zu sein.

Wenn der Crawler jedoch keinen Referrer Header sendet, wird dieser als Direkt-Zugriff in Google Analytics gewertet. Ghost Spammer können darüber hinaus auch andere Einträge fälschen, wie zum Beispiel Events. Ghost Spammer senden die Daten nämlich direkt über das Measurement Protokoll von Google und können auf diese Weise die Daten noch besser fälschen. Aus diesem Grund ist der Begriff “Referrer Spam” eher verwirrend und es sollte daher besser zwischen Crawler und Ghost Spam – also der Art des Spammers –  unterschieden werden. Die Spammer-Art bestimmt nämlich wie man diese verhindert!

Ein Teil der Spam Crawler führt kein JavaScript aus, damit löst sich das Problem von selbst, da in dem Fall der Google Analytics Code nicht ausgeführt wird. Ein Teil der Crawler führt die Scripte leider aus und dadurch erscheinen diese in Google Analytics. Da die Ghost Spammer die Anfragen direkt über das Measurement Protokoll von Google Analytics senden, werden grundsätzlich alle diese Hits aufgezeichnet.

Warum spammen Spammer?

Es gibt einige Möglichkeiten wie durch diese Art von Spam Geld verdient wird. Eine Möglichkeit ist es, dass der Webanalyst auf die gefakten Referrer oder Event-Einträge in Google Analytics klickt und dadurch Traffic auf die beworbene Website erzeugt. Gleichzeitig ist es möglich ein Cookie zu setzen und sollte der nichts ahnende Webanalyst zum Beispiel anschließend einen Kauf bei Amazon durchführen, bekommt der Spammer eine Provision auf Basis von Affiliate-Programmen. Im schlimmsten Fall wird nicht nur ein Cookie gesetzt, sondern eine Malware installiert und der eigene PC wird damit Teil eines Bot Netzwerks. Es könnte auch sein, dass es der Spammer eigentlich auf die Server-Logs abgesehen hat und dort Referrer-Einträge hinterlassen will, um damit SEO zu betreiben und Backlinks auf die beworbene Website erzeugt. Die Einträge in Google Analytics sind dabei eigentlich nur ein Nebenprodukt. Vielleicht will der Crawler auch nur den Websiteinhalt oder E-Mail Adressen scrapen und hinterlässt dabei seine Spuren in Google Analytics.

Auswirkungen auf von Spam in Google Analytics auf Reports

Abhängig von der Häufigkeit der Crawler Besuche oder der gesendeten Hits über das Measurement Protokoll, werden die Zahlen mehr oder weniger verfälscht. Besuche, Eindeutige Besucher und Absprungraten steigen an, wohingegen Seiten/Besuch, Konversions, Verweildauer und andere Metriken sinken. Zusätzlich ist das Sampling von den Spammern betroffen, da deren Besuche zu der Sampling Grenze zählen.

Mehrere Spambarrikaden

Grundsätzlich ist es ratsam, die Crawler bereits daran zu hindern die eigene Website aufzurufen. Dies kann im Fall von einem Apache Webserver über die htaccess Datei gemacht werden (Hostnames, IPs und User Agents ausschließen). Natürlich darf auch eine gute Firewall nicht fehlen. Alle Zugriffe die bereits an dieser Stelle abgefangen werden, müssen nicht mühsam in Google Analytics wieder heraus gefiltert werden. Dabei sollte man im Hinterkopf behalten, dass dies nicht bei Ghost Spammern funktioniert, da diese die Website nie direkt aufrufen.

Nun zu den möglichen Einstellungen in Google Analytics. Der erste und einfachste Schritt um Spam in Google Analytics zu verhindern, ist es in GA die Einstellung “Alle Treffer von bekannten Bots und Spidern ausschließen” zu aktivieren. Die Liste enthält User Agent Einträge von bekannten Bots/Spidern, und wird ständig aktualisiert sobald neue auftauchen. Zur Vollständigkeit sollte hier noch erwähnt werden, dass es ratsam ist, diese Einstellung vorher in einer separaten Test Datenansicht auszuprobieren und erst anschließend in der Hauptansicht zu aktivieren. Zusätzlich solllte es auch immer eine komplett filterlose Datenansicht geben. Auf diese Weise hat man stets ein Datenset an ungefilterten Daten zum Vergleichen zur Verfügung.

Teaser Spam in Google Analytics Filtern

Wie man wahrscheinlich vermutet, stoppt diese Funktionalität nicht alle Spammer. Um dies zu erreichen, muss man selbst eigene Filter erstellen. Filter speziell für Crawler und andere für Ghost Spammer. Dabei gibt es verschiedene Ansätze um diese auszuschließen. Wir haben einige davon ausprobiert und dabei einen Weg gefunden um fast alle Spammer zu filtern. Da stets neue Spammer hinzukommen oder die bestehenden ihre mitgesendeten Informationen ändern, ist das Filtern von Spammern ein laufender Prozess und nicht mit dem Anlegen eines Filters abgeschlossen. Aus diesem Grund aktualisieren wir laufend die Filter unserer Kunden, welche dieses Service nutzen.

Wollen auch Sie dieses Service? Oder filtern Sie bereits Spammer und brauchen dabei Unterstützung? Wir helfen Ihnen gerne weiter!

Hinterlassen Sie einen Kommentar: