(Big) Data Science Methoden

In dieser Reihe beschäftige ich mich mit Data Science wie sie bei e-dialog verstanden wird, und den Anwendungen die wir für unsere Kunden entwickeln. Im vorangegangen Beitrag ging es um eine allgemeine Definition von Data Science und Big Data.

Um die Sinnhaftigkeit von Data Science verstehen zu können, bedarf es auch einen Blick auf die gängigsten verwendeten Methoden. Und derer gibt es viele. All diesen Methoden ist gemein, dass sie sehr gut skalieren und so auch auf extrem große Datenbestände anwendbar sind. Hier werden nun die gängigsten Methoden und ihre Anwendungen skizziert. Freilich kann diese Beschreibung nur an der Oberfläche kratzen – es gibt noch viel mehr.

Clustering & Klassifikation

Clustering und Klassifikation sind zwei verwandte Methoden, die das Ziel haben, Gruppen in Daten zu identifizieren. Ein Anwendungsbeispiel vorweg ist die Identifikation von Kundensegmenten aus Onlineverhalten. Das Clustering als Methode ist dabei vollkommen datengetrieben: Es werden die Daten in einen passenden Algorithmus gespielt und als Resultat werden autonom Gruppen mit möglichst homogenen Eigenschaften gebildet. Liegt für einige Kunden bereits eine Gruppeneinteilung vor, kann mittels Klassifikations-Algorithmen die dahinterliegende Struktur identifiziert werden. Diese Erkenntnisse können dann auf Kunden angewandt werden, die noch nicht klassifiziert sind, um sie einer möglichst passenden Gruppe zuzuordnen. Gruppenzugehörigkeit kann hierbei entweder als hard fact (ja/nein) oder fuzzy (Wahrscheinlichkeit 0-100%) konzipiert sein.

Visualisierung einer fuzzy Clusterung in zwei Gruppen als Streudiagramm mit zwei Achsen, wobei die Stärke der Farbe gibt Wahrscheinlichkeit der Clusterzugehörigkeit angibt.
Visualisierung einer fuzzy Clusterung in zwei Gruppen, die Stärke der Farbe gibt die Wahrscheinlichkeit der Clusterzugehörigkeit an.

Voraussetzung für beide Methoden ist ein entsprechend umfassender Datenbestand, sowohl in Hinblick auf Beobachtungen als auch Variablen. Denkbare Datenquellen sind Customer Journeys, Warenkorbinhalte & -volumina sowie Kampagnenberichte.

Szenario-Simulation, Portfolio-Optimierung

Visualisierung der Ergebnisse einer Portfolio-Optimierung von Search Keywords im Raum aufgespannt durch Expected Revenue und Expected CPA. Jedes Keyword hat eine eindeutige Position im Raum. Keywords die mehr Kosten als sie bringen, können so identifiziert und gezielt ausgeschlossen werden. Als Orientierungshilfe ist eine Winkelhalbierende eingepasst.
Visualisierung der Ergebnisse einer Portfolio-Optimierung von Search Keywords in den Dimensionen Erzielter Umsatz und Verursachte Kosten. Jedes Keyword hat eine eindeutige Position im Raum. Keywords die mehr Kosten als sie bringen, können so identifiziert und gezielt ausgeschlossen werden. Als Orientierungshilfe ist eine Winkelhalbierende eingepasst.

Unsere Kunden geben große Summen für Werbekampagnen aus. Diese Mittel sollten optimal eingesetzt werden. Durch gezielte Analyse der Conversions, Costs und Conversion Revenues je Keyword und je Publisher wird der Grundstein für Szenario-Simulationen und Portfolio-Optimierung gelegt. Kombiniert mit interaktiven Tools können Kunden dann selbst ausprobieren, welche Auswirkungen es hätte, wenn ich auf dieses oder jenes Keyword verzichte. Was passiert, wenn ich mehr Impressions bei Publisher X buche?
Geeignet Datenquellen sind hierbei in den Reports aus dem DoubleClick Bid Manger und DoubleClick Search zu finden.

Warenkorb-Analysen & Association Rules (ARs)

Association Rules wurden entwickelt um die Warenkörbe in Supermärkten zu analysieren. Die zentrale Frage dabei ist, welche Produkte gemeinsam verkauft werden. Daraus abgeleitet werden dann Sonderangebote (immer nur ein Produkt aus einer Kombination) und thematische Werbeinhalte (möglichst viele Produkte aus häufigen Kombinationen, Beispiel: Alles fürs Grillen).
Diese Analysen können entweder total oder gruppiert nach Kundensegmenten, Saisonalität oder Warengruppen durchgeführt werden. Als Datenbasis eigenen sich hier beispielsweise Floodlightreports aus Onlineshops, die alle gekauften Produkte beinhalten. Ebenso möglich ist diese Analyse mit Daten, die aus Filialkäufen gewonnen werden – Voraussetzung sind hier entsprechend vernetze POS-Geräte. Besonders interessant wird es, wenn die einzelnen Transaktionen Kunden zugeordnet werden können, wie es im Onlinebereich aber auch bei Loyaltycards möglich ist. Voraussetzung ist jedenfalls eine große Anzahl von Transaktionen, wobei die untere Grenze wohl bei mehreren 10.000 anzusetzen ist.

Predictive Analytics & Recommendation Engines

Aufbauend auf den Erkenntnissen der Warenkorb-Analyse und den Kundendaten können hier Cross Selling und Up Selling-Potenziale genutzt werden. Als Beispiele seien Amazon (Kunden die X gekauft haben, haben sich auch für Y interessiert) und Netflix’ Filmempfehlungen genannt. Hierbei werden Kundeninformationen in einen Algorithmus geschickt, der dann zurückliefert, mit welcher Wahrscheinlichkeit der Kunde an welchen weiteren Produkten interessiert ist.
Als Voraussetzung ist hier jedenfalls die Warenkorbanalyse wie oben beschrieben zu nennen. Um personalisierte Empfehlungen aussprechen zu können, ist auch ein Kundenkonto oder zumindest die Anschrift (Geschlecht, Adresse, eventuell Bankverbindung) notwendig. Hier ist dann auch die automatische Integration mit Bonitätsabfragen möglich, um bestimmte Bezahlungskonditionen gleich beim Shoppingvorgang zu berücksichtigen.

Dynamic Pricing

Dynamic Pricing bezeichnet die Idee, Preise so anzupassen, dass ein Optimum aus Conversion und Revenue erzielt wird. Anders ausgedrückt: bevor ich einen Geschäftsvorgang nicht abschließen kann, reduziere ich den Preis (ohne dabei unter meinen Deckungsbeitrag zu kommen). Dementsprechend kann Kunden, die eine Affinität zu Premiumprodukten haben, ein höherer Preis angezeigt werden, als Kunden, die auf der Jagd nach Schnäppchen sind. Grundlage für dieses Verfahren ist eine möglichst genaue Beschreibung des Kunden. Als Beispiel sei das verwendete Device genannt: Kunden, die den Shop mit dem letzten iPhone-Modell besuchen, wird unterstellt, sie wären bereit für die richtige Leistung auch tiefer in die Tasche zu greifen. Im Gegensatz dazu werden Kunden, die mit einem älteren Feature Phone vorbei kommen, nur mit Rabatten zum Abschluss zu bewegen sein. Ob und wie gut diese Hypothese hält, muss in systematischen Tests ermittelt werden. Dies verdeutlicht den Stellenwert von Science in Data Science.

Social Media Intelligence & Natural Language Processing (NLP)

Dem Brand-Ansatz im Marketing folgend, ist für Unternehmen die Darstellung ihrer Marke von großer Bedeutung. Durch Social Media haben sie jedoch nur noch bedingt Einfluss darauf. Um so wichtiger wird es, zu erkennen, wann die eigene Marke schlecht dargestellt wird. Die Vielzahl von Social Media-Kanälen und Onlineforen erlaubt es aber nur bedingt, diese manuell zu überwachen. Dank der großen Fortschritte im Natural Language Processing, insbesondere der Sentiment Analyse, ist es jedoch möglich, einzelnen Texten, wie zum Beispiel Foren- oder Social Media-Posts, Emotionen und Sentimente (positiv/negativ) zuzuordnen. Mit einer entsprechenden Anzahl von Posts können auch die zentralen Themen der Diskussionen ermittelt werden. Beispielsweise wird dann klar, dass Features X und Y beim Handy Z jene sind, die die meisten positiven Meldungen generieren. Dementsprechend kann die Werbung adaptiert werden.

Eine Word Cloud basierend auf den Begriffen dieses Posts, wobei die Häufigkeit des Begriffs sowohl durch die Position in der Cloud als auch durch Schriftgröße und Farbe dargestellt wird.
Eine Word Cloud basierend auf den Begriffen dieses Posts, automatisiert erstellt unter Berücksichtigung der Eigenheiten der deutschen Sprache wie zB Stopwords, Fällen und Großschreibung.

Die Datenvoraussetzungen lassen sich nur ungefähr abgrenzen und hängen stark von der Fragestellung ab. In der Maximalvariante sind Zugänge zu den entsprechenden Social Media-Streams erforderlich — freilich verbunden mit großen Kosten. Sollen nur einige wenige Foren oder unternehmenseigene Assets überwacht werden, sind derartige Lösungen deutlich kostengünstiger zu implementieren.

Predictive Analytics im Social Media Kontext

Ein ungerichteter Netzwerkgraph bei dem die Dicke der Kanten die Stärke der Verbindungen und die Farbe der Knoten deren Kategorie darstellen.
Eine Darstellung der Interaktionen von Akteuren in einem sozialen Netzwerk, wobei die Dicke der Kanten die Häufigkeit der Interaktionen angibt.

Verwandt mit Social Media Intelligence im Brand-Kontext, lassen sich Social Media-Daten natürlich auch nach kommenden Trends hin analysieren: Welche DVD-Releases werden schon sehnsüchtig erwartet? Was wird der Wintertrend der kommenden Saison? Diese Fragen können durch die gezielte Analyse von Social Media-Aktivitäten beantwortet werden. Hierbei gilt es, entsprechendes Augenmerk auf Opinion Leader zu legen. Dadurch halten sich auch die Kosten in Grenzen, da nicht die gesamten Streams abonniert werden müssen.

Price Monitoring

Ein Dauerbrenner im Retailbereich ist der Wunsch, automatisiert die Preise der Konkurrenz zu kennen, um so die eigene Preisstrategie entsprechend anpassen zu können. Während dies technisch nicht wirklich herausfordernd ist, stellen sich legale Fragen. Viele Websites schließen in ihren Nutzungsbedingungen den automatisierten oder kommerziellen Gebrauch dezidiert aus. Hier gilt es, entsprechende Alternativen zu finden. Insofern ist die Implementierung weniger eine technische Herausforderung, sondern eher rechercheintensiv.

Verknüpfung Werbekanäle & Zeit

Eine zentrale Frage der Werbung sind Interaktionseffekte von Werbekanälen. Die Analyse dieser Kanäle kann mit der entsprechenden Technologie um TV und Radio erweitert werden. Dabei wird auf die Gleichzeitigkeit von Spotausstrahlung und Onlineaktivität abgestellt. Als Datenbasis neben den klassischen Kanalanalysen ist hier der genau Mediaplan erforderlich. Zusätzlich muss mit großen Datenmengen effizient umgegangen werden, entsprechende Lösungen wie zB Google BigQuery sind unumgänglich.

Geostatistik

Geostatistische Modelle können verwendet werden um einerseits Fragestellungen mit regionalem Bezugspunkt zu beantworten (Was ist das Einzugsgebiet meiner Filialen? Wie wirken sich Kampagnen mit regionalem Targeting aus?) und andererseits den Werbekanal Plakatwerbung in die Kanalanalyse mit einzubeziehen. Hierbei wird auf Bewegungsprofile des Kunden zurückgegriffen, die natürlich eine entsprechende App und informed consent voraussetzen.

Big Data (Management)

Viele Unternehmen haben nach wie vor Probleme mit großen Datenmengen umzugehen. Wenn man aber bedenkt, dass tägliche Keyword Reports aus DoubleClick Search pro Tag bereits mit 30 MB zu Buche schlagen, stellen diese Reports im Jahresverlauf (10 GB) bereits Datenmengen dar, die von den meisten Unternehmen nicht mehr intern bewältigt werden können. Als Ausweg wird dann oft auf aggregierte Reports zurück gegriffen, die dann aber oftmals Muster nicht erkennen lassen und so zu falschen Entscheidungen führen. Hier gilt es anzusetzen, und den einzelnen Fachabteilungen Tools in die Hand zu geben, mit denen sie auch mit großen Datenmengen direkt im Browser auf Erkenntnisse abklopfen können.
Denkbar sind interaktive Dashboards die auf entsprechenden Google Diensten laufen. Genauere Aufwandsabschätzungen sind freilich nur bei Vorliegen konkreter Use Cases möglich.

Zusammenfassung

In diesem zweiten Teil der Data Science Reihe bin ich der Frage nachgegangen, welche Methoden Data Science eigentlich charakterisieren. Daraus wurden häufige Anwendungen aus den Bereichen Web Analyse, Online Marketing und e-Commerce abgeleitet, und dargestellt wie e-dialog diese für ihre Kunden einsetzt.

Wenn nun auch Sie auf den Geschmack gekommen sind und mehr aus Ihren Daten herausholen möchten, so beraten und begleiten wir sie gerne bei jedem Schritt ihrer Data Science-Prozesse. Kontaktieren Sie uns unter kontakt@e-dialog.at.

Im nächsten Teil der Reihe werde ich mich mit beliebten Tools für Data Science beschäftigen.

 

Hinterlassen Sie einen Kommentar: