(Big) Data Science bei e-dialog

(Big) Data Science ist derzeit in aller Munde. Zum einen wurde die Tätigkeit der Data Scientists zum sexiest job of the 21st century ausgerufen, zum anderen sind gerade Data Scientists am Jobmarkt absolute Mangelware: immer mehr Unternehmen lagern ihre Data Science Aufgaben daher an externe Agenturen aus, um dringend benötigte Antworten und Insights aus ihren Daten zu bekommen. Das ist Grund genug für e-dialog dem Phänomen eine Reihe von Blogartikeln zu widmen. In diesem ersten Beitrag werden zunächst die Anwendungen und der Nutzen von Data Science beleuchtet.

Der Data Scientist…

Zunächst wollen wir eine Annäherung über die Tätigkeitsbeschreibung von Data Scientists versuchen. Das folgende Diagramm fasst die Kernbereiche der Data Science treffend zusammen:

(Drew Conway, zit. n. A Very Short History of Data Science, Forbes 2013)
(Drew Conway, zit. n. A Very Short History of Data Science, Forbes 2013)

Hierin wird offensichtlich, dass Data Science im Schnittpunkt von Mathematik/Statistik, Programmierkenntnissen und Fachexpertise steht. Ein geflügeltes Wort in der Branche definiert einen Data Scientist als jemanden, that is better at programming than the average statistician and better at statistics than the average programmer.

… & sein Big Data

Data Science beschreibt also das Gewinnen von Erkenntnissen aus Daten mit wissenschaftlichen Methoden. Wie sehen solche Daten aber aus? Data Science kann wie die herkömmliche Statistik auch mit kleinen Datenmengen arbeiten. Zur Hochform läuft sie allerdings erst auf, wenn es sich um Big Data handelt. Big Data hat drei Kennzeichen:

  • Volume
  • Velocity
  • Variety

Volume: Richtig viele Daten

Wie das Schlagwort Big Data bereits vermuten lässt, handelt es sich hierbei um große Datenmengen. Was genau groß ist, hängt auch vom Betrachter ab. Die Untergrenze ist wohl bei einigen 10.000 Beobachtungen in hunderten Variablen anzusiedeln, zB die Customer Journeys eines mittleren Webshops eines Jahres. Nach obenhin sind keine Grenzen gesetzt. Das momentane Extrembeispiel aus dem Onlinebereich ist Facebook, das die Interaktionsdaten von einer Milliarde Nutzern in Echtzeit verarbeiten kann.

Im Rahmen des Internet of Things (IoT) werden die Datenmengen stets zunehmen, und die Bedeutung von Data Science nochmals wachsen.

Variety: Unterschiedlichste Datenformen

Data Science beschäftigt sich nicht nur mit klassischen, klar strukturiert organisierten Daten. Auch andere Datenarten, Text, Sprache, Bilder, Videos, fallen in das Aufgabengebiet der Data Science. Hinzu kommt, dass die Daten der Data Science auch unscharf sein können. Man denke nur an GPS-basierte Standortbestimmungen, die stets einen Unsicherheitsfaktor bedingen.

Velocity:  Daten die sich schnell ändern

Ein weiteres Kennzeichen von Big Data ist die Geschwindigkeit mit der sich Daten ändern, beziehungsweise neue Daten hinzu kommen. Während klassische Datensätze abgeschlossen sind und Analysen nur post-hoc durchgeführt werden können, ist das bei Data Science anders: durch die ausgefeilten Methoden (Stichwort: Stream Processing) ist Data Science in der Lage, Daten auch in Echtzeit zu verarbeiten, und die entsprechenden Kenntnisse sofort zu adaptieren.

Warum wir (Big) Data Science brauchen

Ich will hier keine philosophischen Betrachtungen anstellen, und die Datenrevolution mit der industriellen Revolution gleich setzen (obwohl dieser Vergleich durchaus zulässig wäre). Vielmehr soll zum Abschluss dargelegt werden, welche konkreten Nutzen Unternehmen aus (Big) Data Science ziehen können.

Daten sind vorhanden, also nutzen

In der tagtäglichen Nutzung des Internets fallen Unmengen an Daten als Nebenprodukt an: ein Webshop weiß welche Produkte ein Kunde angesehen hat, ein Websitebetreiber weiß, welcher Teil einer Webpage wie lange angesehen wurde, ein Appproduzent weiß welche Devices ein Nutzer verwendet und wann. Diese Daten können und sollten genutzt werden, um Nutzerwünsche besser zu erfüllen und die User Experience konsequent zu verbessern.

Daten sind kostenlos

Da die Daten aus den digitalen Interaktionen ohnehin vorhanden sind, wäre es schade, auf ihre Nutzung zu verzichten. Durch ihre Auswertung fallen nur unwesentliche Kosten an. Wird im Gegenzug eine Umfrage und den Nutzern einer Website gemacht, so fallen erheblich höhere Kosten an. Und das, obwohl die Umfrage mit einem statistischen Fehler behaftet ist, und niemals ein absolut genaues Abbild der Nutzer liefern kann.

Optimierung des Mitteleinsatzes

Durch die Nutzung der Methoden von Data Science sind Unternehmen in der Lage, ihre Mittel optimal einzusetzen. Einige Beispiele aus der Onlinewelt wären:

  • Die eigenen Banner bei genau jenen Publishern zu jenen Zeitpunkten einbuchen, bei denen der größte Nutzen zu den geringsten Kosten erreicht werden kann.
  • Die eigene Bidding Strategie bei AdWords so optimieren, dass bei konstantem Mitteleinsatz ein maximaler Exposure erfolgt.
  • Den Versendezeitpunkt der eigenen E-Mails so wählen, dass das jeweilige Kundensegment optimal erreicht werden kann.
  • Die Präsentation der Produkte im Webshop so zu gestalten, dass Kunden einfach ihr Up- und Cross-Selling-Potenzial erreichen können.

Aber auch abseits davon, in der Offline-Welt ergeben sich durch Nutzung von Big Data Science vielfältige Vorteile:

  • Personal- und Lagerstand in Brick & Mortar Stores kann entsprechend der vorhergesagten Nachfrage angepasst werden.
  • In einem Cross-Channel-Ansatz können Plakat- und Postwurfwerbung entsprechend den Erkenntnissen aus der Webanalyse gestaltet werden.

Zusammenfassung

In diesem Beitrag habe ich eine erste Vorstellung von Big Data Science vollzogen. Neben der Verortung von Data Science als Schnittmenge klassischer Disziplinen, wurden die Kennzeichen von Big Data als groß, unterschiedlich und schnell herausgestrichen. Abschließend habe ich einige Beispiele für Anwendungen von Big Data Science dargestellt. Wenn nun auch Sie wissen wollen, welche Vorteile und Anwendungsmöglichkeiten Big Data Science in ihrem Unternehmen bietet, so kontaktieren Sie uns jederzeit unter kontakt@e-dialog.at.

Im nächsten Teil dieser Reihe werde ich mich mit den Methoden der Data Science beschäftigen, und einige mit samt konkreter Anwendungsbeispiele vorstellen.

Hinterlassen Sie einen Kommentar: