Blogbeitrag von:
Maxim Perl, Cassini Consulting, Spezialist für Künstliche Intelligenz
Maxim Perl
Management Consultant
Mit Bayes-Statistik und Small Data zum Erfolg
Klein aber oho

Bayesianische Statistik und Small Data: Ein Weg zum Erfolg

55 % aller Daten in einem Unternehmen bleiben für analytische Zwecke unberührt. Ein Großteil dieser Daten sind nicht in den riesigen und komplexen SAP, Data Warehouse oder Data Lake Tabellen, sondern Daten aus den Fachabteilungen. Es sind nicht die Tabellen mit Millionen von Zeilen und Hunderten von Spalten, sondern z. B. Hilfstabellen, unstrukturierte Daten aus Social Media, oder CSV und Excel-Dateien aus dem operativen Geschäft. Während Unternehmen sich seit Jahren auf die „Big Data“ Anwendungsfälle konzentrieren und viel Geld, Zeit und Nerven investieren, um Legacy-Systeme zusammenzuführen, schlechte Datenqualität in den Griff zu bekommen, oder Ressourcenknappheit zu begegnen, gehen „Small Data“ Use-Cases häufig unter. Entweder, weil sie nicht als Leuchtturm-Projekt taugen, oder weil schnell gesagt wird: „Da gibt es nicht genügend Daten“. Letzteres ist häufig ein Argument, solche Anwendungsfälle nicht anzugehen, obwohl sie schnell einen signifikanten Mehrwert für operative Abteilungen bringen, im Gegensatz zu dem aufwendigen Dashboard, das Jahre bis zur Fertigstellung benötigt. „Big-Data“-Initiativen sind genauso wichtig und wertvoll wie „Small Data“-Initiativen, nur leider finden letztere meist keine Beachtung.

Was sind Small Data Projekte?

Was ist die Bayes-Statistik (Bayesianische Statistik)?

Bayes-Statistik für Small Data Projekte

Bayes-Statistik
Abbildung 1: Die Daten aus der Umfrage zeigen, dass 25 % aller Befragten Personen ein Kaufinteresse mit "Ja" beantwortet haben.
Bayes-Statistik
Abbildung 2: Die graue Linie zeigt die Verkaufswahrscheinlichkeit aus der Umfrage. Die grünen Balken zeigen an, wie wahrscheinlich eine Verkaufsrate nach der Ermittlung mit der Bayes-Methode ist. Alles basierend auf den wenigen Daten, die zur Verfügung standen.
Bayes-Statistik
Abbildung 3: Die schwarze Linie zeigt die Verkaufszahl pro Jahr mit dem Mittelwert von 25 %, während der grüne Bereich die mögliche Schwankung der Verkaufszahlen angibt, die innerhalb von 95 % aller möglichen Ereignisse liegen.

Schwankungsbereiche mit dem bayesianischen Ansatz erkennen

Mit Bayes-Statistik und Small Data zum Erfolg