Bayesianische Statistik und Small Data: Ein Weg zum Erfolg
55 % aller Daten in einem Unternehmen bleiben für analytische Zwecke unberührt. Ein Großteil dieser Daten sind nicht in den riesigen und komplexen SAP, Data Warehouse oder Data Lake Tabellen, sondern Daten aus den Fachabteilungen. Es sind nicht die Tabellen mit Millionen von Zeilen und Hunderten von Spalten, sondern z. B. Hilfstabellen, unstrukturierte Daten aus Social Media, oder CSV und Excel-Dateien aus dem operativen Geschäft. Während Unternehmen sich seit Jahren auf die „Big Data“ Anwendungsfälle konzentrieren und viel Geld, Zeit und Nerven investieren, um Legacy-Systeme zusammenzuführen, schlechte Datenqualität in den Griff zu bekommen, oder Ressourcenknappheit zu begegnen, gehen „Small Data“ Use-Cases häufig unter. Entweder, weil sie nicht als Leuchtturm-Projekt taugen, oder weil schnell gesagt wird: „Da gibt es nicht genügend Daten“. Letzteres ist häufig ein Argument, solche Anwendungsfälle nicht anzugehen, obwohl sie schnell einen signifikanten Mehrwert für operative Abteilungen bringen, im Gegensatz zu dem aufwendigen Dashboard, das Jahre bis zur Fertigstellung benötigt. „Big-Data“-Initiativen sind genauso wichtig und wertvoll wie „Small Data“-Initiativen, nur leider finden letztere meist keine Beachtung.
Was sind Small Data Projekte?
Small Data Projekte sind vor allem Projekte, die sich nicht auf eine Menge Daten verlassen können, um Muster zu extrahieren oder präzise Modelle zu bauen. Es gibt keine einheitliche Definition davon, was ein Small Data und was ein Big Data Projekt ausmacht. Wenn allerdings eine hohe Übereinstimmung mit den folgenden Punkten gegeben ist, handelt es sich höchstwahrscheinlich um ein Small Data Projekt.
Die Daten:
- weisen ein Datenvolumen auf, das nicht größer als 50 GB ist
- liegen in einem Dateiformat wie JSON, CSV, Excel oder RDF vor
- wurden von Hand oder teilautomatisiert erzeugt
- sind entscheidungsrelevant für kritische Bereiche
Häufig zeichnen sich Small Data Projekte durch ein erhöhtes Maß an Unsicherheit oder Entscheidungsrelevanz aus. Ein banales Beispiel: Ein junges Unternehmen hat den Durchbruch geschafft und endlich ein funktionierendes Hover-Board entwickelt. Erste Marketing-Aktivitäten zeigen, dass 25 von 100 befragten Personen das Board sofort kaufen würden. Bezieht man das auf die deutsche Bevölkerung in einem Alter zwischen 14 und 40 Jahren (24,94 Millionen Menschen) wären das 6,24 Millionen Hover-Boards, die verkauft würden. Aber stimmt das? Was ist, wenn manche sich zwei Hover-Boards kaufen? Was wenn es jemand doch nicht tut? Ist unsere Datenlage groß genug, um eine solche Aussage zuverlässig zu treffen? Für ein Unternehmen kann so eine Planung finanziell außerordentlich kritisch sein und hohen Einfluss auf Erfolg oder Misserfolg nehmen.
Damit sind alle für ein Small Data Projekt relevanten Kriterien erfüllt:
- kleines Datenvolumen
- einfacher Datenzugang (in diesem Fall wahrscheinlich Excel)
- die Daten wurden per Hand erhoben
- die Auswertung und Entscheidung auf Grundlage der Daten hat direkten Einfluss auf den kritischen Geschäftserfolg
Was ist die Bayes-Statistik (Bayesianische Statistik)?
In der Bayes-Statistik werden zugrundeliegende Wahrscheinlichkeiten, wie zum Beispiel eine Verkaufsrate, wie im oberen Fall, nicht als statische Zahl angesehen. Die Rate kann schwanken, abhängig von externen Einflüssen, wie dem Wetter, der Inflation oder anderen Dingen. Dadurch verändert sich das Ergebnis und liegt innerhalb einer Verteilung an wahrscheinlichen Werten. Für das Hover-Board Beispiel bedeutet das, statt fixen 6,24 Millionen Menschen eine Spannweite an möglichen Zahlen, die sich um diese 6,24 Millionen bewegen. Es können also auch mehr oder weniger sein. Der Clou: Bei der Bayes-Statistik können in der praktischen Umsetzung Vermutungen und Erfahrungen in einem rationalen Verfahren über einen sogenannten Prior mit einbezogen werden. Ein Prior könnte zum Beispiel die Erfahrung sein, wie sich ähnlich Produkte in einem Markt verkauft haben. So könnte jemand aus dem Marketing angeben, dass ähnliche Produkte nie weniger als 19 % und nie mehr als 27 % der Zielgruppe erreicht haben. Eine vollständige Übersicht zur Bayes-Statistik finden Sie in unserem Cheat-Sheet, welches wir Ihnen kostenlos als Download zur Verfügung stellen:
Bayes-Statistik für Small Data Projekte
Eines vorweg: Die Bayesianische Statistik ist keine Wunderwaffe gegen wenig Informationen und einer kleinen Menge an Daten. Es ist aber eine Methode, Unsicherheit zu visualisieren und zu quantifizieren. Sich dem Ausmaß an Unsicherheit einer Prognose bewusst zu sein, gibt Platz für eine fundierte und gut abgewogene Entscheidung. Mehr braucht gutes Fachpersonal meist nicht um in kritischen Situationen handlungsfähig zu sein. Das lässt sich an dem oben genannten Hover-Board Beispiel gut visualisieren.
Die Daten aus der Umfrage sehen ungefähr so aus und werden von der Marketingabteilung in einer Excel-Liste bereitgestellt:
Wertet man die Daten aus, kommt ein Kaufinteresse von 25 % aller Menschen zwischen 14 und 40 Jahren zustande. Man ist sich aber sicher, dass die Daten nur bedingt aussagekräftig sind, da sie in nur einem einzigen Kaufhaus zwischen 12-13 Uhr aufgenommen wurden, in einer Stadt mit hohen Gehältern. Diese 100 Personen repräsentieren möglicherweise nicht die gesamte deutsche Bevölkerung, oder die Daten ignorieren an der Stelle andere Faktoren, die einen Einfluss nehmen könnten. In der normalen Statistik könnten entweder die 25% als gegeben hingenommen werden, oder weitere Umfragen durchgeführt werden, um näher an die „echte“ Marktgröße heranzukommen. Die Zeit drängt jedoch. Mit Bayes nehmen wir an, dass das Kaufinteresse immer einer gewissen Schwankung unterliegt und nicht als fixe Zahl interpretiert werden kann. Nach einer initialen Auswertung ergibt sich folgendes Zielbild über ein Bayes-Simulationsverfahren, in dem alle möglichen Wahrscheinlichkeitswerte berücksichtigt werden, die die gleichen Umfragewerte erzeugen könnten:
Aus dem Ergebnis lässt sich ableiten, dass mit einer 95 %igen Wahrscheinlichkeit nicht weniger als 23 % und nicht mehr als 27 % der Menschen zwischen 14 und 40 Jahren überzeugt werden können, ein Board zu kaufen. Ein Mittelwert von 25 % hat sich jedoch bestätigt. Natürlich könnte jetzt der Mittelwert genommen werden und damit ein Forecast für die nächsten fünf Geschäftsjahre angefertigt werden. Das ist allerdings risikobehaftet, da der Schwankungsbereich der Verkaufsrate nun abschätzbar ist. Zwischen 5,76 Millionen (23 %) und 6,75 Millionen (27 %) verkauften Hover-Boards liegt ein weites Spektrum an Möglichkeiten, die relevant für Produktionskapazitäten und weitere Bereiche sind. Eine vollwertige Wachstumsprognose mit Bayes-Statistik könnte so aussehen:
Schwankungsbereiche mit dem bayesianischen Ansatz erkennen
Ohne die Bayes-Statistik würde in vielen Unternehmen wohl eine Prognose entstehen, die nur den Mittelwert zurückgibt (die schwarze Linie), aber die möglichen Schwankungen außen vorlässt. Mit dem bayesianischen Ansatz werden mögliche Schwankungsbereiche sichtbar. In diesem Beispiel ist zwischen Jahr 1 und 2 keine große Schwankung zu erwarten. Für die Zeit zwischen Jahr zwei und drei schon. Mit dieser Information können die Produktion und das Budget deutlich umsichtiger geplant werden. Das hier gezeigte Beispiel ist nur ein kleiner Ausschnitt der Möglichkeiten und stark simplifiziert, um die Idee hinter dem Bayes-Ansatz zu demonstrieren. Die folgenden Stichpunkte sollten Sie sich zum Thema Bayes merken:
- auch mit wenig Daten können business-relevante Fragestellungen beantwortet werden
- mit Bayes kann Fachwissen der Mitarbeiter*innen sinnvoll einbezogen werden
- die Bayes-Statistik kann Unsicherheiten und Schwankungen quantifizieren und visualisieren
- Bayes lohnt sich in entscheidungskritischen Bereichen
Sie finden diese Auflistung auch in dem Bayes-Cheat-Sheet. Sollten Sie darüber hinaus fachliche Expertise zum Thema „Small Data“, „Bayes-Statistik“ oder dem Bestimmen von guten Einsatzgebieten benötigen, freuen wir uns, Sie tatkräftig zu unterstützen.