Technologien zur Datenerfassung und Verarbeitung wurden bereits im 2. Kapitel vorge- stellt. Nun soll die Kernaufgabe von Big-Data, die Gewinnung von Erkenntnissen anhand der gespeicherten Daten, thematisiert werden.

Big-Data-Analysen helfen Unternehmen dabei, sachkundigere Entscheidungen zu tref- fen. (Pyne et al. 2016, S. 15) Bei den Analysen kann zwischen drei Analyseschritten (vgl. Abbildung 7) unterschiedenen werden, die aufeinander aufbauen.

Nachfolgend werden die Analyseschritte differenziert und einzelne Techniken und Algo- rithmen vorgestellt, die auf Big-Data angewendet werden können, um das Vorgehen bei den Analysen zu erläutern. Dabei liegt der Fokus nicht darauf, einzelne mathematische Formeln oder Algorithmen herzuleiten und im Detail zu beschreiben, sondern dessen Aufgaben und Möglichkeiten zu verdeutlichen.

Big-Data-Analysen von Bondaten
Big-Data-Analysen von Bondaten

Deskriptive Analysen

Deskriptive (beschreibende) Analysen beschäftigen sich mit historischen Daten zur Er- kennung von Mustern wie beispielsweise Abweichungen in Betriebskosten, Absätze von verschiedenen Produkten oder Kaufpräferenzen von Kunden. Diese Form der Analyse wird typischerweise als erster Schritt durchgeführt, da sie Fragen darüber beantwortet, was passiert ist und was in der Gegenwart passiert. (Pyne et al. 2016, S. 15; Delen und Demirkan 2013, S. 361) Bei deskriptiven Analysen kann zwischen OLAP (Online Analy- tical Processing) und Statistik als Hauptbereiche unterschieden werden. (Sharda et al. 2017, S. 75)

OLAP, das bereits in 2.4 eingeführt wurde, ermöglicht die Analyse, Charakterisierung und Zusammenfassung strukturierter Daten, die in Data-Warehouses oder Data-Marts gespeichert werden. (Sharda et al. 2017, S. 75) Datenanalysten können mit Hilfe von OLAP durch die Datenbasis navigieren und die Daten je nach Anwendungszweck aggre- gieren oder disaggregieren (drill down/up). (Sharda et al. 2017, S. 158–159) OLAP ba- siert auf dem sogenannten Cube (Würfel) Konzept, welches eine multidimensionale Da- tenstruktur darstellt und schnelle Analysen ermöglicht. So kann zu bestimmten Teil- mengen von Daten navigiert werden. Ein dreidimensionaler Datenwürfel kann beispiels- weise die Dimensionen Zeit, Produkt und geographische Lage besitzen. Ein Datenanalyst kann dann den Absatz eines Produkts in einer bestimmten Region identifizieren. (Sharda et al. 2017, S. 159–160; Bitkom 2014, S. 70)

Die Statistik unterstützt deskriptive Analysen mit mathematischen Techniken, um Daten zu charakterisieren und interpretieren. Auf der abstraktesten Ebene kann zwischen deskriptiver und induktiver Statistik unterschieden werden. Deskriptive Statistik be- schreibt grundlegende Eigenschaften der Daten, oft basierend auf einzelnen Variablen. Mit Hilfe von Formeln und numerischer Aggregation werden die Daten so zusammenge- fasst, dass aussagekräftige und leicht verständliche Muster auftreten. Im Rahmen von Datenanalysen spielt die deskriptive Statistik eine zentrale Rolle, da sie dabei hilft, Da- ten zu erklären und in aggregierter Form aufzubereiten. Sie unterstützt so einerseits Entscheidungsprozesse im Unternehmen und andererseits hilft sie dabei, Daten für an- spruchsvollere Analysen zu charakterisieren und validieren. Deskriptive Statistik erlaubt es, die Streuung von Daten zu erkennen, zum Beispiel besonders hohe oder niedrige Werte (Ausreißer). Lageparameter sind die mathematische Methode, um die Lage von Variablen zu bestimmen. Dazu zählen beispielsweise das arithmetische Mittel und der Median. Mathematische Methoden zur Feststellung von Streuungen beschreiben den Grad der Veränderung von Variablen. Dazu gehört zum Beispiel die Varianz, die die Abweichung aller Datenpunkte einer Datenmenge vom Mittelwert berechnet. Je größer die Varianz, desto mehr sind die Datenpunkte vom Mittelwert verteilt. (Sharda et al. 2017, S. 75–76)

Bei der induktiven Statistik ist die Regression, im speziellen die lineare Regression eine weit verbreitete Analysetechnik. Sie wird verwendet, um die Abhängigkeit einer Variable (Output-Variable) zu einer oder mehreren erklärenden Variablen (Input-Variablen) zu modellieren. Sobald die Beziehung identifiziert wurde, kann sie als formale, lineare oder additive Funktion dargestellt werden. Das Ziel der Regression ist es, Beziehungen der Charakteristika der realen Welt zu erfassen und diese als mathematisches Modell zu repräsentieren. Regression kann für zwei Aufgaben eingesetzt werden: Erforschung von potentiellen Beziehungen zwischen Variablen zum Testen von Hypothesen, wie es in der deskriptiven Analyse genutzt wird und für Prognosen, die Bestandteil der prädiktiven Analyse sind.

Die Informationen, die durch deskriptive Analysen gewonnen wurden, werden beispiels- weise in der Form von Reports (Berichten) an die entsprechenden Entscheidungsträger übermittelt. Sharda et al. fassen Reports als jegliche Form der Kommunikation (schrift- lich oder mündlich) zusammen, dessen Aufgabe es ist, die zu übermittelnden Informa- tionen in verständlicher Weise an jede betroffene Person und zu jedem benötigten Zeit- punkt zu übermitteln. (Sharda et al. 2017, S. 98) Soltanpoor und Sellis beschreiben diese Phase als die Datenzusammenfassung, weil die folgenden Analyseschritte unter anderem auf den Informationen der deskriptiven Analysen aufbauen. (Soltanpoor und Sellis 2016, S. 247)

Prädiktive Analysen von Bondaten

Prädiktive (voraussagende) Analysen dienen der Vorhersage von zukünftigen Trends oder Ereignissen. Während deskriptive Analysen also die Aufgabe haben, die Vergan- genheit besser zu verstehen, sollen prädiktive Analysen dabei helfen, Entscheidungen für die Zukunft zu treffen. (Pyne et al. 2016, S. 16)

Das sogenannte Data-Mining spielt bei der prädiktiven Analyse eine zentrale Rolle. Der Begriff beschreibt das Entdecken von Wissen in großen Datenmengen. Aus technischer Sicht werden statistische und mathematische Methoden verwendet, um nützliche Infor- mationen und anschließend Wissen (Muster) aus den Daten zu extrahieren. (Sharda et al. 2017, S. 196)

Je nach Art und Weise, in der die Muster aus den Daten extrahiert werden, kann außer- dem zwischen überwachtem und unüberwachtem Lernen unterschieden werden. (Sharda et al. 2017, S. 200–201) Machine Learning, ein Teilgebiet der künstlichen In- telligenz, macht sich diese Formen des Lernens zunutze, um verschiedene Aufgaben durchzuführen. Diese Aufgaben müssen nicht zwangsläufig zu Prognosezwecken ver- wendet werden, im Rahmen dieser Arbeit liegt darauf allerdings der Fokus beim Machine Learning. Beim überwachten Lernen erhält der Computer Trainingsdaten mit Input und Output, anhand dessen dieser Muster entwickeln soll, um zukünftige Probleme zu lösen. Unüberwachtes Lernen beinhaltet Daten ohne Lösungen und der Computer muss eigen- ständig Lösungen finden. (Louridas und Ebert 2016, S. 111–113) Machine Learning wird deshalb in der Big-Data Umgebung eingesetzt, weil Datenanalysten mit hypothesenge- triebenen Analysen nicht alleine die Komplexität und den Umfang von Big-Data bewäl- tigen können. (Davenport 2013, S. 15) Machine Learning ermöglicht es durch seine Algorithmen, intelligente Applikationen zu erstellen, die selbstständig Muster erkennen und somit die Datenanalyse unterstützen. (Prajapati 2013, S. 149)

Im Folgenden werden die Teilgebiete des Data-Mining, die Bestand präskriptiver Analy- sen sind, vorgestellt (Sharda et al. 2017, S. 201) :

• Prognose

Unter Prognosen versteht man das Vorhersagen über die Zukunft. Es unterscheidet sich vom einfachen raten, indem Erfahrungen, Optionen und andere relevante Informationen mit in Betracht gezogen werden. (Sharda et al. 2017, S. 200)

Klassifikation ist laut Sharda et al. die am weitesten verbreitete Data-Mining Tätigkeit. Dessen Aufgabe besteht darin, historische Daten zu analysieren und daraus automatisch ein Modell zu generieren, welches Prognosen über zukünftiges Verhalten offenbart. (Sharda et al. 2017, S. 200) Klassifikationsmethoden sind Teil des überwachten Ler- nens. Die Algorithmen erhalten Trainingsdaten, die bereits klassifiziert sind, um die Wahrscheinlichkeiten zu lernen, dass diese Beobachtungen zur Klassifizierung zukünfti- ger, nicht zugeordneter Beobachtungen beitragen. Beispielsweise können E-Mail Provi- der Klassifikation zur Entscheidung verwenden, ob eingehende E-Mails Spam sind. (EMC Education Services. 2015, S. 192) Verwendete Algorithmen sind unter anderem Ent- scheidungsbäume (Decision Trees) und künstliche Neuronale Netzwerke. Entschei- dungsbäume entwickeln ein geeignetes Modell zur Prognose von Zielvariablen, basie- rend auf Input Variablen. Künstliche Neuronale Netzwerke sind Modelle, dessen Archi- tektur der von tierischen Gehirnen nachempfunden ist. Neuronen sind Zellen, die che- mische oder elektrische Signale verarbeiten und weiterleiten. Das Netzwerk basiert da- bei auf einfachen Formen von Input und Output. In der Biologie können Neuronen tau- sende verschiedene Inputs verarbeiten. Künstliche neuronale Netzwerke können eben- falls verschiedene Inputs verarbeiten und weisen auch bei großen Datenmengen und einer hohen Geschwindigkeit Erfolg auf, weshalb sie vor allem bei Echtzeitanalysen ver- wendet werden. (Bell 2014, S. 91–92)

Eine weitere Methode sind Regressionsanalysen. Wie bereits bei der deskriptiven Ana- lyse angemerkt kann diese auch für Prognosezwecke eingesetzt werden. Da bei der Regression die Abhängigkeiten von Variablen erforscht werden, können darauf basie- rend Prognosen für zukünftige Entwicklungen erstellt werden. (EMC Education Services. 2015, S. 162)

Bei der Zeitreihenanalyse wird die zugrundeliegende Struktur von Überwachungen in einem bestimmten Zeitraum modelliert. Ziel der Zeitreihenanalyse ist einerseits die Identifikation und Modellierung der Struktur der Zeitreihe und andererseits die Prognose zukünftiger Werte der Zeitreihe. Bei der Box-Jenkins Methode besteht die Zeitreihe aus Werten mit dem gleichen Abstand zueinander. Das können beispielsweise monatliche Arbeitslosenquoten oder tägliche Webseiten-Besuche sein. Die drei Schritte dieser Me- thode lauten Bestimmung der Daten und Auswahl eines Modells, sowie Identifikation von Trends oder saisonalen Abhängigkeiten der Zeitreihe, Abschätzung der Modellpara- meter und zuletzt Beurteilung des Modells. Falls nötig wird der Prozess dann von vorne begonnen. (EMC Education Services. 2015, S. 235)

• Assoziationsanalyse

Die Assoziationsanalyse ist ein weit verbreitetes Data-Mining-Verfahren zur Aufdeckung von Beziehungen zwischen Variablen in großen Datenbeständen. Ein Anwendungsgebiet ist im speziellen die Analyse der Warenkorbdaten. Um Prognosen über zukünftige Ein- käufe anzustellen, werden die PoS-Daten der vergangenen Einkäufe (Transaktionen) hingehend des Inhalts der Warenkörbe (Items) analysiert. Bei der Bondatenanalyse sind die Variablen verschiedene Einkaufsvorgänge und es werden die Beziehungen zwischen diesen und den gekauften Produkten hergestellt. Ein verwendeter Algorithmus ist Apri- ori, der Datensätze einzeln durchläuft und Korrelationen zwischen Transaktionen und Items aufdeckt. (Bell 2014, S. 117–124)

• Segmentierung

Segmentierung kann durch Clusteranalysen und Ausreißeranalysen erfolgen. (Sharda et al. 2017, S. 201) Bei der Clusterananlyse werden im Kontext des Machine Learning Objekte automatisch in verschiedene Cluster (Gruppen) einsortiert. Es handelt sich um ein unüberwachtes Verfahren. Das bedeutet in diesem Fall, dass Datenanalysten die einzelnen Cluster nicht im Vorhinein benennen und Eigenschaften festlegen. Stattdessen beschreibt die Struktur der Objekte selbst, wie diese gruppiert werden sollen. Ein ver- wendeter Algorithmus ist der k-Means-Algorithmus. Vereinfacht gesagt identifiziert die- ser für einen festgelegten Wert k, eine Anzahl von k Clustern ähnlicher Objekte. (EMC Education Services. 2015, S. 118–119)

Der k-Means-Algorithmus kann außerdem Ausreißerobjekte ermitteln, die besonders weit von den identifizierten Clusterzentren entfernt liegen und somit Ausnahmen in der Datenmenge bilden. Das kann bei der Bildverarbeitung hilfreich sein, um beispielsweise bei Sicherheitsvideos Veränderungen zwischen einzelnen Frames festzustellen. (EMC Education Services. 2015, S. 119)

Die Unterscheidung zwischen deskriptiver und prädiktiver Analyse liegt im Zeitraum, der betrachtet wird, also deskriptive Analysen in der Vergangenheit und Gegenwart und prediktive Analysen in der Zukunft, und in der daraus resultierenden steigenden Kom- plexität der benötigten Werkzeuge und Algorithmen, denn es werden nicht nur Tatsa- chen wie bei der deskriptiven Analyse wiedergegeben (Was ist passiert?), sondern es werden Prognosen angestellt, was passieren wird und auch warum es passieren wird. (Sharda et al. 2017, S. 131)

Präskriptive Analysen von Bondaten

Während deskriptive und prädiktive die Vergangenheit beschreiben bzw. die Zukunft vorhersagen sollen, besteht der nächste Schritt im Entscheidungsprozess in der Frage, wie Entscheidungen auf Grundlage der Analysen umgesetzt werden können. Präskriptive (vorschreibende) Analysen sollen dabei helfen, die Auswirkungen verschiedener, mög- licher Entscheidungen abzuwägen und so Fachleute bei der Wahl der Entscheidung zu unterstützen. Trotz der scheinbar nützlichen Unterstützung dieser Analysen verwenden laut Gartner im Jahr 2012 nur 3% der Unternehmen präskriptive Analysemethoden zur Entscheidungsunterstützung (Drew 2012). Ein mögliches Anwendungsgebiet ist der Ge- sundheitssektor. Präskriptive Analysen können Diagnosen und Behandlungen auf Basis der medizinischen Historie des Patienten vorschlagen, um Entscheidungen von Ärzten zu unterstützen. (Pyne et al. 2016, S. 17) Methoden der Präskriptiven Analyse umfasst unter anderem die Entwicklung mathema- tischer Modelle zur Entscheidungsmodellierung sowie Simulationen, um verschiedene mögliche Ergebnisse der prädiktiven Analysen abzuwägen und Optimierungsmaßnah- men. (Sharda et al. 2017, S. 320; Soltanpoor und Sellis 2016, S. 247)

Mathematische Modelle bestehen in der Regel aus vier Komponenten. Ergebnisvariablen beschreiben die Effektivität eines Systems und beschreiben, wie gut die Ziele errreicht werden. Bei Finanzinvestitionen können das beispielsweise der gesamte Profit oder der Gewinn pro Aktie sein. Entscheidungsvariablen beschreiben die verschiedenen Hand- lungsoptionen. Der Entscheidungsträger kontrolliert diese Variablen. Beim genannten Beispiel können das Investitionsalternativen sein. Die nächste Komponente sind nicht kontrollierbare Variablen oder Parameter, die die Ergebnisvariable beeinflussen, aber nicht verändert werden können. Im Beispiel kann das die Inflationsrate sein. Die letzte Komponente sind Zwischenergebnisvariablen. Diese stellen Zwischenergebnisse in ma- thematischen Modellen dar, die Einfluss auf die Ergebnis- oder Entscheidungsvariablen haben. Der Modellierungsprozess besteht aus der Identifizierung der Variablen und Be- ziehungen zwischen ihnen. Das Lösen des Modells bestimmt die Werte der Ergebnisva- riablen. (Sharda et al. 2017, S. 328–329)

Simulationen modellieren das Verhalten komplexer Systeme und werden zur Prognose und Planung von verschiedenen möglichen Szenarien verwendet. Monte Carlo Simulati- onen sind beispielsweise eine Sammlung von Algorithmen, die auf wiederholten Stich- probenanalysen basieren. Dazu können tausende Simulationen mit verschiedenen An- nahmen durchgeführt werden. Als Ergebnis erhält man ein Histogramm, das die Häu- figkeitsverteilung der verschiedenen Ergebnisse darstellt. (Manyika et al. 2011, S. 29)

Optimierung ist die Bezeichnung für ein ganzes Portfolio numerischer Techniken zur Überarbeitung von Systemen und Prozessen, um dessen Performanz zu steigern. Dazu werden objektive Maßnahmen (z.B. Kosten, Geschwindigkeit, Zuverlässigkeit) zugrunde gelegt. Eine Optimierungstechnik sind genetische Algorithmen, die von der biologischen Funktionsweise von Genen inspiriert sind. Genetische Algorithmen sind ein Bereich der evolutionären Algorithmen, deren Funktionen von der Evolution abgeleitet sind. (Reeves und Rowe 2004, S. 1–2)