Der Begriff „Big-Data“ stammt aus dem Englischen und kann wörtlich mit „große Daten“ bzw. „große Datenmengen“ übersetzt werden. Üblicherweise wird allerdings im deutschen Sprachraum auf eine Übersetzung verzichtet, da eine direkte Übersetzung nicht der im folgenden beschriebenen Bedeutung des Begriffs gerecht wird. Obwohl in der Literatur heutzutage noch keine eindeutige Definition existiert, wird der Begriff häufig anhand des 3V-Modells bestimmt (vgl. Gluchowski und Chamoni 2016, S. 57; Gluchowski und Chamoni 2016, S. 57; Schön 2016, S. 302):

 • Volume (Datenmenge)  

Das Wachstum von Datenvolumen und Datentypen erfolgt rasant. Laut einer Studie von IDC (International Data Corporation) aus dem Jahr 2011 erhöht sich das Datenvolumen alle zwei Jahre um mehr als das Doppelte (Gantz und Reinsel 2011, S. 1). Der Aspekt Volume beschreibt dabei die zur Verfügung stehende Datenmenge, die gespeichert werden soll (Schön 2016, S. 303). Bei besonders großen Datenmengen, die im Tera- bis Zettabereich (Terabyte=10^12 Byte, Zettabyte=10^21 Byte) liegen, befindet man sich bei Datenmengen, die für Big-Data üblich sind (Fasel und Meier 2016, S. 6).

  • Variety (Datenvielfalt)

Mit Variety wird die Datenvielfalt und dessen Komplexität beschrieben. Bei Daten wird zwischen strukturierten und unstrukturierten Daten unterschieden. Ein Beispiel für strukturierte Daten sind Namen, Alter oder Einkommen eines Mitarbeiters in einer relationalen Tabelle (Finlay 2014, S. 13). Unstrukturierte Daten hingegen können beispielsweise Texte, Grafiken, Bilder, Audio und Videos sein (Fasel und Meier 2016, S. 6). Darauf aufbauend werden Daten, die man zum Beispiel in einer E-Mail findet, als semistrukturierte Daten bezeichnet. Während sich im Kopf strukturierte Daten wie Absender und Betreff befinden, enthält das Textfeld unstrukturierte Daten wie Texteinträge mit Anhängen und Bildern (Schön 2016, S. 303).

  • Velocity (Datengeschwindigkeit)

Unter Velocity versteht man die Geschwindigkeit der Datenauswertung. Big-Data Datenströme sollen in Echtzeit ausgewertet und analysiert werden können (Fasel und Meier 2016, S. 6). Besonders bei Social-Media-Daten, die sich laufend ändern können oder ergänzt werden, spielt neben der Verarbeitungsmenge die Auswertungsgeschwindigkeit eine zentrale Rolle (Schön 2016, S. 303). Zusätzlich zu den 3V, die als Teil einer Definition des Begriffs Big-Data gesehen werden können, existiert ein weiteres Kriterium. Dieses Kriterium erweitert das 3V-Modell zum

4V-Modell. Es wird unter anderem von Meier und Kaufmann und IBM vorgestellt und auch in weiterer Literatur aufgegriffen (vgl. IBM Institute for Business Value und Saïd Business School (Hrsg.) 2012; Meier und Kaufmann 2016, S. 13; Schön 2016, S. 304; Fasel und Meier 2016, S. 6):

 • Veracity (Richtigkeit der Daten)

Da die verwendeten Daten unterschiedliche Ursprünge aufweisen und sowohl strukturiert als auch unstrukturiert sind, müssen die Daten aufeinander abgestimmt und integriert werden, um dessen Auswertungsqualität zu verbessern und Unzuverlässigkeit zu verhindern. Das bedeutet beispielsweise, falsche Daten wie Übersetzungsfehler (Freiknecht 2014, S. 13) mit Hilfe von Algorithmen herauszufiltern. (Schön 2016, S. 304; Fasel und Meier 2016, S. 6) Da die Richtigkeit der Daten auf den anderen 3V basiert, ist diese alleine kein Merkmal für Big-Data, sondern erst in Kombination mit mindestens einem der anderen drei Merkmale.

 Im Laufe dieser Arbeit wird das 4V-Modell als Definition für Big-Data zugrunde gelegt. Einigkeit herrscht in der Literatur, dass dann von Big-Data gesprochen werden kann, wenn mindestens eines der 4 Kriterien erfüllt ist (Schön S.302 nach Brücher). Wichtig ist dabei festzuhalten, dass die einzelnen Kriterien keine eindeutigen Grenzen definieren. Das bedeutet, die Einstufung von Daten als Big-Data hängt vom Kontext des Anwendungsgebiets ab.