Das Ziel von clusteranalytischen Verfahren ist im Allgemeinen, eine Menge von Objekten zu homogenen Gruppen zusammenzufassen (vgl. etwa [Aldenderfer und Blashfield, 1984]; [Stein und Vollnhals, 2011]; [Bacher et al., 2010], S. 15 und [Hair et al., 2018], S. 192). Diese Gruppen werden Cluster genannt und haben als Zielsetzung, dass Objekte innerhalb eines Clusters moglichst homogen sind, wahrend die Cluster (bzw. die Objekte verschiedener Cluster) zueinander moglichst heterogen sind (vgl. [Bacher et al., 2010] S. 16 und [Eckey et al., 2002] S. 203). Falls ein solches Ergebnis nicht zu erwarten ist, bietet sich dementsprechend eine Clusteranalyse nicht an (vgl. [Stein und Vollnhals, 2011]). Clusteranalysen bieten sich hingegen an, wenn innerhalb von Daten naturliche Gruppen identifiziert werden sollen, also eine Taxonomie beschrieben werden soll (vgl. [Hair et al., 2018], S. 201). Ferner konnen Clusteranalysen zur Simplifikation von Daten verwenden werden, indem von konkreten Datensatzen abstrahiert wird, um stattdessen die Cluster zu analysieren, oder um Beziehungen zu identifizieren, die durch eine komplexe Struktur der initialen Daten nicht ersichtlich sind (vgl. [Hair et al., 2018], S. 201). Es gibt auch Kritikpunkte an die Clusteranalyse, wie etwa die Tatsache, dass als Ergebnis immer eine Clusterlosung resultiert, unabhangig davon, ob es in den Daten eine echte Struktur gibt (vgl. [Hair et al., 2018], S. 211). Dementsprechend sollte die Clusteranalyse nach Moglichkeit dafur genutzt werden, vormals angestellte, konzeptuelle Vermutungen zu bestatigen und eine ‘naturliche’ Struktur von Objekten zu finden, um so eine Kategorisierung durchzufuhren (vgl. u.A. [Anderberg, 1973] S. 4 f.). Es gibt einige Anspruchskriterien, die von ‘guten’ Clusterlosungen erwartet werden, und sich auf die Qualitat von Clusterbildungen beziehen, etwa, dass die Anzahl von Clustern moglichst klein sein sollte, oder dass sie inhaltlich sowohl gut interpretierbar, als auch valide sein sollten (vgl. [Bacher et al., 2010], S. 18). Die verschiedenen entwickelten Clusteranalyseverfahren konnen in unterschiedliche Gruppen eingeteilt werden, die von Bacher et al. wie folgt definiert werden: unvollstandige Clusteranalyseverfahren, deterministische Clusteranalyseverfahren und probabilistische Clusteranalyseverfahren. Unterschieden werden bei dieser Betrachtung die Gruppen anhand der “Zuordnung der Klassifikationsobjekte zu den Clustern” ([Bacher et al., 2010], S. 18), wobei in anderer Literatur teils andere Begriichkeiten verwendet werden.

Arten von Verfahren zur Clusteranalyse

Dieser Abschnitt wird einen kurzen Uberblick uber die verschiedenen Arten geben, mit denen man im Allgemeinen eine Clusteranalyse durchfuhren kann, basierend auf der Gruppierung und der zugehorigen Abgrenzung der Verfahrensarten in [Bacher et al., 2010], woraus die nachfolgende Klassifizierung sinngema entnommen ist.

Unvollstandige Clusteranalyseverfahren

Unvollstandige Clusteranalyseverfahren (oftmals auch als geometrische Methoden bezeichnet) fuhren einzig zu einer raumlichen Darstellung der Objekte, somit findet die Zuordnung von Objekten zu Clustern erst durch Interpretation durch einen Anwender statt. Durch Fokus auf grafische Darstellung sind diese Verfahren auf zwei- oder dreidimensionale Objekte beschrankt und auch durch die Anzahl der Objekte limitiert (vgl. [Bacher et al., 2010], S. 37), auerdem sind diese Verfahren durch manuelle Clusterzuordnung nicht formal (vgl. [Bacher et al., 2010], S. 19).

Deterministische Clusteranalyseverfahren

Im Vergleich hierzu ordnen deterministische Clusteranalyseverfahren jedes Objekt mindestens einem Cluster zu, wobei diese Cluster berechnet wurden. Deterministische Clusteranalyseverfahren konnen in zwei Gruppen aufgeteilt werden, namlich in partitionierende Verfahren, die zur Zuordnung eine vorher festgelegte Anzahl von Clustern benotigen, und hierarchische Verfahren, die sukzessiv zu der endgultigen Anzahl der Cluster gelangen. Die Ansatze, letzteres zu erreichen ist entweder ein top-down Ansatz, indem sich zunachst alle Objekte in einem groen Cluster be
nden und dann schrittweise in kleinere Cluster aufgeteilt werden (divisive Verfahren), oder aber ein bottom-up Ansatz, in dem sich jedes Objekt in einem eigenen Cluster befindet, und schrittweise die ahnlichsten Cluster miteinander verschmolzen werden (hierarchisch-agglomerative Verfahren). Bezuglich der konkreten Bildung von Gruppen kann auch zwischen uberlappenden Verfahren, die ein Objekt mehreren Clustern zuordnen konnen, und uberlappungsfreie Verfahren, die jedes Objekt genau einem Cluster zuordnen, unterschieden werden.

Die nachfolgenden Vor- und Nachteile der jeweiligen Verfahrensarten werden in [Hair et al., 2018] auf den Seiten 219 f. von Hair et al. zusammengefasst: Hierarchische Clusteranalyseverfahren sind meist einfach verstandlich, weisen eine hohe Geschwindigkeit bei der Analyse auf und haben aufgrund des Verbreitungsgrades eine Vielzahl von entwickelten Ahnlichkeitsmaen zu Verfugung, wodurch sie sich fur eine Vielzahl moglicher Forschungsfragen qualifizieren. Auf der anderen Seite steht bei hierarchischen Verfahren die Geschwindigkeit der allgemeinen Performanz gegenuber; groe Datenmengen erfordern namlich enorm viel Speicherplatz und Rechenleistung. Zudem kann verfahrensbedingt die Losung verzerrt werden, da einerseits sehr fruh Cluster kombiniert werden konnen, die in der Form nicht wunschenswert sind, allerdings permanent kombiniert bleiben und andererseits, da Ausreier in der Datenmenge einen starken Ein uss auf die Untersuchung haben und sorgfaltiges Abwagen bezuglich der Loschung des ausreienden Datensatzes erfordern. Partitionierende Verfahren hingegen sind weniger anfallig bezuglich Ausreiern und konnen auch auf sehr groe Datenmengen angewandt werden, da durch die feste Anzahl von Clustern die Berechnungsvorschrift bezuglich des Vergleichs der Ahnlichkeiten weitaus weniger umfangreich ist. Auf der anderen Seite resultiert jede Clusteranalyse in genau einer Clusterlosung, sodass fur den Vergleich verschiedener Clusterlosungen jeweils einzelne Clusteranalysen durchgefuhrt werden mussen, was nicht sehr effizient ist; hierarchische Clusteranalyseverfahren hingegen produzieren auf dem Weg zur endgultigen Losung auch alle anderen moglichen Clusterlosungen. Auerdem sind Clusteranalysen nach partitionierenden Verfahren mit zufallig bestimmten Startpunkten der Cluster schwach hinsichtlich der Qualitat der Clusterlosung. Auch bei nicht-zufallig bestimmten Startpunkten fuhren partitionierende Verfahren nicht immer zu einer optimalen Clusterlosung, somit mussen vom Anwender des Verfahrens die verschiedenen moglichen Clusterlosungen (durch unterschiedlich gewahlte Startpunkte der Cluster) im Hinblick auf die Problemstellung analysiert und evaluiert werden, wodurch sich mehrere Losungen als annehmbar herausstellen konnen.

Probabilistische Clusteranalyseverfahren

Bei probabilistischen Clusteranalyseverfahren wird die Zuordnungen von Objekten zu Clustern mit Wahrscheinlichkeiten angegeben, anstelle von deterministischen Zuordnungen. Vorteile solcher Clusteranalyseverfahren gegenuber deterministischen Clusteranalyseverfahren sind unter anderem die Moglichkeit der Modellierung von Messfehlern in den Variablen, aber auch geringe Anfalligkeit fur Verzerrungen durch irrelevante Variablen. Andererseits wird dafur auch haufig eine groere Stichprobe benotigt (vgl. [Bacher et al., 2010], S. 353 f.).

Vorgehen zur Durchfuhrung einer deterministischen Clusteranalyse

Im Rahmen dieser Untersuchung erfahren deterministische Clusteranalyseverfahren besondere Beachtung, daher wird das allgemeine Vorgehen fur die Durchfuhrung einer solchen Clusteranalyse im Folgenden naher beleuchtet. In [Bacher et al., 2010] wird bezuglich deterministischer Clusteranalyseverfahren eine Reihe von Losungschritten vorgeschlagen, um mit einer vorliegenden Datenmatrix eine objektorientierte Klassifikation aufzufinden. Die hier aufgefuhrten Beschreibungen der Vorgehensschritte sind allesamt, soweit nicht anders vermerkt, sinngema aus [Bacher et al., 2010] entnommen.

1. Auswahl der Variablen Auswahl der Spalten der Datenmatrix, ergo der Merkmale der Untersuchungsobjekte. In [Hair et al., 2018] wird unterstrichen, dass die Aus wahl der Variablen ein essentieller Faktor fur die Qualitat der nachfolgenden Analyse ist, da die Variablen mageblich fur den Vergleich der Objekte und somit fur das Endergebnis sind. Die Auswahl der Variablen darf demnach nicht nachlassig geschehen, sondern soll auf konzeptionellen und theoretischen Uberlegungen beruhen oder zumindest durch  uberlegte Annahmen gestutzt sein und immer die Zielsetzung der Clusteranalyse berucksichtigen (vgl. [Hair et al., 2018], S. 201).

2. Auswahl der Objekte Auswahl der Zeilen der Datenmatrix, ergo der Untersuchungsobjekte. Wichtig ist hier laut [Hair et al., 2018] eine ausreichende Stichprobengr oe, um einen Unterschied zwischen Ausreiern, die das Ergebnis verfalschen und ausgeklammert werden sollten und kleinen, aber essentiellen, eigenen Gruppen zu erkennen, deren Reprasentation durch ein eigenes Cluster gerechtfertigt ist.

3. Spezifikation der Eigenschaften, die die Klassifikation erfullen soll Festlegung der gewunschten Eigenschaften der Clusterung, wie etwa Uberlappungsfreiheit oder wie die Cluster gebildet werden sollen, etwa durch Clusterzentren oder Klassifikationsobjekte als Reprasentanten des Clusters.

4. Auswahl eines Verfahrens Auswahl eines Clusteranalyseverfahrens, welches die Eigenschaften in Punkt 3. erfullt und sich fur den Einsatzzweck eignet. Hierzu werden im vorangehenden Abschnitt die verschiedenen Gruppen von Clusteranalyseverfahren, sowie die jeweiligen Vor- und Nachteile vorgestellt.

5. Transformation und Gewichtung der Variablen Eliminierung von Nichtvergleichbarkeit, bedingt durch etwa unterschiedliche Maeinheiten der Variablen oder gemischtes Messniveau ebenjener. In mancher Literatur wird dieser Prozess Standardisierung der Daten genannt und dient dazu, dass vereinzelne Variablen nicht unerwunscht groen Ein uss auf die Berechnung der Ahnlichkeit haben (vgl. [Hair et al., 2018], S. 208).

6. Auswahl eines Ahnlichkeits- oder UnahnlichkeitsmaBes Teils ist durch das Verfahren bereits ein solches Ma vorgegeben, anderenfalls muss ein solches (Un-) Ahnlichkeitsma zum Vergleich der Untersuchungsobjekte ausgewahlt werden. Hier werden haufig Distanzmae gewahlt (vgl. [Hair et al., 2018], S. 206), die metrische Daten erfordern. Eine hohe Distanz eine geringe Ahnlichkeit bedeutet und umgekehrt (vgl. [Eckey et al., 2002]), ein Beispiel fur ein solches Distanzma ist die euklidische Distanz.

7. Durchfuhren der Clusteranalyse Anwendung des ausgewahlten Verfahrens auf die vorliegende Datenmatrix unter Berucksichtigung der vorherigen Punkte.

8. Bestimmung der Clusterzahl Auf Basis der Clusteranalyse das Bestimmen der ermittelten Cluster. Partitionierende Verfahren legen zu Anfang eine feste Clusterzahl vor, daher sollte dieser Schritt vor der Clusteranalyse stattfinden oder in einem iterativen Prozess die Analyse mit mehreren Clustergroen durchgefuhrt werden, um die ‘optimale’ Clusterzahl zu ermitteln. Dies ist fur viele Clusteranalysen ein kritischer Schritt, da hier entschieden wird, welche Clusterlosung am ehesten der Struktur der Daten entspricht (vgl. [Hair et al., 2018], S. 221). Hierfur werden haufig Regeln aufgestellt, die sich auf den Zuwachs der Heterogenitat innerhalb eines Clusters beziehen, wenn die Entscheidung ansteht ob zwei Cluster zu einem kombiniert werden oder als separate Cluster stehenbleiben.

9. Prufung der Modellanpassung Die Modellanpassung wird durch berechnete Ma- zahlen reprasentiert, die zur Prufung der Vorstellungen an eine gute Klassifikation, wie etwa Homogenitat innerhalb der Cluster und Heterogenitat untereinander (vgl. [Bacher et al., 2010], S. 27). Zudem soll gepruft werden, ob die ermittelte Klassifikation in der Lage ist, die Daten zu erklaren (vgl. [Bacher et al., 2010], S. 18).

10. Beschreibung und inhaltliche Interpretation Die Cluster werden im Bezug auf den Sachkontext eingeordnet und in dem Zuge auch benannt. In diesem Schritt kann bereits uberpruft werden, ob sich in den resultierenden Clustern der Clusterl osung die erwartete Struktur der Daten widerspiegelt (vgl. [Hair et al., 2018], S. 228).

11. Inhaltliche Validitatsprufung Es wird versucht, die Clusterbildungen vor dem Sachkontext zu erklaren und und auf Sinnhaftigkeit zu evaluieren. Dies kann mitunter ein recht subjektiver Prozess sein, daher muss vom Anwender groe Sorgfalt walten gelassen werden (vgl. [Hair et al., 2018], S. 228).

12. Stabilitatstests Prufung, ob die Cluster stabil sind, also ob die Analyse auch mit einer leichten Anpassung der Parameter zur selben Clusterlosung fuhrt.

13. Formale Gultigkeitsprufung Die formale Gultigkeitsprufung umfasst neben den Aspekten der Homogenitat innerhalb der Cluster und der Heterogenitat zueinander zusatzlich die Stabilitat der Losung, die jeweiligen Groen der Cluster und die Anzahl der Cluster (vgl. [Bacher et al., 2010], S. 27 f.). Somit wird uberpruft, ob die Clusterlosung die formalen Kriterien entspricht. Dies kann uber Bewertung der Losung mittels einer Reihe von in [Bacher et al., 2010] auf Seite 494 f. vorgestellten Kriterien geschehen, allerdings existieren laut Bacher auch Mazahlen, wie der Silhouetten-Koeffizient, die diese Kriterien ersetzen.

Die Abfolge von Schritten ist lediglich eine Empfehlung der Autoren in [Bacher et al., 2010], die Reihenfolge kann an den Anwendungsfall angepasst werden. Auerdem reprasentiert es kein allgemeingultiges Verfahren, sondern dient dazu, ein Rahmenwerk fur eine nach statistischen Mastaben moglichst vollstandige und nachvollziehbare Clusteranalyse zu bieten. Andere Autoren wie Hair et al. schlagen in [Hair et al., 2018] ahnliche Vorgehensschritte in teils anderer Reihenfolge vor, allerdings ahneln diese sich inhaltlich stark, auch wenn sie sich teils auf feinerem oder groberen Abstraktionslevel befinden.

Nachdem in vorangehendem Kapitel die grundlegenden Konzepte des Preismanagements und der Clusteranalyse vorgestellt wurden, wird im nachfolgenden Kapitel das Anwendungsbeispiel prasentiert und der notwendige Argumentationsgang hergeleitet.