Clustering
Eine Hauptaufgabe der explorativen Datenanalyse und eine gängige Technik der statistischen Datenanalyse, die in vielen Bereichen eingesetzt wird. Dabei geht es darum, eine Reihe von Objekten so zu gruppieren, dass die Objekte in derselben Gruppe (Cluster genannt) einander ähnlicher sind als die Objekte in anderen Gruppen. Bei der Clusteranalyse selbst handelt es sich nicht um einen bestimmten → Algorithmus, sondern um eine allgemeine Aufgabe, die es zu lösen gilt. Sie kann durch verschiedene Algorithmen gelöst werden, die sich in ihrem Verständnis davon, was ein Cluster ist und wie man es effizient findet, erheblich unterscheiden. Eine bekannte Methode ist z.B. k-Means, welche darauf abzielt, n Beobachtungen in k Cluster aufzuteilen, in denen jede Beobachtung zu dem Cluster mit dem nächstgelegenen Mittelwert (Clusterzentrum) gehört und als Prototyp des Clusters dient. Der geeignete Clustering-Algorithmus und die Parametereinstellungen hängen vom jeweiligen Datensatz und der beabsichtigten Verwendung der Ergebnisse ab.