Mustererkennung clustering

Wenn ein Clusteringergebnis basierend auf den Daten ausgewertet wird, die selbst gruppiert wurden, wird dies als interne Auswertung bezeichnet. Diese Methoden weisen dem Algorithmus, der Cluster mit hoher Ähnlichkeit innerhalb eines Clusters und geringer Ähnlichkeit zwischen Clustern erzeugt, in der Regel die beste Punktzahl zu. Ein Nachteil der Verwendung interner Kriterien bei der Clusterbewertung besteht darin, dass hohe Punktzahlen bei einer internen Kennzahl nicht notwendigerweise zu effektiven Anwendungen für den Informationsabruf führen. [36] Darüber hinaus ist diese Auswertung auf Algorithmen ausgerichtet, die dasselbe Clustermodell verwenden. Beispielsweise optimiert k-means-Clustering natürlich Objektentfernungen, und ein entfernungsbasiertes internes Kriterium überbewertet wahrscheinlich die resultierende Clusterbildung. Es gibt eine andere Möglichkeit, Clusterprobleme zu behandeln: einen modellbasierten Ansatz, der darin besteht, bestimmte Modelle für Cluster zu verwenden und zu versuchen, die Anpassung zwischen den Daten und dem Modell zu optimieren. Die Clusteranalyse selbst ist nicht ein spezifischer Algorithmus, sondern die zu lösende allgemeine Aufgabe. Es kann durch verschiedene Algorithmen erreicht werden, die sich in ihrem Verständnis dessen, was einen Cluster ausmacht und wie sie effizient zu finden, erheblich unterscheiden. Beliebte Begriffe von Clustern umfassen Gruppen mit kleinen Abständen zwischen Clustermitgliedern, dichten Bereichen des Datenraums, Intervallen oder bestimmten statistischen Verteilungen. Clustering kann daher als multiobjektives Optimierungsproblem formuliert werden. Die entsprechenden Clusteringalgorithmus- und Parametereinstellungen (einschließlich Parameter wie die zu verwendende Entfernungsfunktion, ein Dichteschwellenwert oder die Anzahl der erwarteten Cluster) hängen vom individuellen Datensatz und der beabsichtigten Verwendung der Ergebnisse ab. Die Clusteranalyse als solche ist keine automatische Aufgabe, sondern ein iterativer Prozess der Wissensermittlung oder interaktiven multiobjektiven Optimierung, die Versuch und Misserfolg beinhaltet. Es ist oft notwendig, Datenvorverarbeitung und Modellparameter zu ändern, bis das Ergebnis die gewünschten Eigenschaften erreicht.

Verteilungsbasierteclustering erzeugt komplexe Modelle für Cluster, die Korrelation und Abhängigkeit zwischen Attributen erfassen können. Diese Algorithmen belasten den Anwender jedoch zusätzlich: Bei vielen realen Datensätzen kann es kein prägnant definiertes mathematisches Modell geben (z. B. vorausgesetzt, Gaußsche Verteilungen sind eine ziemlich starke Annahme auf den Daten). Es wurden mehrere verschiedene Clustersysteme vorgeschlagen, die auf gegenseitigen Informationen basieren. Eine davon ist die Variation der Informationsmetrik von Marina Meil; [29] Ein anderer bietet hierarchische Clustering. [30] Mit Hilfe genetischer Algorithmen kann eine Vielzahl unterschiedlicher Passfunktionen optimiert werden, einschließlich gegenseitiger Informationen. [31] Auch die Glaubensvermehrung, eine jüngste Entwicklung in Informatik und statistischer Physik, hat zur Entwicklung neuer Arten von Clustering-Algorithmen geführt. [32] Konnektivitätsbasiertes Clustering, auch als hierarchisches Clustering bezeichnet, basiert auf der Kernidee, dass Objekte mehr mit nahe gelegenen Objekten als mit Objekten in der Ferne verwandt sind.

Diese Algorithmen verbinden “Objekte” basierend auf ihrer Entfernung mit “Clustern”. Ein Cluster kann weitgehend durch die maximale Entfernung beschrieben werden, die zum Verbinden von Teilen des Clusters erforderlich ist. In unterschiedlichen Entfernungen bilden sich verschiedene Cluster, die mit einem Dendrogramm dargestellt werden können, was erklärt, woher der gebräuchliche Name “hierarchisches Clustering” kommt: Diese Algorithmen bieten keine einzige Partitionierung des Datensatzes, sondern eine umfangreiche Hierarchie von Clustern, die in bestimmten Abständen miteinander verschmelzen.

Categories: Uncategorized