
×
Numerische Klassifikation (ClusterAnalyse) anhand nominaler, ordinaler oder gemischter Merkmale
Theorie und Praxis mit zugehörigem Programm ORMIX auf CD
von Friedrich Vogel und Rudolf GardillNumerische Klassifikation (oder Cluster Analyse) ist die Zuordnung einer Menge von Beobachtungen (Objekten) zu Teilmengen (Klassen oder Cluster), derart dass die Beobachtungen (Objekte), die einer Klasse angehören, in einem bestimmten Sinne einander ähnlich sind.
Diese Arbeit besteht aus zwei Teilen: Teil I „Theorie” und Teil II „Praxis”.
Der erste Teil behandelt die theoretischen Grundlagen unseres neuen Klassifikationsprogramms ORMIX. Zunächst werden zwei Verfahren zur Bildung disjunkter Klassen erörtert: ein Austauschverfahren und ein hierarchisch-agglomeratives Verfahren. Dann werden Maße zur Messung der Güte eines Klassifikationsergebnisses im Detail diskutiert, insbesondere im Hinblick auf die Merkmalstypen: nominal, ordinal und metrisch. Die Gütefunktion für nominale und ordinale Merkmale basiert auf einem speziellen Streuungsmaß: der Entropie. Die Gütefunktion für metrische Merkmale basiert auf der Varianz. Das grundlegende Prinzip ist der Versuch der Minimierung der Streuung innerhalb der Klassen, so dass die Beobachtungen (Objekte) in derselben Klasse einander ähnlicher sind als die Beobachtungen (Objekte) verschiedener Klassen. Im Zusammenhang mit Problemen der Numerischen Klassifikation gibt es bei praktischen Anwendungen häufig gemischte Merkmale. Das heißt, die Objekte sind charakterisiert durch nominale und ordinale und metrische Merkmale. Um eine Gütefunktion für gemischte Merkmale zu konstruieren, ist zu beachten, dass die Gütefunktion für nominale und ordinale Merkmale auf der Entropie beruht, die Gütefunktion für metrische Merkmale aber auf der Varianz. Es ist nicht zulässig, diese Gütefunktionen zu addieren. Es kommt hinzu, dass die Varianz abhängt von den Skalen, auf denen die Merkmale gemessen werden. Es ist nicht möglich, metrische Merkmale derart zu skalieren, dass alle metrischen Merkmale im Prozess der Klassenbildung ein gleiches numerisches Gewicht haben; Standardisierung ist nur eine von vielen Möglichkeiten, sie liefert aber keine Gleichgewichtung. Aber es ist zulässig, metrische Merkmale in ordinale Merkmale zu transformieren. Die Ordinalisierung metrischer Merkmale wird detailliert erklärt. Es wird gezeigt, dass - nach der Ordinalisierung der metrischen Merkmale - alle Merkmale im Prozess der Klassenbildung ein gleiches maximales numerisches Gewicht ha-ben.
Der zweite Teil beschäftigt sich mit der Anwendung unseres Programms ORMIX, das nominale, ordinale, metrische Merkmale (nach Ordinalisierung) und gemischte Merkmale verarbeiten kann. Zuerst wird erklärt, wie das Pro-gramm von der CD installiert werden kann. Im Kapitel „Dateneingabe” werden die Konstruktion und das Einlesen der Datenmatrix im Detail erläutert. Dann wird gezeigt, wie Datentransformationen (beispielsweise metrische in ordinale Merkmale) durchgeführt werden können. Nach diesen Transformationen kann eine hierarchisch-agglomerative Klassifikation oder eine iterative Klassifikation durch einen linken Mausklick gestartet werden. Einige Beispieldateien finden sich auf der CD.
Die Bedienung des Programms ist einfach und meist selbsterklärend. Mit der (linken) Maustaste werden Berechnungen angestoßen und aus einer knappen Auflistung der Resultate ausführliche Detaildarstellungen ausgewählt. Ein Mausklick auf den Wert einer Gütefunktion öffnet ein Fenster mit dem Klassifikationsergebnis für die gewünschte Anzahl von Klassen und mit einer detaillierten Klassendiagnose. Die Klassifikationsergebnisse werden anschaulich in Tabellen zusammengefasst und als HTML-Seiten übersichtlich formatiert. Für die hierarchisch-agglomerative Klassifikation stehen zusätzlich Dendrogramme und ein Struktogramm zur Auswahl. Die rechte Maustaste führt zu Hilfeinformationen und ergänzenden auf den Kontext bezogenen Funktionen. Über die Zwischenablage von Windows können Daten mit anderen Programmen ausgetauscht werden.
Diese Arbeit besteht aus zwei Teilen: Teil I „Theorie” und Teil II „Praxis”.
Der erste Teil behandelt die theoretischen Grundlagen unseres neuen Klassifikationsprogramms ORMIX. Zunächst werden zwei Verfahren zur Bildung disjunkter Klassen erörtert: ein Austauschverfahren und ein hierarchisch-agglomeratives Verfahren. Dann werden Maße zur Messung der Güte eines Klassifikationsergebnisses im Detail diskutiert, insbesondere im Hinblick auf die Merkmalstypen: nominal, ordinal und metrisch. Die Gütefunktion für nominale und ordinale Merkmale basiert auf einem speziellen Streuungsmaß: der Entropie. Die Gütefunktion für metrische Merkmale basiert auf der Varianz. Das grundlegende Prinzip ist der Versuch der Minimierung der Streuung innerhalb der Klassen, so dass die Beobachtungen (Objekte) in derselben Klasse einander ähnlicher sind als die Beobachtungen (Objekte) verschiedener Klassen. Im Zusammenhang mit Problemen der Numerischen Klassifikation gibt es bei praktischen Anwendungen häufig gemischte Merkmale. Das heißt, die Objekte sind charakterisiert durch nominale und ordinale und metrische Merkmale. Um eine Gütefunktion für gemischte Merkmale zu konstruieren, ist zu beachten, dass die Gütefunktion für nominale und ordinale Merkmale auf der Entropie beruht, die Gütefunktion für metrische Merkmale aber auf der Varianz. Es ist nicht zulässig, diese Gütefunktionen zu addieren. Es kommt hinzu, dass die Varianz abhängt von den Skalen, auf denen die Merkmale gemessen werden. Es ist nicht möglich, metrische Merkmale derart zu skalieren, dass alle metrischen Merkmale im Prozess der Klassenbildung ein gleiches numerisches Gewicht haben; Standardisierung ist nur eine von vielen Möglichkeiten, sie liefert aber keine Gleichgewichtung. Aber es ist zulässig, metrische Merkmale in ordinale Merkmale zu transformieren. Die Ordinalisierung metrischer Merkmale wird detailliert erklärt. Es wird gezeigt, dass - nach der Ordinalisierung der metrischen Merkmale - alle Merkmale im Prozess der Klassenbildung ein gleiches maximales numerisches Gewicht ha-ben.
Der zweite Teil beschäftigt sich mit der Anwendung unseres Programms ORMIX, das nominale, ordinale, metrische Merkmale (nach Ordinalisierung) und gemischte Merkmale verarbeiten kann. Zuerst wird erklärt, wie das Pro-gramm von der CD installiert werden kann. Im Kapitel „Dateneingabe” werden die Konstruktion und das Einlesen der Datenmatrix im Detail erläutert. Dann wird gezeigt, wie Datentransformationen (beispielsweise metrische in ordinale Merkmale) durchgeführt werden können. Nach diesen Transformationen kann eine hierarchisch-agglomerative Klassifikation oder eine iterative Klassifikation durch einen linken Mausklick gestartet werden. Einige Beispieldateien finden sich auf der CD.
Die Bedienung des Programms ist einfach und meist selbsterklärend. Mit der (linken) Maustaste werden Berechnungen angestoßen und aus einer knappen Auflistung der Resultate ausführliche Detaildarstellungen ausgewählt. Ein Mausklick auf den Wert einer Gütefunktion öffnet ein Fenster mit dem Klassifikationsergebnis für die gewünschte Anzahl von Klassen und mit einer detaillierten Klassendiagnose. Die Klassifikationsergebnisse werden anschaulich in Tabellen zusammengefasst und als HTML-Seiten übersichtlich formatiert. Für die hierarchisch-agglomerative Klassifikation stehen zusätzlich Dendrogramme und ein Struktogramm zur Auswahl. Die rechte Maustaste führt zu Hilfeinformationen und ergänzenden auf den Kontext bezogenen Funktionen. Über die Zwischenablage von Windows können Daten mit anderen Programmen ausgetauscht werden.