Unüberwachtes Lernen
Unüberwachtes Lernen tarnt sich im Alltag gern, ist aber schon lange bei uns. Es begegnet dir täglich, wenn dir dein Musikstreamingdienst automatisch eine Playlist zusammenstellt oder dir ein soziales Netzwerk eine Person vorstellt, die du entweder persönlich kennst oder die viele deiner Freund:innen gut finden.
All dies hat gemeinsam, dass Gruppen (Cluster) gebildet werden. Die grundlegende Annahme ist, dass Menschen, die eng miteinander verbunden sind, ähnliche Menschen kennen und Menschen, die ähnliche Lieder hören, auch in Zukunft ähnliche Lieder hören werden.
Merke
Unüberwachtes Lernen (Unsupervised Learning) identifiziert Gruppierungen (Cluster) und Beziehungen in Datensätzen, ohne dass dafür Labels oder Anweisungen vorgegeben werden.
Ähnlichkeit bestimmen
Um Ähnlichkeiten zu bestimmen, müssen wir Merkmale von zu untersuchenden Elementen quantifizieren, also in Zahlen umwandeln. So sind Tage nicht warm oder kalt, sondern 30°C oder -5°C warm. Auch Merkmale wie Farben lassen sich quantifizieren. So könnte man Farben je nach Position im Regenbogen eine Farbe zuordnen oder etwa den Farbcode auf einem Bildschirm.
Haben die Elemente Zahlenwerte, muss man den Abstand bestimmen. Vereinfacht gesagt, ist das nicht kritisch, wie man das macht. Wichtig ist aber, dass man immer das gleiche Verfahren nutzt.
Euklidische Distanz ist die direkte Verbindung zwischen zwei Punkten im Koordinatensystem. Das für Menschen intuitivste Verfahren hat den Nachteil, dass ein Rechner hier ein wenig mehr rechnen muss und das macht sich bei großen Datenmengen bemerkbar.
Manhatten-Distanz bewegt man sich wie in New York (Manhattan) fort. Man geht wie der Turm auf dem Schachbrett die horizontalen und vertikalen Straßen und zählt die dabei überquerten Felder (bzw. Häuserblöcke).
Cluster interpretieren
Gefundene Cluster und Muster bedürfen immer einer Interpretation. Manchmal haben sie auch keine Aussagekraft oder Ihre Bedeutung liegt außerhalb der Daten. Hier Beispiele:
Untersuchungen haben ergeben, dass Menschen, die wenig Alkohol trinken, länger leben als Menschen, die keinen und viel Alkohol trinken. Letzteres überrascht nicht, aber aus zweiten erwuchs die falsche Schlussfolgerung, man möge jeden Tag ein wenig Alkohol trinken. Tatsächlich stellte sich raus, dass einige Menschen, die gar keinen Alkohol tranken, an Krankheiten litten, die ihr Leben unabhängig vom Alkohol verkürzten. Die Schlussfolgerung war also falsch, obwohl die Cluster stimmten.
Eins der unterhaltsamsten Beobachtungen ist, dass es in europäischen Regionen mit vielen Störchen auch viele Babys gibt. Aber das bedeutet nicht, dass Störche die Babys bringen. Das könnte daran liegen, dass auf dem Land außerhalb der Stadt, wo mehr Störche leben, auch mehr Babys geboren werden. Es handelt sich also nicht um eine Kausalität, sondern vielleicht um eine eine Korrelation.