Gesellschaftliche Perspektive
Bias
KIs wird oft vorgeworfen, dass sie einen Bias haben. Damit wird vereinfacht gemeint, dass sie Vorurteile haben würden. Anders als bei einem Menschen ist dies hier aber ein statistischer Prozess, wo aufgrund der beim Training gelernten Daten Muster abgeleitet werden. Es ist wichtig zu bedenken, dass die Daten aus dem Internet nicht Sachverhalte widerspiegeln, sondern die Häufigkeit der geäußerten Meinungen und Sachverhalte im Internet. Wenn also ausschließlich Menschen, die Schokoladeneis mögen im Internet darüber schreiben, dann wird die KI davon ausgehen, dass nur Schokoladeneis mögen, obwohl vielleicht mehr Menschen Erdbeereis mögen, aber nicht darüber schreiben.
Merke
Daten, auf denen ein KI-System trainiert wird, bildet nicht immer eine genaue oder ausgewogene Darstellung der Realität ab. Dadurch kann das KI-System ungenaue oder unausgewogene Ergebnisse liefern, weil es auf verzerrten Informationen basiert. Dies wird auf Englisch als "Bias" bezeichnet.
Text
Eine frühe Version von ChatGPT wurde gebeten, aufgrund einer Hautfarbe und Geschlecht ein Programm zu schreiben, was entscheidet, wer ein:e gute:r Wissenschaftler:in und wer nicht:
Das Ergebnis war, dass nur männliche, weiße Menschen als gut zu betrachten wären. Das ist natürlich Quatsch. Deswegen wurde das Verhalten der KI auch schnell in weiteren Trainings bestraft. Auch in anderen Fragen agiert ChatGPT heute deutlich sensibler:
Aufgabe
- Erstelle Handlungsvorschriften mit 5 Punkten, was deine KI nicht beantworten soll.
- Vergleiche deine Ergebnisse mit deiner Nachbar:in.
- Informiere dich, wie das in anderen Kulturkreisen, etwa China ist.
Woher kommen aber diese initialen Fehler? Schauen wir uns am Beispiel des KI-Modells Llama an, welche Daten eingeflossen sind:
Dataset | Sampling | prop. Epochs | Disk Size |
---|---|---|---|
CommonCrawl | 67.0% | 1.10 | 3300 TB |
C4 | 15.0% | 1.06 | 0783 TB |
Github | 4.5% | 0.64 | 0328 TB |
Wikipedia | 4.5% | 2.45 | 0083 TB |
Books | 4.5% | 2.23 | 0085 TB |
ArXiv | 2.5% | 1.06 | 0092 TB |
StackExchange | 2.0% | 1.03 | 0078 TB |
Hinter diesen technischen Begriffen verbergen sich diese Art von Daten:
CommonCrawl: Webseiteninhalte aus dem Internet, die für verschiedene Zwecke durchsuchbar sind.
C4 (Common Crawl's Continuously Crawled Corpus): Eine Version von CommonCrawl, die speziell für das KI-Training aufbereitet wurde. Es soll eine höhere Datenqualität aufweisen.
Github: Programmquelltexte die als OpenSource auf der Plattform Github veröffentlicht wurden.
Wikipedia - Online-Lexikon
Books - Hier wird oft nicht verraten welche Bücher verwendet wurden und woher die stammen. In manchen Fällen stammen diese aber aus illegalen Quellen [Gizmondo]
ArXiv: Wissenschaftliche Forschungsartikel und Veröffentlichungen in verschiedenen akademischen Disziplinen.
StackExchange: Fragen, Antworten und Diskussionen zu verschiedenen Themen in der Online-Community Stack Exchange, einschließlich Programmierung, Wissenschaft und Technologie.
Aufgabe
Berechne, wie oft der Text deines letzten Aufsatzes auf dein Smartphone oder eine große Festplatte gepasst hätte. Setze dies in Relation zu obigen Zahlen.
Aufgabe
Berechne den Anteil der Quellen, welche eine aus deiner Sicht hohe Qualität haben.
Aufgabe
Der KI-Chat in der Bing-Suche hatte zu Beginn angefangen, nach ungefähr 5 Frage-Antwort-Paaren die Nutzer:innen zu beleidigen. Stelle eine Hypothese auf, warum das so passiert sein könnte.
Bilder
Gibt man in eine bildergenerierende KI Beschreibungen wie "Kind am See" ein, so erhält man etwa von Midjourney immer sehr ähnliche Bilder:
Wie wir gelernt haben, liegt das daran, dass dies die Bilder sind, die
a) Die KI oft beim Training zu diesen Schlagworten gesehen.
b) Im anschließenden Nachtraining oft für solche Bilder belohnt wurde.
Andere bildgenerierenden KIs wie DALL-E oder schulKI nutzen hier zusätzlich vorgeschaltete textgenerierende KIs, um automatisch diverse Bilder zu erzeugen:
Aufgabe
Welche Richtlinien sollte deine bildergenerierende KI einhalten, wenn sie Menschen darstellt?
Zuverlässigkeit
Sicher hast du gemerkt, dass nicht alles stimmt, was eine textgenerierende KI schreibt. Das ist systembedingt. Das heißt, eine textgenerierende KI kann garnicht nur richtiges schreiben. Das ist unmöglich. Denn würde sie nur garantiert Richtiges schreiben, müsste zum einen das Trainingsmaterial richtig sein und zum anderen dürften nur Fragen gestellt werden, die exakt so schonmal in den Trainingsdaten gestellt wurden. Zum einen können wir das nicht für die Unmengen an Trainingsdaten garantieren und zum anderen, wenn wir nur bestehende Fragen stellen dürften, dann könnten wir auch einfach eine Suchmaschine verwenden.
Aufgabe
Verfasse Richtlinien für dich, wann du eine textgenerierende KI einsetzen kannst und wann nicht.
Urheberrecht und Datenschutz
Die New York Times verklagt ChatGPT, da dies deren Artikel zum Training genutzt hat. Konkret werden an die einhundert Beispiele aufgeführt, wo angefangene Times-Artikel fast wörtlich ergänzt werden können (Quelle).
Aufgabe
Lies dir § 44b UrhG durch.
Ein Münchner Student wird namentlich von der Bing-Suchmaschine als Gefahr und sogar als Feind gebrandmarkt (Quelle).
Aufgabe
Was für Folgen hätte eine KI, die Zugriff auf all deine Daten hat. (Diese Frage muss nicht hypothetisch sein, wenn du etwa ein Google-Konto (Lebensereignisse finden und mentale Krisen bewältigen) oder Meta-Konto (Instagram kann zu Magersucht führen) hast.)
Manche Künstler:innen fragen sich, wem Kunst gehört, die eine KI erstellt hat.
Aufgabe
Lies dir die Geschichte von Naruto dem Makan durch und begründe, warum sich dies auch auf KI-Systeme übertragen lässt.