Seite 7 in einem Skript zur theoretischen Informatik; ich stoße auf die erste bedeutungstragende Abbildung. "a b c d Grafik" sagt mein Screenreader, als ich im Adobe Acrobat Reader die entsprechende Stelle erreiche. "Ein kleines Beispielnetzwerk aus vier Knoten", vermute ich und bin neugierig, wie die Netzwerkknoten untereinander in Verbindung stehen. Ich drücke EINFÜGEN+LEERTASTE, danach ein P, danach ein C. Auf diese Eingabefolge hin übergibt der Screenreader die fokussierte Grafik zur Analyse und Beschreibung an eine KI - und die sagt mir das Folgende:
"Das Bild zeigt ein einfaches Diagramm mit vier Kreisen, die durch Linien miteinander verbunden sind. Die Kreise sind mit den Buchstaben ‚A’, ‚B’, ‚C’ und ‚D’ beschriftet. ‚A’ ist mit ‚B’ und ‚D’ verbunden. ‚B’ ist zusätzlich mit ‚D’ verbunden. ‚C’ steht isoliert und hat keine Verbindung zu den anderen Kreisen".
Diese Information ist für das Verständnis der sogenannten Netzwerktopologie vollkommen ausreichend, das heißt, ich weiß - vermutlich - jetzt, welcher der vier Knoten mit welchen anderen Knoten direkt oder indirekt kommunizieren kann. Details dazu, welcher Netzknoten wo auf der Abbildung platziert ist, hat mir die KI noch nicht verraten. Kein Problem: Unterhalb der Beschreibung gibt es den Link "Weitere Informationen bekommen", den ich umgehend aktiviere. In den nun eingeblendeten Erläuterungen erfahre ich, dass zum Einholen detaillierterer Informationen gleich zwei KIs befragt werden, nämlich Claude und ChatGPT.
Claude hat die folgenden Informationen für mich:
"Das Bild zeigt vier graue, kreisförmige Objekte, die durch Linien miteinander verbunden sind. In der Mitte jedes Kreises befindet sich eine dunkle, undeutliche Form. Die Kreise sind in einer Art Rechteck angeordnet. Der Hintergrund ist verschwommen und hell, möglicherweise weiß oder hellgrau. Es handelt sich offensichtlich um eine abstrakte, geometrische Darstellung ohne erkennbaren Kontext oder tiefere Bedeutung".
Alles klar, das war ein Reinfall, also schnell weiter zu den Erkenntnissen von ChatGPT:
"Das Bild zeigt ein einfaches Diagramm bestehend aus vier Kreisen, die durch Linien miteinander verbunden sind. Jeder Kreis enthält einen Buchstaben: 1. Der obere linke Kreis enthält den Buchstaben ‚A’. 2. Der obere rechte Kreis enthält den Buchstaben ‚B’. 3. Der untere linke Kreis enthält den Buchstaben ‚C’. 4. Der untere rechte Kreis enthält den Buchstaben ‚D’. Die Kreise sind durch Linien wie folgt verbunden: • ‚A’ ist mit ‚B’ und ‚C’ verbunden. • ‚B’ ist mit ‚D’ verbunden. • ‚C’ ist mit ‚D’ verbunden. Dieses Diagramm könnte einen einfachen grafischen Netzwerkplan darstellen."
So, nun kann ich's mir aussuchen: Laut der ersten Beschreibung ist "C" ein isolierter Knoten, weil er keinerlei Verbindung zu einem anderen Element hat; laut Detailbeschreibung hat sowohl "A" als auch "D" eine Verbindung zu "C". Insgesamt ergibt sich aus der Detailanalyse von ChatGPT eine ganz andere Netzwerkstruktur als durch die Anfangserläuterungen.
Glücklicherweise muss ich weder verzweifeln noch eine sehende Assistenzperson zu Hilfe rufen: Unterhalb der Abbildung wird im Skript die Netzwerktopologie in Textform wiedergegeben. Ich erfahre, dass die einfache Anfangsbeschreibung der KI richtig, die Detailangaben von ChatGPT entsprechend falsch sind. Leider verfügt keine andere Grafik im Skript über eine derartige Textbeschreibung - Verwirrung ist deshalb bei den Folge-Abbildungen wohl garantiert!
"Aller guten Dinge sind mindestens zwei", denke ich und gebe der KI noch eine Chance für eine wiederholte Detail-Erläuterung. Hat ChatGPT im ersten Durchgang noch eine Verbindung zwischen "C" und "D" erkannt, so fehlt diese Verbindung in der zweiten Beschreibung. Hat die erste Detailbeschreibung durch ChatGPT noch nahegelegt, dass die vier Knoten die vier Ecken eines Rechtecks bilden, schreibt die KI im zweiten Anlauf:
“Die Kreise und Linien bilden eine Art geometrische Anordnung, die einem Dreieck mit einem zusätzlichen Punkt in der Mitte ähnelt.”
Kurzer Themenwechsel. Kommen wir von künstlichen neuronalen Netzen zu einer Technik, der ich mehr Vertrauen entgegenbringe: Meiner sprechenden Personenwaage. "Dieses Teil weiß wenigstens, wovon es redet", möchte ich sagen, und das hat zwei Gründe: Eine Personenwaage "misst" immer genau das, was sie messen soll: Das Gewicht - nicht den Blutdruck, nicht die Zimmertemperatur, nicht meine morgendliche Laune - nein: stets das Gewicht! In der Messtheorie sagt man: Wenn ein Messinstrument genau die Eigenschaft misst, die es zu messen vorgibt, so produziert es eine valide Messung. Die Waage arbeitet aber nicht nur valide, sie misst auch verlässlich bzw. genau oder "reliabel", wie es in der Messtheorie heißt: Wenn ich mich direkt nacheinander mehrmals in identischer Weise auf die Wiegeplattform stelle, ermittelt die Waage - von kleinen Toleranzen einmal abgesehen - auch stets das gleiche Gewicht. Fazit: Ein Analyse-Werkzeug ist erst dann vertrauenswürdig, wenn seine Angaben sowohl valide als auch reliabel sind.
... Und nun zurück zu den KIs und unseren Bildbeschreibungen: Claude hat keine valide Beschreibung geliefert, sondern sozusagen das Thema verfehlt. Anstatt das abgebildete Objekt als Netzwerk zu erkennen, hält er es für "eine abstrakte, geometrische Darstellung ohne erkennbaren Kontext". ChatGPT hat zwar in beiden Fällen das gezeigte Objekt als Netzwerk erkannt, sich aber hinsichtlich der Details (der Art und Weise, wie die Netzknoten untereinander verbunden sind) zweimal auf verschiedene Weise geirrt und damit keine reliablen Angaben gemacht.
Wären die gerade geschilderten KI-Irrtümer selten oder ließen sie sich schwer reproduzieren, würde ich sie als bedauerliche Einzelfälle abtun und die KIs verteidigen: Seht mal, diese generativen großen Sprachmodelle wie ChatGPT, Claude und Co. sind erst wenige Jahre alt, das steckt doch alles noch in den Kinderschuhen und verbessert sich laufend - man weiß ja, dass künstliche Intelligenz nicht perfekt ist, schließlich ist es die natürliche auch nicht - Halluzinieren gehört eben zum Handwerk ha, ha, ha ...
Es ist aber nun einmal so, dass ich viele mathematisch-naturwissenschaftliche Fachtexte lese und die geschilderten Ungereimtheiten bei gefühlt jeder zweiten KI-generierten Bildbeschreibung auftreten.
Andere Menschen haben andere Hobbys, und ich selbst weiß aus eigenen Versuchen, dass KIs bei der Bildbeschreibung wesentlich besser performen, wenn sie Szenen aus dem Alltagsleben analysieren sollen. Wer sich also beispielsweise mit der App "Be my Eyes" in der Wohnung oder im Freien gemachte Fotos erläutern lässt, hat vielleicht noch nie wirklich negative Erfahrungen mit KI-generierten Bildbeschreibungen gemacht. Umgekehrt muss ich aber alle, die mir Bildbeschreibungen mittels KI als nahezu perfektes Werkzeug anpreisen, mit meinen durchwachsenen Ergebnissen im Bereich mathematisch-naturwissenschaftlicher Abbildungen konfrontieren.
Bewährtes nicht zu schnell aus der Hand geben
Zugegeben, die vorangegangenen rund 7.000 Zeichen KI-Kritik sind mir nicht ganz leicht gefallen, denn Künstliche Intelligenz hat auch mir schon viele wertvolle Dienste erwiesen: Gezielte Fragen zu vorher hochgeladenen Speisekarten Marburger Restaurants richtig beantwortet, Anregungen zur Klausur-Erstellung anhand meiner Lehrtexte gegeben und mich in Grundfragen des Rechnungswesens weitergebildet. Immer wieder aber begegne ich Menschen, die KI vom wertvollen Werkzeug zur Lösung nahezu aller Probleme hochstilisieren, und zwar insbesondere derjenigen, vor denen wir als Menschen mit Sehbehinderung bzw. Blindheit stehen. Davor möchte ich ausdrücklich warnen und auch davor, bewährte Werkzeuge aus Zeiten vor Künstlicher Intelligenz überhastet zum "alten Eisen" zu legen.
Ein Beispiel gefällig: Am 26.06. gab es eine englischsprachige Online-Veranstaltung mit folgendem, von mir ins Deutsche übersetztem Titel: "Wird KI es uns erlauben, alle oder die meisten Vorschriften zur Barrierefreiheit aufzuheben?" Im Original heißt es: "Will AI allow us to dispense with all or most accessibility regulations?" Dieses Meetup mit dem provokanten Titel wird nicht etwa von Barrierefreiheitsgegnern oder politisch rechts orientierten Technik-Profis ausgerichtet. Laut Veranstaltungswebseite https://meetu.ps/e/Nf3h9/Hd0f6/i sind Persönlichkeiten wie Gregg Vanderheiden und Jennison Asuncion beteiligt. Gregg Vanderheiden ist einer der Autoren der WCAG, also der Zugänglichkeitsrichtlinien für barrierefreie Webinhalte, und hat damit den technischen Standard zur barrierefreien Webgestaltung schlechthin entscheidend mitgeprägt; Jennison Asuncion hat 2012 den Welt-Barrierefreiheitstag (Global Accessibility Awareness Day, GAAD) mit ins Leben gerufen. Dieser wird am dritten Donnerstag im Mai weltweit begangen und ist eine Werbeplattform für digitale Zugänglichkeit und Nutzbarkeit.
Selbst wenn der Titel hauptsächlich als Publikumsmagnet oder Denkanstoß dienen sollte: er ist unglücklich gewählt. Gerade, wenn KI beim Prüfen und Herstellen von digitaler Barrierefreiheit unterstützen soll, dann muss sie das doch nach klaren Regeln tun, die wir Menschen vorgeben! Man hätte besser gefragt: "Wird es uns möglich sein, zukünftig Aufgaben im Zusammenhang mit digitaler Barrierefreiheit an die KI abzugeben?".
Passen wir also gemeinsam auf, dass uns auf der wackeligen Grundlage zukünftiger Verheißungen keine gegenwärtig wertvollen Instrumente wie die Bemühungen um - aktuell noch meist manuell hergestellte - digitale Barrierefreiheit aus der Hand genommen werden. Ganz persönlich tanze ich nämlich äußerst ungern zu Zukunftsmusik. Schon meine Oma hat mir Anfang der 1980er Jahre versprochen, dass die Menschheit in spätestens zehn Jahren künstliche Augen herstellen könnte - in Japan gäbe es die eventuell sogar schon. Weil das aber mit den künstlichen Augen augenscheinlich nichts geworden ist, mag ich auch der Künstlichen Intelligenz lieber nicht ganz blind vertrauen.☺
Literaturhinweis
Wer selbst einmal die KI seines Vertrauens mit der oben beschriebenen Netzwerk-Abbildung auf die Probe stellen möchte, lädt sich unter https://www.tcs.uni-luebeck.de/de/mitarbeiter/tantau/lehre/lectures/TheoretischeInformatik-2009.pdf das Vorlesungsskript "Theoretische Informatik", Wintersemester 2009, Fassung vom 25. November 2018 von Prof. Till Tantau, Universität Lübeck herunter. Auf Seite 7 unter dem Text "Beispiel: Graphen als Texte" befindet sich die besagte Grafik.
Zum Autor
Dipl.-Psych. Oliver Nadig ist Rehabilitationslehrer für EDV und elektronische Hilfsmittel. Der 51-Jährige hat in den 1990er Jahren Psychologie und Informatik in Marburg studiert und ist seit 2001 Mitarbeiter der Deutschen Blindenstudienanstalt (blista). Er ist Mitglied im Fachausschuss für Informations- und Telekommunikationssysteme (FIT) der überregionalen Blinden- und Sehbehindertenselbsthilfeorganisationen und Autor mehrerer Beiträge zur Barrierefreiheit, unter anderem einer Anleitung zur Nutzung von PDF-Dokumenten für blinde Computernutzer. Ehrenamtlich engagiert er sich außerdem im Leitungsteam der DVBS-Fachgruppe MINT.