»Das ist aber nicht nett«, dachte ich mir, als ich diese Schlagzeile las. Obwohl manche Eltern heimlich gedacht haben dürften: »Kann ich gut verstehen«.
Die Schlagzeile stammt aus einem TV-Bericht und meint einen Besuch des Bundeskanzlers bei »logo!«, dem Nachrichtenmagazin des ZDF für Kinder. Den Redakteuren schien die Mehrdeutigkeit der Formulierung nicht aufgefallen zu sein. Eigentlich ist das eine erstaunliche Leistung unseres Gehirns.
Kurioserweise hatte ich mich gerade intensiv mit Künstlicher Intelligenz beschäftigt, aber noch keinen Dreh gefunden, daraus einen Artikel zu basteln. Nun lag es auf der Hand: Wie würde ein Computer herausfinden, welche Bedeutung ein solcher Satz hat?
Unsere Sprache ist in weiten Teilen mehrdeutig. Wir nehmen den Kontext zuhilfe, um die richtige Bedeutung zu finden. Hat die Person ein lustiges Gesicht gemacht? Passen die Objekte zusammen, beispielsweise Kinder und Krieg? Welche Bedeutung können die Wörter überhaupt haben, beispielsweise das Wort »Erklärung«? Gibt es weitere Hinweise in den Sätzen zuvor und danach?
Diese Abwägung ist auch für Menschen oft nicht einfach. Wenn die weiteren Anhaltspunkte fehlen, fühlen wir uns unsicher. Ironie und Sarkasmus werden in Radio, TV und Internet möglichst vermieden oder besonders gekennzeichnet, weil viele Leute es in diesem Kontext nicht entziffern können. Betrachten wir diesen Chat-Verlauf:
»Hi, ich bin wieder aus dem Urlaub zurück!«
»Das freut mich total.«
»Äh, wie meinst Du das??«
»So wie ich es sage.«
»??«
»Das freut mich total.«
»Äh, wie meinst Du das??«
»So wie ich es sage.«
»??«
Wie funktioniert es bei Computern? Künstliche Intelligenz versucht die wahrscheinlichste Bedeutung herauszufinden, in dem es für alle Worte eine Vernetzung mit anderen Worten oder Kategorien sucht. Das Wort »Kartoffel« wird vernetzt mit »Nahrung«, »Pflanze«, »Zutat«, »Biologie«, und anderen Werten wie Gewicht oder Preis, aber auch mit Hinweisen wie »mehrdeutig« oder einer Einordnung darüber, als wie höflich das Wort eingestuft wird oder wie häufig es im Sprachgebrauch vorkommt.
Google und Facebook erzeugen solche Bezüge zwischen Personen und Begriffen automatisch. Man nennt es einen »Graphen«, nicht zu verwechseln mit einem Grafen.

Eine Person wie Albert Einstein wird daher erkannt als Mensch, als sterblich, als organisch, als berühmt und so weiter. Es ergeben sich auch Hierarchien: Physiker sind eine Teilmenge der Menschen; Menschen sind eine Teilmenge der Lebensformen. Lebensformen sind sterblich. Dadurch wird verstanden, dass ein Physiker sterblich ist. Dann muss es auch für Albert Einstein gelten.
Solche Bezüge kann man mit macOS und iOS sichtbar machen. Es ist eine Funktion der Shortcuts-App. Man übergibt irgendwelche Daten und kann dann betrachten, wie diese Daten eingeordnet werden:

Ob Künstliche Intelligenz jemals zuverlässig unsere komplizierte Kommunikation entschlüsseln kann? Ich weiß es nicht, aber wir können es ja selber nicht immer.
Allerdings lässt sich die Komplexität bei diesen Software-Modellen praktisch beliebig steigern; jede Möglichkeit kann im Bruchteil einer Sekunde abgewogen werden. Und sobald die Maschinen ihr Wissen teilen und gemeinsam lernen, könnte es gut möglich sein, dass Computer es bald besser verstehen können als Menschen. In unseren Brillen würde dann vielleicht eingeblendet: Achtung, Ironie!
Apple investiert viel in Künstliche Intelligenz. Es wird bald eine Grundzutat fast jeder Software sein. Aber es braucht eine Weile, bis die Resultate sichtbar werden. Manchmal sind die Ergebnisse noch so krude, dass man als Anwender schier verzweifelt, beispielsweise wenn die Rechtschreibkorrektur mehr Fehler einfügt als korrigiert.
Es ist auch nicht immer sicher, ob hier überhaupt Künstliche Intelligenz am Werk ist, oder ob es sich noch um alte Technik handelt. Eine zeitlang hat iMessage stur jedes »can« verwandelt in »can’t«, dies aber erst nach zwei Sekunden, wenn man das Wort schon nicht mehr im Blick hatte. Ich kann von sehr bizarren Chats mit meinen internationalen Freunden berichten. Jedenfalls waren es damals noch meine Freunde. Man muss Opfer bringen.
Es gibt aber auch Beispiele bei Apple, die komplett magisch sind. Das betrifft kurioserweise die Rechtschreibkorrektur. Ich bin mir nicht sicher, woran das liegt, aber die Korrektur in »Scrivener« (das ist die Textverarbeitung, die ich gerade benutze) ist zum Haare ausreißen genial. Sie benutzt aber die eingebaute Funktion von macOS. Gestern schrieb ich einen Text über Galileo Galilei. Buchstabiert man den nun mit Doppel-L? Und was war nochmal der Vorname, und was der Nachname? Die Rechtschreibhilfe nennt bei »Gali« tatsächlich zuerst den Vornamen »Galileo«. Tippt man dann erneut die exakt gleichen Buchstaben, schlägt es diesmal den Nachnamen vor.

Es analysiert also nicht nur das aktuelle Wort, sondern mindestens ein paar weitere Wörter oder den ganzen Satz, um auf diese Weise zu erkennen, dass »Galileo Galilei« oft zusammen und in dieser Reihenfolge verwendet wird. Sowas ist schwer mit herkömmlichen Methoden zu erreichen. Wir haben es tatsächlich mit einem lernenden System zu tun. Ist das nicht faszinierend?
Ähnlich spektakulär ist die Suchfunktion des Apple TV, genauer die Spracheingabe in den Suchfunktionen der Apps. Beispielswiese benutze ich die Apps von ARD und ZDF auf dem Apple TV. Die Suchfunktion bietet eine kleine Software-Tastatur, aber man kann auch das Mikrofon der Fernbedienung nutzen. Nun muss man abwägen: Hampelt man mit der dummen Spracherkennung herum, oder tippt man es lieber gleich ein?
Komplexe Ausdrücke wie »Maybritt Illner« oder »Anne Will« werden jedoch sofort erkannt. Das finde ich verblüffend. Sogar rein erfundene Begriffe wie »Die Ernährungsdocs« werden erkannt (das ist eine Doku-Serie über Ernährung).
Hingegen: Die Schreibhilfe von Scrivener erkennt die Namen nicht. Wo ist der Trick? Müssen die Apps etwa ein kleines Lexikon mit Schlagworten zur Verfügung stellen? Erzeugt Apple es automatisch? Lernt die Funktion von anderen Anwendern? Probiert es im Hintergrund einfach alle Möglichkeiten durch, um zu sehen, bei welcher Schreibweise es Treffer in der Suchfunktion gibt? Das wäre allerdings nicht sehr effizient und die langsame Datenbank der ARD eignet sich dafür nicht. Aber wenn man die früheren Ergebnisse irgendwo speichern würde? Die Leute suchen ja immer nach demselben Kram. Irgendwann wird die Kiste schon kapieren, dass »Hart aber fair« keinen Porno meint. Es kommt natürlich auch auf den Anwender an.
Wer hätte gedacht, dass ich mal einen Artikel schreiben würde, in dem unser Bundeskanzler, seine Kriegserklärung, Künstliche Intelligenz, Kinder, Rechtschreibung, Galileo Galilei und Pornos in einem sinnvollen Zusammenhang stehen?
Trotzdem ist es wohl besser, wenn die Datenbots von Apple, Google und Facebook ihn nicht finden. Sonst gerät alles schrecklich durcheinander.