Fälschungen sind im Internet an der Tagesordnung. Durch den Einsatz von Technologien, die künstliche Intelligenz (KI) nutzen, werden Fälschungen immer billiger, glaubwürdiger und können von jedermann leicht erstellt und elektronisch verbreitet werden. Doch nun gibt es eine ganz neue Dimension: Deepfakes. Sie sind bereits heute ein großes Problem für unsere Weltgemeinschaft.
Dieser Artikel geht der Frage nach, was es mit Deepfakes auf sich hat und welche positiven, aber vor allem negativen Aspekte sie haben. Anschließend werden Möglichkeiten diskutiert, Deepfakes zu erkennen, sich vor ihnen zu schützen und ihre Auswirkungen einzudämmen. Schließlich müssen wir uns mit dieser Technologie auseinandersetzen – Deepfakes werden bleiben.
Was sind Deepfakes?
„Deepfakes werden definiert als manipulierte oder synthetische Audio- oder visuelle Medien, die authentisch erscheinen und Personen zeigen, die etwas zu sagen oder zu tun scheinen, was sie nie gesagt oder getan haben, und die mit Techniken der künstlichen Intelligenz, einschließlich maschinellem Lernen und Deep Learning, erstellt wurden.“
So definiert es die Generaldirektion der parlamentarischen Forschungsdienste für die Mitarbeiter*innen des Europäischen Parlaments 2021 in einer Information zur Unterstützung ihrer parlamentarischen Arbeit.
Wie ist der Name Deepfakes entstanden?
In den Medien finden sich zwei Erklärungen für den Namen dieser Technologie.
Einigen Quellen zufolge erhielt die Deepfake-Technologie ihren Namen von einem*r anonymen Nutzer*in der Online-Community Reddit namens ‚deepfakes‘. „Deepfakes“ veröffentlichte Ende 2017 pornografische Bilder und Videos berühmter Schauspielerinnen und stellte sogar den Code zu ihrer Erstellung online. Die Videos wurden von Hunderten von Nutzer*innen angeklickt und gesehen. Für die Online-Community wurde der Profilname des*der Pornofälscher*in so zum Synonym für ein synthetisches Medium, das mithilfe von leistungsstarker KI-Technologie und maschinellem Lernen gefälschte, extrem realistisch wirkende Bild- und Toninhalte erzeugt.
Andere Autoren beschreiben Deepfakes als eine kürzlich entwickelte Anwendung, die auf Deep Learning basiert. Mit ihrer Hilfe können gefälschte Fotos und Videos erstellt werden, die Menschen nicht von den Originalen unterscheiden können. Der Begriff ist eine Kombination aus „Deep Learning und Fälschung“.
Die technischen Möglichkeiten von Deepfakes
Deepfakes sind also ein Teilbereich der synthetischen audiovisuellen Medien, die Bilder, Videos und Audiospuren meist mit Hilfe von KI und Deep-Learning-Algorithmen manipulieren oder auch synthetisch neu erzeugen. Wie genau geschieht das?
Der Grundstein für die Deepfake-Technologie wurde bereits 1997 gelegt. In einem Tagungsband zur 24. Jahrestagung für Computergraphik und interaktive Techniken veröffentlichten Wissenschaftler ein „Video Rewrite Program“. Dieses Programm verwendet vorhandenes Filmmaterial und erstellt daraus ein neues Video, in dem eine Person Worte spricht, die sie im ursprünglichen Filmmaterial nicht gesagt hat. Diese Technik sollte beispielsweise bei der Synchronisation von Filmen eingesetzt werden, um die Lippenbewegungen der Schauspieler mit der neuen Tonspur zu synchronisieren. Die so entstandenen Aufnahmen sind oft nicht von den Originalen zu unterscheiden.
Dynamische Medien wie Video- und Audiospuren qualitativ hochwertig zu manipulieren, war bisher jedoch sehr aufwändig.
Heute trägt jeder Einzelne dazu bei, dass große Mengen an audiovisuellen Daten im Internet verfügbar sind, denn wir teilen gerne unsere Videos und Fotos auf den Sharing-Plattformen der sozialen Medien. So kann eine KI leicht Muster in großen Datensätzen erkennen und ähnliche Produkte erzeugen.
Fälschung von Gesichtern
Neuere Deepfake-Programme werden eingesetzt, um entweder Gesichter in einem Video auszutauschen („Face Swapping“), um die Mimik einer Person in einem Video nach Belieben zu steuern („Face Reenactment“) oder um neue Identitäten zu erzeugen.
Beim „Face Swapping“ wird aus dem Gesicht einer Person ein Bild von jemand anderem gemacht, das genauso aussieht, sich genauso bewegt und in die gleiche Richtung guckt. Die neuronalen Netze lernen mit Hilfe von großen Softwaredatenbanken im Internet, aus einem Bild die wichtigen Informationen über die Mimik und die Beleuchtung herauszufiltern und daraus ein neues Bild zu erzeugen.
Beim „Face Reenactment“ werden die Kopfbewegungen, der Gesichtsausdruck oder die Lippenbewegungen einer Person manipuliert, um sie dazu zu bringen, etwas zu sagen, was sie in Wirklichkeit nie gesagt hätte. Dazu wird aus einem Videostream ein 3D-Modell des Gesichts der Zielperson erstellt. Dieses kann der*die Manipulator*in dann mit seinem*ihrem eigenen Videostream beliebig steuern und täuschend echte Gesichtsausdrücke der Zielperson erzeugen.
Die Synthese von Gesichtsbildern ist ein Verfahren zur Erzeugung neuer Personen, die in der Realität nicht vorhanden sind.
Als Trainingsmaterial werden nur wenige Minuten Videomaterial einer Zielperson benötigt. Diese müssen jedoch von hoher Qualität sein und möglichst unterschiedliche Gesichtsausdrücke und Perspektiven enthalten, damit sie vom Manipulationsmodell gelernt werden können.
Fälschung von Stimmen
Mittlerweile gibt es zahlreiche leicht zugängliche KI-Anwendungen, mit denen Sprachklone erstellt werden können. KI-Algorithmen zum Stimmenklonen ermöglichen es, eine menschliche Stimme zu imitieren, d.h. synthetische Sprache zu erzeugen, die einer menschlichen Stimme verblüffend ähnelt. Zu diesem Zweck werden meist Verfahren verwendet, die als „Text-to-Speech (TTS)“- und „Voice Conversion (VC)“-Verfahren bekannt sind.
Beim „Text-to-Speech“-Verfahren gibt der*die Benutzer*in einen Text ein, der dann vom TTS-System in ein Audiosignal umgewandelt wird. Die Text-to-Speech-Technologie wird bereits in der Unterhaltungselektronik eingesetzt, die viele von uns täglich nutzen: Google Home, Siri von Apple, Alexa von Amazon – und auch Navigationssysteme nutzen diese Technologie.
Beim „Voice-Conversion“-Verfahren gibt der*die Benutzer*in dem System ein Audiosignal vor, das dann in ein manipuliertes Audiosignal umgewandelt wird. So können einer Person Worte in den Mund gelegt werden, die sie gar nicht selbst gesprochen hat, sondern nur ihre Videoaufnahme.
Diese Verfahren gelingen bisher allerdings nur, wenn die KI mit Audioaufnahmen der Zielperson trainiert wird, die eine möglichst hohe und konstante Qualität aufweisen. Aber nicht nur der Klang einer Stimme muss überzeugen, sondern auch der Stil und das Vokabular der Zielperson. Die Technologie des Stimmenklonens ist daher eng mit der Technologie der Textsynthese verbunden.
Technologie zur Textsynthese
Die Textsynthese-Technologie wird eingesetzt, um neue KI-Modelle dazu zu bringen, mit Hilfe großer Textdatenbanken und hoher Rechenleistung lange, zusammenhängende Texte zu schreiben. Diese Technologie nutzt die Erkenntnisse einer wissenschaftlichen Disziplin an der Schnittstelle zwischen Informatik und Linguistik, deren Hauptaufgabe es ist, die textuelle und verbale Interaktion zwischen Mensch und Maschine zu verbessern.
Auf den ersten Blick sind diese Texte nicht von Texten zu unterscheiden, die von Menschen geschrieben wurden. Wir nutzen diese Technologie bereits, um Nachrichten zu verfassen, Blogeinträge zu generieren oder sogar Chatantworten zu erzeugen.
Es können aber auch Texte erzeugt werden, die den einzigartigen Sprachstil einer Zielperson imitieren. Diese Technologie basiert auf der Verarbeitung natürlicher Sprache und nutzt das so genannte Neuro-Linguistische Programmieren, kurz NLP. NLP beschreibt Verfahren, die mit Hilfe von Sprache und systematischen Handlungsanweisungen Prozesse im Gehirn verändern können. Das Programm ist als eine Art Kommunikationswerkzeug konzipiert und kann große Textmengen analysieren. Es ist in der Lage, Sprache bis zu einem gewissen Grad zu interpretieren und emotionale Nuancen und geäußerte Absichten zu analysieren. Auf der Grundlage der Transkription von Audioclips einer bestimmten Person kann das Programm ein Modell des Sprachstils dieser Person erstellen. Dieses Modell kann dann zur Generierung neuer Sprache verwendet werden.
Nach der Definition von Deepfakes werden alle diese manipulierten oder synthetisierten Audio- oder visuellen Medien unter dem Begriff Deepfake-Technologien zusammengefasst. Diese können für verschiedene Zwecke eingesetzt werden und sowohl positive als auch negative Auswirkungen haben.
Die positiven Aspekte der Deepfakes
Deepfake-Technologien werden beispielsweise von Künstlern, Pädagogen, Werbetreibenden und Technologieunternehmen eingesetzt, um fesselndere und individuellere digitale Inhalte zu schaffen. Dabei kommen verschiedene Anwendungen zum Einsatz, mit denen z. B. Stimmen erzeugt oder verändert, virtuelle Räume geschaffen oder ganze Welten erschaffen werden können.
In unserem Alltag nutzen wir KI-Technologien bereits häufig auf unterhaltsame Weise, um Bilder und Videos zu bearbeiten, die wir dann auf verschiedene soziale Plattformen hochladen. Mit der entsprechenden App kann man sein eigenes Gesicht in Film- und Fernsehclips einfügen. Andere Apps verändern unsere Stimme, unser Aussehen oder bieten Schönheitsfilter für unsere Fotos an.
Darüber hinaus bieten bekannte Social-Media-Plattformen wie Instagram, TikTok und SnapChat bereits Möglichkeiten, Gesichter mit Gesichtsfiltern zu verändern und Videosequenzen mit Videobearbeitungswerkzeugen völlig neu zusammenzustellen.
Im geschäftlichen Bereich nutzen wir beispielsweise bei Videokonferenzen die Möglichkeit, den Hintergrund des Raumes zu ändern. Darüber hinaus gibt es zahlreiche Forschungsanwendungen der Deepfake-Technologie im medizinischen, therapeutischen oder wissenschaftlichen Bereich, wie z.B. die Gesichtsrekonstruktion oder das Sprechenlassen stummer Menschen.
Sind Deepfakes dann harmlos und all die Aufregung unberechtigt? Nein, die Aufregung um Deepfakes ist keineswegs unbegründet.
Denn sehen heißt bei uns oft glauben. Wir neigen dazu, das zu glauben, was wir mit eigenen Augen gesehen und mit eigenen Ohren gehört haben. So ist es leicht, das visuelle System des Gehirns mit falschen Vorstellungen auszutricksen.
Negative Aspekte von Deepfakes
Im Nachrichten- und Medienbereich erleben wir tagtäglich Fake News, die Manipulation von Social-Media-Kanälen durch Trolle oder Social Bots oder auch das öffentliche Misstrauen gegenüber wissenschaftlichen Erkenntnissen. Für den Normalbürger ist es nicht mehr möglich, zwischen Fiktion und Fakten zu unterscheiden. Deepfakes können in Form von überzeugenden Falschinformationen oder irreführenden Informationen mit der Absicht, Schaden anzurichten, auftreten.
Wir wissen nicht mehr, was wahr ist, verwechseln Fakten mit Meinungen und trauen weder den Nachrichten noch der Wissenschaft. So hat eine empirische Studie aus dem Jahr 2021 gezeigt, dass die bloße Existenz von Deepfakes das Misstrauen gegenüber jeder Art von Information, ob wahr oder falsch, schürt.
Manipulierte Wahlen
Insbesondere vor Wahlen werden Falschinformationen verbreitet, um die Bürger zu verunsichern und in ihrem Wahlverhalten zu beeinflussen. Im Jahr 2024 finden weltweit zahlreiche Wahlen statt: Für uns Deutsche stehen Kommunalwahlen, Landtagswahlen und die Europawahl auf dem Programm. Auch in Österreich finden einige wichtige Wahlen statt.
Wladimir Putin hat bereits beschlossen, sich wiederwählen zu lassen, und in Bangladesch und Taiwan wurde inzwischen über ein neues Parlament abgestimmt. Die Türkei hat ihre Kommunalwahlen abgehalten und Indien wählt Ende April, Anfang Mai einen (neuen?) Premierminister. In den Vereinigten Staaten wird im November der Präsident gewählt. In Großbritannien wird es möglicherweise noch in diesem Jahr eine neue Regierung geben, und auch in der Ukraine könnte es zu Präsidentschaftswahlen kommen.
„KI-generierte Inhalte sind jetzt Teil jeder wichtigen Wahl und besonders schädlich bei knappen Wahlen“, sagte Dr. Oren Etzioni, Forscher auf dem Gebiet der künstlichen Intelligenz und emeritierter Professor an der University of Washington. Oren Etzioni war einer der ersten, der davor warnte, dass künstliche Intelligenz die Verbreitung von Desinformation im Internet beschleunigen würde. Er fügte hinzu, dass das Ziel oft darin bestehe, Menschen durch falsche Informationen oder das Schüren von Misstrauen davon abzuhalten, zur Wahl zu gehen.
Manipulation im Vorfeld der Wahlen
Welchen Einfluss KI auf Wahlen haben kann, haben die amerikanischen Wähler*innen in diesem Jahr bereits erlebt. Während des Vorwahlkampfs wurde eine manipulierte Audiobotschaft (angeblich) von Präsident Joe Biden an die Einwohner von New Hampshire gesendet, um sie davon abzuhalten, wählen zu gehen.
Gefälschte Videos, Audiodateien und Bilder sind mit generativer KI leicht zu erstellen, aber sehr schwer zu erkennen. KI-generierte Inhalte bieten jedem politischen Interessenvertreter die Möglichkeit, seine Gegner zu diskreditieren oder politische Skandale zu erfinden. Dies kann letztlich dazu führen, dass Wähler aufgrund falscher Informationen falsche Entscheidungen treffen.
Vor allem Frauen sind das Ziel
Laut einer im Jahr 2019 veröffentlichten Studie haben Forscher rund 14.678 Deepfake-Videos online gefunden. Sie stellten außerdem fest, dass 96 Prozent davon für pornografische Zwecke genutzt wurden. Neben Prominenten werden auch beliebte Social-Media-Influencer und bekannte Internetgrößen zur Zielscheibe. So sind beispielsweise Emma Watson, Natalie Portman und Gal Gadot die am häufigsten von Deepfakes betroffenen Prominenten.
Jeder kann betroffen sein
Dieses Risiko ist nicht auf Frauen begrenzt. Deepfakes können sich auch in Schulen oder am Arbeitsplatz einschleichen, denn jeder kann in absurde, gefährliche oder kompromittierende Situationen gebracht werden.
Es gibt immer mehr Fälle, in denen Deepfakes eingesetzt werden, um jemanden zu imitieren, der versucht, ein Bankkonto zu eröffnen. Menschen können mithilfe ausgeklügelter Algorithmen einen Ausweis fälschen und sich in Videos nachahmen. Weitere Bedenken im Zusammenhang mit Deepfakes sind Erpressung, Identitätsdiebstahl, Betrug durch große Unternehmen und die Gefahr für die Demokratie.
Drei Schadenskategorien
Gerade über Social Media werden immer mehr Fälschungen verbreitet, die echt aussehen. Dabei geht’s um Prominente, Politiker*innen und andere bekannte Persönlichkeiten. Das hat natürlich Auswirkungen. Für den*die Einzelne*n, für die Gesellschaft und sogar für die Demokratie. Nicht nur der*die Einzelne kann geschädigt werden, sogar die Gesellschaft als ganzes kann darunter leiden.
Die Risiken von Deepfakes für uns alle lassen sich in drei Kategorien aufteilen:
Überblick über die verschiedenen Risikokategorien in Verbindung mit Deepfakes
Psychologischer Schaden | Finanzieller Schaden | Gesellschaftlicher Schaden |
– (sexuelle) Erpressung – Verleumdung – Einschüchterung – Mobbing – Vertrauensbruch | – Erpressung – Identitätsdiebstahl – Betrug (z.B. Versicherung) – Manipulation von Aktienkursen – Markenschädigung – Rufschädigung | – Manipulation von Medien und Nachrichten – Gefährdung der wirtschaftlichen Stabilität – Schädigung des Rechtssystems – Beeinträchtigung der Wissenschaft – Erosion des Vertrauens – Beeinträchtigung der Demokratie – Manipulation von Wahlen – Beeinträchtigung internationaler Beziehungen – Gefährdung der nationalen Sicherheit |
Entnommen aus Panel for the Future of Science and Technology des European Parliamentary Research Service. Scientific Foresight Unit (STOA) PE 690.039 – July 2021. Eigene Übersetzung.
Kann ich Deepfakes erkennen?
Einige Wissenschaftler weisen darauf hin, dass es Kriterien gibt, anhand derer wir feststellen können, ob es sich bei dem vorliegenden Bild oder Video um ein Deepfake handelt. Die Entwicklung von Deepfake-Technologien und forensischen Erkennungsverfahren ist jedoch ein Katz-und-Maus-Spiel. Es liegt in der Natur der generativen künstlichen Intelligenz, die Deepfakes zugrunde liegt, dass sie ständig lernt und sich weiterentwickelt. Dieser kontinuierliche Verbesserungszyklus wird dazu führen, dass es immer schwieriger wird, Fälschungen zu erkennen.
Dr. Etzioni erklärt das so: „Die KI entwickelt sich so schnell, dass wir uns einem Punkt nähern, an dem Menschen nicht mehr in der Lage sein werden, Wahrheit und Fiktion in Bildern, Videos und Audios zu unterscheiden“.
Warum nutzen wir eigentlich noch keine digitalen Signaturen?
Wenn wir wissen wollen, ob eine Information echt ist, schauen wir uns meistens die Quelle an, also zum Beispiel eine Website, eine E-Mail-Adresse oder sogar den Ursprung eines Telefonanrufs. Aber bei den meisten Nachrichten, die wir per E-Mail, über soziale Medien oder sogar per Telefon erhalten, können wir nicht sicher sein, woher sie stammen.
Wir könnten uns auf digitale Signaturen von Meldungen verlassen. Mit einer digitalen Signatur kann nachgewiesen werden, dass ein Dokument nach der Unterzeichnung nicht manipuliert wurde. Allerdings wird sie eher selten verwendet, um die Urheberschaft von privaten E-Mails, Beiträgen in sozialen Medien, Bildern, Videos usw. zu bestätigen.
Die Aktivierung der Signatur in unserer E-Mail-Software, unserem Textverarbeitungsprogramm, der Smartphone-Kamera und bei jedem digitalen Inhalt ist wirklich nicht schwer. Wenn wir dann besonders auffällige Nachrichten bekommen, schauen wir uns doch mal an, wer diese signiert hat. Schließlich akzeptieren wir auch keine Schecks, die nicht unterschrieben sind.
Auch wenn solche digitalen Signaturen schädliche Software nicht daran hindern werden, falsche Nachrichten unter fremdem Namen zu verfassen, werden unsere Signaturen dafür sorgen, dass Betrüger sich nicht als uns ausgeben können und Inhalte verbreiten, die wir nicht verfasst haben.
Bin ich durch das Gesetz gegen Deepfakes geschützt?
Betrug, Verleumdung, Erpressung, Einschüchterung und vorsätzliche Täuschung sind nach unseren Gesetzen verboten. In der Datenschutz-Grundverordnung sind umfassende Leitlinien für die Bekämpfung illegaler Deepfake-Inhalte festgelegt. Das Recht am eigenen Bild ist eng mit dem Recht auf Schutz der Privatsphäre verbunden, wie in der Europäischen Menschenrechtskonvention (EMRK) formuliert. Das Bild einer Person stellt „eines der wichtigsten Merkmale ihrer Persönlichkeit dar“, so der Gerichtshof. Es wird als wesentlich für die Identität eines Menschen angesehen und ist daher schutzwürdig. Verfahren, die den durch Deepfakes verursachten Schaden mindern können, gibt es also bereits.
Einen wirklichen Schutz vor Deepfakes gibt es jedoch nicht. Gesetze und Verordnungen können lediglich dazu beitragen, die negativen Auswirkungen von bösartigen Meldungen zu begrenzen oder abzuschwächen. Der Rechtsweg ist für die Opfer jedoch eine Herausforderung, da meist mehrere Akteure am Lebenszyklus eines Deepfakes beteiligt sind und der*die Täter*in anonym agiert. Für das Opfer wird es fast unmöglich, den*die Täter*in zu identifizieren.
Europäisches KI-Gesetz
Deepfakes basieren üblicherweise auf KI-Technologien. Aus diesem Grund gelten für Deepfakes die gleichen Regeln und Vorschriften wie für Technologien der Künstlichen Intelligenz. Die Europäische Union hat ein Gesetz zur künstlichen Intelligenz verabschiedet, das auch auf die Deepfake-Technologie anwendbar ist.
Das europäische KI-Gesetz erlaubt den Einsatz von Deepfake-Technologien und schreibt nur einige Mindestanforderungen vor. So sind die Ersteller von Deepfakes verpflichtet, ihre Inhalte so zu kennzeichnen, dass jeder erkennen kann, dass es sich um manipuliertes Material handelt.
Das KI-Gesetz sieht jedoch keine Maßnahmen oder Sanktionen gegen Manipulatoren vor, die diese Anforderungen nicht erfüllen. So bleiben böswillige Personen, die anonym Deepfakes erstellen, um anderen zu schaden, meist straffrei.
Beim Einsatz von Erkennungssoftware ist dies anders
Anders als bei der (privaten) Nutzung von Deepfake-Technologie zur Schädigung anderer Personen ist der Einsatz von Deepfake-Erkennungssoftware durch Strafverfolgungsbehörden nur unter strengen Voraussetzungen zulässig, wie z.B. dem Einsatz von Risikomanagementsystemen und geeigneten Datenmanagement- und -verwaltungsverfahren. Der Einsatz von Deepfake-Erkennungssoftware fällt in die Kategorie mit hohem Risiko, da er eine Bedrohung für die Rechte und Freiheiten von Personen darstellen könnte.
Es liegt jedoch auf der Hand, dass Maßnahmen, die für risikoarme und gutartige Deepfake-Anwendungen ausreichen, wie z. B. das Anbringen einer Kennzeichnung oder die Forderung nach Transparenz hinsichtlich der Herkunft, nicht ausreichen, um schädliche Deepfake-Anwendungen einzudämmen.
Wie können wir Deepfakes am besten bekämpfen?
Nach heutigem Kenntnisstand erscheint es unmöglich, ein Deepfake-Video ohne Erkennungswerkzeuge zu identifizieren. Die Erkennungswerkzeuge werden jedoch immer nur für einen begrenzten Zeitraum funktionieren, bis sich die Deepfake-Technologien wieder angepasst haben.
Wir können aber in Bezug auf einen anderen Aspekt der Deepfakes etwas tun, denn um die öffentliche Meinung zu manipulieren, müssen Deepfakes ja nicht nur produziert werden, sondern auch verbreitet. Und genau da sind wir gefragt. Vertrauen wir weiterhin jeder noch so ungewöhnlichen Meldung und leiten sie unüberlegt sofort an unsere Freunde weiter? Auch Medienanbieter und Internetplattformen sind wichtig für die Wirkung von Deepfakes.
Die Medienlandschaft hat sich verändert und es wird nie möglich sein, gefälschte Informationen komplett zu vermeiden. Wir müssen deshalb unsere Widerstandsfähigkeit verbessern und lernen, mit den Veränderungen in einem sich wandelnden Medienökosystem umzugehen. Es ist nicht nur wichtig, wie wir Deepfakes und Fälschungen erkennen, sondern wir müssen lernen, ein vertrauenswürdigeres Bild der Realität zu konstruieren.
#deepfakes, #KI, #deeplearning
Die englische Übersetzung dieses Artikels finden Sie hier: Deepfakes on the Internet – Beware of the fake ones!