Interview: Deepfakes: "Wir sind als Gesellschaft noch nicht so ganz vorbereitet"

Interview

Deepfakes: "Wir sind als Gesellschaft noch nicht so ganz vorbereitet"

Anfang des Jahres haben Facebook und Twitter angekündigt, gegen Deepfake-Videos vorzugehen. Was die Investigativ-Journalistin Johanna Wild davon hält und wie man mit Deepfakes umgehen sollte.

Von Jan-Luc Treumann |

31.03.20, 12:08 Uhr

Deepfake-Videos können gefährlich werden, wenn man sie nicht mehr erkennt, sagt Journalistin Johanna Wild. Foto: Axel Hechelmann (Symbolbild)

Frau Wild, wenn wir etwas im Alltag sehen, glauben wir dem - im Internet ist das schwieriger. Können wir unseren Augen noch trauen, wenn wir im Netz unterwegs sind?

Johanna Wild: Ich glaube, man sollte bei allem, was man im Internet sieht, erstmal skeptisch sein. Man sollte dem nicht blind glauben, sondern kurz innehalten und sich überlegen: Kann das sein? Das gilt für alle Arten von Online-Inhalten. Es passiert leider viel zu oft, dass Leute einfach etwas auf Facebook sehen, das dann teilen und nicht hinterfragen. Aber nicht alles, was wir online sehen, ist fake. Man sollte eine gesunde Skepsis haben, aber auch nicht übertreiben und panisch werden.

Dass Bilder leicht zu manipulieren sind, dürfte den meisten Menschen mittlerweile bekannt sein. Seit einigen Jahren tauchen aber auch immer mehr manipulierte Videos auf, sogenannte Deepfakes. Theoretisch könnte man doch denken, dass einer Videoaufnahme eher zu trauen ist.

Wild: Das ist tief in uns verwurzelt, dass wir uns mehr auf Dinge, die wir sehen können - wie Videos - verlassen. Das hat ja auch lange Zeit Sinn gehabt. Wenn man als Journalist Videomaterial gefunden hat, war die Wahrscheinlichkeit hoch, dass das Material echt sein könnte. Jetzt sind wir in einem anderen Zeitalter, es gibt jetzt ganz neue Möglichkeiten, Videos zu manipulieren. Und auf diese neuen Möglichkeiten sind wir als Gesellschaft vielleicht noch nicht so ganz vorbereitet. Wir müssen anfangen, mit Videomaterial ganz anders umzugehen, als wir das bisher gemacht haben.

Wir sprechen jetzt von sogenannten Deepfakes. Was ist das denn?

Wild: Ein Deepfake ist ein Video, das auf der Basis von machine learning (Maschinelles Lernen, Anm.) manipuliert wurde. Das ist eine Technologie, die von der Funktionsweise des menschlichen Gehirns inspiriert ist. Einer Maschine wird beigebracht, Aufgaben zu übernehmen, die in der Vergangenheit nur Menschen erledigen konnten. Selbständig Zahlen lesen zum Beispiel. Und damit können inzwischen automatisch Fakes generiert werden und Menschen müssen nicht mehr viel dazu beitragen. Das ist der große Unterschied zu früheren Zeiten. In der Vergangenheit konnte man natürlich auch mit Photoshop ein Bild manipulieren, Gesichter austauschen. Aber mit den neuen Möglichkeiten der künstlichen Intelligenz können Fotos und Videos in ein Netzwerk eingespeist und automatisch manipuliert werden. Nicht alles, was wir heute an Deepfake Videos sehen, ist komplett neu. Es gab immer manipulierte Videos, aber man musste viel Aufwand reinstecken. Inzwischen kann man sich einfach eine App runterladen und Fotos, beispielsweise eines Schauspielers, hochladen. Dann kann man diesem Schauspieler eine Maske aufsetzen, die so aussieht wie das Gesicht einer anderen Person. Jeder kann sich so zu Hause Deepfake-Videos erstellen. Man braucht einen guten Computer, ganz viel Zeit und nicht einmal Programmierkenntnisse.

Populär geworden sind auch Apps, die ein sogenanntes Face swapping ermöglichen. Dabei werden die Gesichter zweier Personen miteinander getauscht. Zählt so etwas auch als Deepfake?

Wild: Es steckt eine ähnliche Technologie dahinter, aber hier geht es weniger darum, realistisch aussehende Fakes zu produzieren und andere zu täuschen. Wer die Handy-Kamera auf sich selbst und die beste Freundin richtet und dann die Gesichter austauscht, will vor allem Spaß haben. Es ist unwahrscheinlich, dass irgendjemand das daraus entstandene Video für echt hält. Man kann auch sein eigenes Gesicht in einer App hochladen, um zu schauen, wie bestimmte Kleidung an einem aussieht. Das ist dann kein Fake in dem Sinn, weil ich mein Gesicht in der App zum Beispiel auf einen Körper lade, um zu sehen, wie ein bestimmtes Kleid an mir aussieht. Aber das zeigt auch, wie sehr diese Technik in unserer Gesellschaft angekommen ist. Die Technologien, die wir haben, werden wir nicht mehr aus unserer Gesellschaft rausbekommen und die werden für ganz viele Sachen genutzt. Die wurden schon vor langem in der Filmindustrie angewendet. Dort hat man Gesichter ausgetauscht, aber man brauchte ein riesiges Budget und Experten, die lange daran rumgearbeitet haben. Jetzt geht das ganz einfach. Es gibt eben ganz viele Anwendungsmöglichkeiten und nur eine davon ist, dass wir getäuscht werden sollen. Aber es ist eben eine, mit der wir uns beschäftigen sollten.

In welchen Fällen wurde das in der Filmindustrie genutzt?

Wild: Wenn Schauspieler während der Dreharbeiten gestorben waren, aber man den Film weiterdrehen wollte, hat man das genutzt. Oder auch, wenn man tote Schauspieler in einem Film auferstehen lassen wollte. Das sind Beispiele, wo es auch Sinn macht. Die Manipulation wurde allerdings auch öffentlich gemacht, man hat das nicht verheimlicht. Und das ist der Unterschied: Macht man deutlich, dass diese Technologie benutzt wurde, oder nicht?

Johanna Wild ist Journalistin beim Recherchenetzwerk Bellingcat. Foto: Ursula Trischler

Können Sie erklären, wie ein Deepfake auf der technischen Ebene funktioniert?

Wild: So eine App macht im Hintergrund folgendes: In einem sogenannten Encoder werden Videos eingespeist. Die Gesichter werden dann auf bestimmte Charakteristika runtergebrochen. Wenn ich ein Foto von Angela Merkel hochlade, analysiert das Programm zum Beispiel den Abstand ihrer Augen, die Mundform et ceterea. All das wird in Computersprache übersetzt, die aus Zahlenreihen besteht. Aus den übersetzten Charakteristika werden dann neue Gesichter kreiert. So kann aus den analysierten Charakteristika zum Beispiel ein künstliches Angela Merkel-Gesicht generiert werden. Das ist die so genannte Decoding Phase. Die Ergebnisse werden umso besser, je mehr Merkel-Fotos dem System zum Training zur Verfügung gestellt werden. Interessant wird es, wenn man dem System zwei Foto-Sammlungen zur Verfügung stellt, zum Beispiel von Angela Merkel und von Boris Johnson. Das System kann dann die Charakteristika der einen Person nutzen, um daraus ein Bild der anderen Person zu generieren. So wird Boris Johnsons Gesicht auf das von Angela Merkel gelegt. Das ist wie eine Maske. Da machine learning angewendet wird, kann das Gesicht auch in einem Video reagieren, wie es die Person in dem eingespielten Material tut. Inzwischen geht das auch mit sehr wenig Fotos, da sind gerade so einige Fortschritte zu verzeichnen. Je mehr Bilder ich einspeise, desto besser, am besten mit verschiedenen Gesichtsausdrücken.

Wie gut funktioniert die Deepfake-Technik denn mittlerweile?

Wild: Das kommt darauf an. Es gibt Beispiele von Fakes, die von Universitäten angefertigt wurden und die haben dort bessere Computer und viel mehr Zeit. Dann kommt man zu Ergebnissen, die unglaublich gut sind und die man nicht so leicht erkennen kann. Bei den meisten Deepfakes, auf die man im Moment noch in sozialen Netzwerken stößt, sind die Chancen recht hoch, dass man die erkennen kann.

Wann ist der erste Deepfake entstanden?

Wild: Die große Diskussion um Deepfakes ist 2017 auf dem Forum Reddit entstanden. Da ging es darum, dass man Gesichter von Schauspielerinnen nimmt und die Pornostars aufsetzt. Das war das erste Mal, dass die Technologie online zum Trend wurde, aber wahrscheinlich haben User schon vorher damit experimentiert. Nach wie vor kann man sagen, dass es nicht extrem viele Deepfakes im Netz gibt, aber das wird noch kommen.

Können Deepfakes auch zu einer Gefahr werden? Denn gerade bei Politikern kann es heikel werden, wenn ihnen irgendwelche Statements in den Mund gelegt werden.

Wild: Auf jeden Fall. Das ist die große Gefahr und mit der müssen wir lernen, in der Zukunft umzugehen. Es wird immer einfacher werden, Deepfake-Videos von Politikern anzufertigen und einfach online zu verbreiten. Dann besteht natürlich die Gefahr, dass wir denken, ein Politiker hat etwas gesagt, was er aber er gar nicht getan hat.

Wie kann man Deepfakes denn erkennen?

Wild: Als erstes muss man sich das Video genau anschauen, vor allem das Gesicht. Dann sieht man oft, dass da vieles verschwommen ist. Das liegt daran, dass es nicht so einfach ist, ein Gesicht über ein anderes zu legen und dann auch noch die Mimik und Lippenbewegungen hinzubekommen. Deswegen sollte man sich auch die Lippen genau anschauen: Stimmt die Lippenbewegung mit dem Text überein, den ich höre?

Was kann man noch tun?

Wild: Ich schaue auch immer auf die Nase - bei einigen Fakes rutscht die Nase an manchen Stellen mal hin und her. Für einen kurzen Moment sieht man mal zwei Augenbrauen gleichzeitig. Da hat dann das Übereinanderlegen nicht so gut funktioniert. Und man sollte auch drauf achten, ob ein natürliches Blinzeln vorhanden ist. Diese Deepfakes werden ja häufig auf der Basis von Fotos erstellt und man hat selten Fotos von Personen mit geschlossenen Augen. Daher ist es oft nicht möglich, das Blinzeln natürlich aussehen zu lassen. Wenn die Person lange nicht oder sehr oft hintereinander blinzelt, kann das ein Hinweis auf einen Deepfake sein. Und die Qualität der Videos wird häufig verschlechtert, weil ein nicht perfektes Gesicht dann auch nicht so auffällt. Zudem sind die Deepfakes meist kurze Videos, weil dieses Trainieren so lange dauert. Es ist sehr aufwendig, einen einstündigen Film zu manipulieren. Die meisten Fakes dauern nur wenige Sekunden, vielleicht mal ein paar Minuten, aber selten länger.

Gibt es denn keine Technik, die einem dabei helfen kann, einen Deepfake zu erkennen?

Wild: Es gibt noch kein ausgereiftes Programm, aber viele Universitäten arbeiten daran. Gerade vor der Präsidentschaftswahl in den USA macht man sich viele Sorgen, dass da Deepfakes zum Einsatz kommen könnten. In den USA arbeitet auch das Pentagon an Erkennungsmechanismen für Deepfakes. Es wird nie so sein, dass man Deepfakes mit einem bestimmten System anhand von nur einem Merkmal erkennen kann. Man braucht eine Kombination von Merkmalen. Da gibt es ganze Listen, die diese Universitäten aber nicht alle öffentlich machen. Denn sobald klar wird, dass das System auf diesen bestimmten Faktor achtet, versucht derjenige, der den Deepfake erstellt, das zu verbessern. Es ist ein Wettlauf und das wird es auch immer sein.

Sie haben die Wahlen in den USA angesprochen. Fürchten Sie, dass es Beeinflussungen durch Deepfakes geben wird?

Wild: Ich glaube nicht, dass im US-Wahlkampf bereits massenhaft Deepfakes auftauchen werden. Die Herausforderung sehe ich aber darin, dass Politiker einzelne Deepfakes ganz bewusst aufgreifen und weiterverbreiten könnten. Einigen traue ich durchaus zu, dass sie ein Deepfake-Video, in dem ein politischer Gegner diskreditiert wird, für echt erklären könnten. Dadurch könnte das Video schnell eine große Reichweite erzielen und sehr viele Menschen in die Irre führen. Bis zu einem gewissen Grad ist es möglich, sich auf einen solchen Fall vorzubereiten. Und zwar indem man vorab möglichst viel Foto- und Videomaterial der Kandidaten sammelt und Computer lernen lässt, wie das echte Material aussieht. Taucht ein zweifelhaftes Video auf, kann man das Video zeitnah mit dem Trainingsmaterial abgleichen und herausfinden, ob es sich um einen Deepfake handelt. Je schneller das Ergebnis da ist, desto besser. Denn spät nachgelieferte Richtigstellungen erreichen immer nur einen Teil der Menschen, die auf das Fake-Video hereingefallen sind.

Es gab im vergangenen Jahr auch Diskussionen um ein Video mit Nancy Pelosi, in dem sie scheinbar betrunken spricht. Das Video wurde aber bearbeitet.

Wild: Viele Videos, die wir finden sind zwar Fakes, aber häufig noch nicht mit Deepfake-Technologie angefertigt. Das gerät in der öffentlichen Diskussion oft durcheinander. Es gab schon immer manipulierte Videos, man darf nun nicht alles, was als Fake-Video kursiert, als Deepfake bezeichnen. Überhaupt sollte man in der Diskussion nicht überpanisch werden. Wenn ich jetzt ein Video von einem Politiker sehe, der auf einer Pressekonferenz angeblich irgendwas sagt, dann muss ich eben - vor allem als Journalist - das Originalvideo finden und überprüfen. Insofern ist es einfach die Lösung, sich nicht ausschließlich auf ein einziges Video zu verlassen. Wenn ein Politiker auf irgendeiner Konferenz eine bizarre Aussage macht, sind normalerweise auch viele andere Videos davon online, die andere Personen hochgeladen haben. Wenn ich nur ein Video mit einer extrem erstaunlichen Aussage finde, dann sollte ich skeptisch werden.

Sie meinten vorher, dass die Gesellschaft noch nicht auf Deepfakes vorbreitet ist - wie kann man das ändern?

Wild: Panik nützt gar nichts und man sollte sich klarmachen, dass Deepfakes nichts komplett Neues sind. Es gibt ein paar Hilfsmittel im Netz. Ich selbst gehe so vor: Jedes Video besteht aus vielen einzelnen Fotos und bei der Überprüfung zerlege ich das Video in eine Reihe von Bildern. Das kann ich zum Beispiel mit einer Browser-Erweiterung automatisch machen lassen. Dann kann ich die einzelnen Bilder nehmen und nach diesen Bildern mit verschiedenen Suchmaschinen suchen. Dafür nutze ich die Bilder-Rückwärtssuche - bitte nicht nur Google benutzen, sondern auch Yandex, eine russische Suchmaschine, die sehr gut für die Bilderkennung ist. Ich lade dann mehrere Bilder aus dem Video hoch und schaue, ob die Suchmaschine dieses Bild woanders findet. Wenn ich viele Fotos davon finde, stoße ich beispielsweise auf die Pressekonferenz, bei der der Politiker gesprochen hat und kann mir die Aussagen anschauen. Auch sollte man das Video ganz langsam abspielen. So kann man viele Dinge bereits entlarven. Wenn ich eine Landschaft oder eine Straße sehe, kann ich vielleicht anhand eines Straßenschilds versuchen herauszufinden, wo das aufgenommen wurde. Dann kann ich schauen, ob dort vielleicht in dieser Woche ein Politikerbesuch war.

Aber das sind ja vor allem Dinge, die Journalisten machen. Andere Bürger werden doch kaum diesen Aufwand betreiben und ein Video in Bilder zerlegen und danach suchen, oder?

Wild: Ich glaube schon, dass manche das tun werden. Ich habe auch schon Bürger fortgebildet. Die sind unsicher, wenn sie online unterwegs sind und ein Video finden, aber nicht verstehen, was dahinter steckt. Es ist auch zu empfehlen, das als Nicht-Journalist zu machen, denn es sind ganz einfache Schritte. Ich kann ein Beispiel aus dem Privaten erzählen.

Bitte.

Wild: Eine Bekannte von mir hat auf Facebook ein Foto zusammen mit einem Zitat geteilt, das angeblich Malia Obama, die Tochter des früheren amerikanischen Präsidenten, auf Facebook gestellt haben soll. Es handelte sich aber nicht um einen Account Obamas, sondern um einen Satire-Account, der falsche Zitate mit alten Fotos von ihr kombiniert und auf diese Weise Facebook-Nutzer in die Irre führt. Als ich das gesehen habe, habe ich meine Bekannte angerufen. Ich habe ihr gezeigt, wie sie selbst überprüfen kann, dass das im Post verwendete Foto aus einem älteren Presseartikel stammt. Auch hier reichte eine Bilder-Rückwärtssuche. Außerdem haben wir besprochen, dass bekannte Persönlichkeiten des öffentlichen Lebens auf Facebook und anderen sozialen Netzwerken oft einen blauen Haken hinter ihren Usernamen haben. Das bedeutet, dass sie durch das soziale Netzwerk verifiziert wurden. Meiner Bekannten war es sehr unangenehm, dass sie auf so etwas reingefallen war. Sie hat den Post sofort gelöscht und damit verhindert, dass noch mehr Nutzer darauf hereinfallen konnten. Das Beispiel zeigt, dass wir alle selbst viel dazu beitragen können, dass Online-Fakes nicht weiter verbreitet werden.

Welche Interessen stehen denn dahinter, einen Deepfake zu erstellen?

Wild: Viele Verschiedene. Im Moment oft noch, dass man Spaß haben will. Vor kurzem gab es ein Video, da wurde Merkels Gesicht auf das von Heidi Klum gelegt, das kann schon ganz lustig sein. Leider ist die Motivation dahinter aber oft auch Mobbing. In Zukunft könnte es soweit kommen, dass eine Person ein Deepfake-Video von jemandem erstellt und vorgibt, diese Person hätte etwas gesagt oder getan, das gar nicht stimmt. Es gab auch Fälle von Frauen, die nicht so in der Öffentlichkeit stehen, von denen Deepfake-Videos angefertigt wurden. Das sah dann so aus, als ob die Frauen in einem Porno mitgewirkt hätten. Und ich denke, dass viele Akteure im Hintergrund darüber nachdenken, wie das politisch genutzt werden kann.

Muss man also als Bürger, von dem ja häufig Fotos und Videos in sozialen Netzwerken existieren, befürchten, dass dann von einem selbst Deepfake-Videos erstellt werden?

Wild: Theoretisch wird die Technologie besser, man kann also solche Videos mit weniger Material herstellen, als das vor einiger Zeit möglich war. Die Frage ist nur: Hat man jemanden, der einen gerade so sehr hasst, dass dieser Fall eintritt? Ich denke, die Wahrscheinlichkeit, dass das einem beliebigen Bürger passiert, ist noch sehr gering. Es ist aber nicht ausgeschlossen, deswegen würde ich sehr darauf achten, was von einem online ist.

Anfang des Jahres haben Facebook und Twitter angekündigt, solche manipulierten Videos von ihren Plattformen zu entfernen. Ist das der richtige Umgang damit?

Wild: Ich glaube, es ist schwierig, alle manipulierten Videos zu finden. Aber gerade im Hinblick auf Deepfake-Videos finde ich es richtig, dass da etwas getan wird. Ich gehe davon aus, dass es für diese großen Technologiefirmen möglich ist, solche Deepfake-Erkennungsprogramme einzubauen. Aber ich bin sicher, dass nie alles gefunden wird, was an Fakes unterwegs ist. Es sind ja nicht nur Deepfakes, die Probleme bereiten. Und es wurde ja auch angekündigt, dass satirisch gemeinte Deepfake-Videos weiter erlaubt sein werden. Da sehe ich die Problematik, wenn Menschen mit extremen Ideologien einfach ihr Fake-Video als Satire bezeichnen. Wo wird da die Grenze gezogen, was ist Satire und was nicht?

Was wird es für unsere Gesellschaft bedeuten, wenn Deepfake-Videos so gut werden, dass man sie nicht mehr erkennen kann?

Wild: Erstmal eine Gefahr. Was uns am meisten Sorgen machen sollte, ist, dass wir anfangen, zu skeptisch zu werden. Das Vertrauen mancher Menschen in Politik und Medien ist sowieso schon ein Stück weit erschüttert und das wird weiter verstärkt, wenn man zwar ein authentisches Video sieht, aber nicht mehr darauf vertraut, dass ein Video auch echt sein kann. Der Vertrauensverlust ist die größte Problematik. Man sollte nicht panisch werden. Wir sollten skeptisch sein und Dinge überprüfen, aber auch ein bisschen Vertrauen haben, dass ein Video echt ist. Es wäre die schlimmste Konsequenz, wenn wir nichts und niemanden mehr vertrauen.

Info zur Person: Johanna Wild, 35, ist Online-Journalistin und leitet den Bereich Tech Innovations beim investigativen Recherchenetzwerk Bellingcat.

Wir wollen wissen, was Sie denken: Die Augsburger Allgemeine arbeitet daher mit dem Meinungsforschungsinstitut Civey zusammen. Was es mit den repräsentativen Umfragen auf sich hat und warum Sie sich registrieren sollten, lesen Sie hier.

Diskutieren Sie mit

0 Kommentare

Dieser Artikel kann nicht mehr kommentiert werden