Wie Cyber-Kriminelle mit Deepfakes Unternehmen und Privatanwender bedrohen

Betrug mit Deepfakes - Titelbild

Deepfakes eröffnen neue Möglichkeiten, um Video- und Audio-Aufnahmen zu manipulieren. Cyber-Kriminelle nutzen sie für Betrugsmaschen wie den CEO-Fraud, Desinformationskampagnen und die Umgehung biometrischer Sicherheitssysteme. Wir fassen für dich die wichtigsten Manipulationstechniken zusammen und erklären, wie du Deepfakes erkennen kannst.

Eine Sprachnachricht von der Chefin. Ihre Stimme ist eindeutig erkennbar, doch der Inhalt ist merkwürdig. Sie gibt die Anweisung, einen größeren Betrag auf ein angegebenes Konto überweisen – und zwar so schnell wie möglich. Angeblich, um einen neuen Geschäftszweig zu eröffnen.

Wer solche Nachrichten bekommt, sollte skeptisch werden. Denn auch wenn unverkennbar die Stimme der Chefin die Anweisung spricht, stecken womöglich Betrüger dahinter. Mit Hilfe von Deepfakes können sie bei der Kommunikation über das Internet die Stimmen und Gesichter von anderen Menschen annehmen und sich für sie ausgeben.

Wie groß die Bedrohung ist, zeigen bekannt gewordene Fälle. So brachten Cyberkriminelle vor kurzem einen Bankdirektor aus Hongkong mit einer gefälschten Stimme dazu, 35 Millionen US-Dollar auf ihr Konto zu überweisen.

Eine neue Dimension der Medienmanipulation

Die Manipulation von Medien ist an sich nichts Neues. Auch schon vor Photoshop und Co war es möglich, Fotos zu verfälschen. Stalin machte davon zum Beispiel Gebrauch, um in Ungnade gefallene Personen aus Bildern zu entfernen. Damals kamen dafür Schere und Pinsel zum Einsatz. Heute im digitalen Zeitalter sind die Techniken weitaus elaborierter.

Vor allem innerhalb der letzten fünf Jahre haben die technischen Möglichkeiten für die Manipulation von Medien einen enormen Sprung gemacht und eine neue Dimension erreicht. Grund dafür sind die Fortschritte im Bereich der Künstlichen Intelligenz (KI). So trägt der Begriff Deepfake bereits die dahinterstehende Technologie im Namen. Das Kofferwort ist zusammengesetzt aus dem KI-Verfahren „Deep Learning“ und dem englischen Begriff „Fake“.

Von der Science Fiction in die Realität

Für die Fälschung von Bildern sind wir längst sensibilisiert, für die Manipulation von Audio- und Video-Ausgaben jedoch nicht. Für viele Menschen wirkt das noch eher wie Science Fiction – wie der T-1000 in Terminator 2, der sich in Sarah Connor verwandelt und plötzlich mit ihrer Stimme spricht. Das Missbrauchspotenzial der neuen Manipulationsmöglichkeiten ist gerade deshalb so groß, weil es uns noch unwirklich vorkommt. Wir sind es bisher schlichtweg nicht gewohnt, die Authentizität von Bewegtbild und Audio-Inhalten in Frage zu stellen.

Doch Fakt ist: Wenn wir heute Sprachnachrichten abhören, telefonieren oder in Videokonferenzen zusammenkommen, können wir keineswegs mehr sicher sein, dass unser Gegenüber „echt“ ist – auch wenn uns das vertraute Gesicht entgegenblickt und wir die bekannte Stimme hören. Mittlerweile ist es nahezu in Echtzeit möglich, seine Stimme in eine andere zu verwandeln und das eigene Gesicht mit einem anderen Gesicht zu überlagern. Die dafür benötigten Werkzeuge sind frei verfügbar. Besonderes technisches Know-how ist nicht nötig.

Wie sich Gesichter und Stimmen kapern lassen

Die wichtigsten zwei Verfahren für die Fälschung von Gesichtern in Videos sind das sog. Face-Swapping und Face-Reenactment.

  • Beim Face Swapping tritt das Gesicht der Zielperson an die Stelle des Gesichts im ursprünglichen Video. Der Gesichtsausdruck sowie Mimik, Beleuchtung und Blickrichtung werden auf das neue Gesicht übertragen.
  • Beim Face Reenactment werden Mimik sowie Kopf- und Lippenbewegungen angepasst. So lassen sich einer gefilmten Person zum Beispiel neue Aussagen unterjubeln, die sie nie geäußert hat.

Für die Manipulation von Stimmen gibt es ebenfalls zwei gängige Verfahren:

  • Bei Text-to-Speech wird geschriebener Text in gesprochene Sprache mit einer bestimmten Stimme umgewandelt.
  • Mit Hilfe von Voice-Conversion wird das Audiosignal einer Ausgangsstimme direkt in das Audiosignal einer Zielstimme konvertiert.

All diese Verfahren haben eine Gemeinsamkeit: Sie benötigen Trainingsdaten – also Audio-Aufnahmen einer Stimme oder Filmaufnahmen einer Person. An entsprechendes Material zu kommen, ist in der Regel nicht schwer – vor allem nicht, wenn die Zielperson in sozialen Medien unterwegs ist oder öffentliche Vorträge hält, die auf Plattformen wie YouTube abrufbar sind.

Mit der Weiterentwicklung entsprechender KI-Systeme wird außerdem die Trainingsmenge, die für überzeugende Ergebnisse benötigt wird, immer kleiner. Das Text-to-Speech KI-Modell VALL-E von Microsoft soll zum Beispiel schon mit drei Sekunden Audiomaterial eine Stimme nachahmen können.

Neue Bedrohungsszenarien durch manipulierte Identitäten

Für Cyberkriminelle eröffnen Deepfakes eine Reihe neuer Angriffsmöglichkeiten. Sie können damit zum Beispiel biometrische Sicherheitssysteme austricksen. Eine Fernidentifikation per Video oder Stimmerkennung ist heute dementsprechend nicht mehr verlässlich. Die größten Risiken für Unternehmen ergeben sich jedoch durch neue Social Engineering-Techniken – wie beim eingangs erwähnten CEO-Fraud.

Auch für Desinformationskampagnen, Propagandazwecke und Rufmord steht Deepfake-Software hoch im Kurs. So kursierte im März 2022 ein gefälschtes Video des ukrainischen Präsidenten Selenskyj im Netz, das eine vermeintliche Kapitulation einräumte. Neben politischen Stakeholdern gehören auch immer mehr Privatleute zu den Leidtragenden. Ein paar Fotos reichen aus, um eine Zielperson per Face Swapping in einen Porno-Film zu bringen.

Gegenmaßnahmen und Erkennungsmerkmale

Als wichtigste präventive Maßnahme gegen Deepfakes gilt die Aufklärung darüber. Du solltest dir bewusst sein, dass es diese Täuschungsmöglichkeiten gibt. Unternehmen sollten ihre Mitarbeitenden gezielt für Deepfakes sensibilisieren. Auch wenn die Qualität von Deepfakes immer weiter steigt, gibt es aktuell noch einige Erkennungsmerkmale, durch die du Deepfakes entlarven kannst:

  • Bei Audiomanipulationen bekommt die Stimme häufig einen metallischen und monotonen Klang. Durch das TTS-Verfahren kann es zu einer falschen Aussprache mancher Wörter kommen. Weitere Indizien sind andere Betonungen und Akzente als bei der Ausgangsperson.
  • Bei Deepfake-Videos können sichtbare Artefakte am Übergang des Gesichts zum Hintergrund auftreten. Möglicherweise verändert sich die Farbe und Textur der Haut. Auch Fehler bei der Beleuchtung deuten klar auf eine Manipulation hin.

Fazit

Der Einsatz von Deepfakes ist heute einfacher als je zuvor. Immer leistungsfähigere Tools sind öffentlich verfügbar. Sie benötigen nur noch wenige Trainingsdaten für überzeugende Fälschungen. Eine Erkennung wird zunehmend schwieriger. Es gibt mittlerweile zwar spezielle Software zur automatisierten Erkennung von Deepfakes. Sie ist jedoch längst nicht in allen Situationen des Alltags praktikabel. Unterm Strich müssen wir stets auf die neue Bedrohung gefasst sein – und ein gesundes Misstrauen gegenüber Audio- und Videoinhalten entwickeln.


Weitere Beiträge zum Thema digitaler Selbstschutz:

Identitätsdiebstahl: So reduzierst du Risiken für dein digitales Ich

Identitätsdiebstahl

So reduzierst du Risiken für dein digitales Ich