Fachartikel vom 10/01/2018

IT-Risiko der Woche Skill Squatting mit Amazon Echo

Etwas beim Hören falsch zu verstehen ist menschlich. Insofern hat Amazon Echo durchaus menschenähnliche Züge, denn auch der smarte Lautsprecher „Echo“ hat dieses Problem. Ein Forscherteam hat sich mit Echo, Alexa und dem böswilligen Besetzen von Alexa Skills beschäftigt.

Bild: G Data Software
„Mein“ oder „Main“? Maschinelle Sprachassistenten kommen wie ein Mensch ins Schleudern, wenn es um gleichklingende Wörter geht. (Bild: G Data Software)

Auf der diesjährigen Usenix-Konferenz hat ein Forscherteam der University of Illinois einen Bericht mit dem Titel "Skill Squatting Attacks on Amazon Alexa" vorgestellt, der die Möglichkeiten des so genannten „Skill Squatting“ beleuchtet. Das Resultat ist ein bisher theoretisches Angriffsmodell, welches die Tatsache ausnutzt, dass bestimmte gesprochene Worte häufiger missverstanden werden als andere. Die Aktivierung unerwünschter Funktionen durch den Nutzer ist eines der Risiken.

Was bedeutet „Skill Squatting“?

Ein „Skill“ ist – vereinfacht gesagt – eine Funktion, die durch Alexa ausgeführt werden soll, wenn ein bestimmter Sprachbefehl gegeben wird. So gibt es zahlreiche Skills, die fest in Amazon Echo verdrahtet sind: „lauter“ und „leiser“ sind zwei davon. Sagt der Nutzer also „Alexa, Lauter!“, dann „weiß“ die Plattform, dass der Benutzer die Wiedergabelautstärke erhöhen möchte. Drittanbieter haben ebenfalls die Möglichkeit, die Alexa–Plattform für die Veröffentlichung eigener Skills zu nutzen. So kann man sich beispielsweise mit dem entsprechenden Skill morgens die neuesten Nachrichten oder den Wetterbericht vorlesen lassen – oder auch sein Smart Home steuern.

Im Englischen bedeutet „squatting“ so viel wie „besetzen, um eine Nutzung durch andere zu verhindern“. Hausbesetzer werden ebenfalls als „squatter“ bezeichnet. Skill Squatting bedeutet, dass ein bestimmter Befehl „besetzt“ wird, der einem bestimmten Wort klanglich sehr ähnlich ist – selbst wenn es sich bei diesem Wort nicht um einen Befehl handelt, den der Nutzer geben will. Somit wird das Risiko erhöht, dass ein Skill angesprochen wird, dessen Funktion vom Nutzer nicht gewünscht ist.

Etwas Ähnliches existiert schon seit Jahren: beim so genannten „Typo Squatting“ registrieren Kriminelle bestimmte Domains, die eine gewisse Ähnlichkeit mit legitimen Domains haben, allerdings mit oft vorkommenden Vertippern – wie etwa „faecbook.com“ oder „youtiube.com“. Ahnungslose Surfer, die sich vertippt haben, landen so schlimmstenfalls auf einer infizierten Webseite.

Wie komplex ist der Angriff?

Bestimmte Dinge akustisch falsch zu verstehen kennt fast jeder. So wird aus dem Neunziger-Hit „I got the power“ schnell „Agathe Bauer“. Alexa steht vor dem gleichen Problem. Hier wird klar, dass mehr zu erfolgreichem Skill Squatting gehört, als das bloße Definieren eines bestimmten Wortes als Auslöser für einen Alexa-Skill. Zum einen müsste ein Angreifer ein Wort wählen, von dem er einerseits sicher sein kann, dass es von einem Opfer gesprochen wird – zum anderen muss es ein Wort sein, das mit einer gewissen Wahrscheinlichkeit von Alexa falsch interpretiert wird. Diese Wahrscheinlichkeit macht sich fest am phonetischen Aufbau bestimmter Wörter.

Einsilbige Wörter, die sich klanglich ähneln, haben hier eine wesentlich höhere Fehlerquote als mehrsilbige Wörter. Für ihre Tests verwendeten die Forscher insgesamt 188 sowohl ein- als auch mehrsilbige Wörter, die jeweils 50 mal von 60 verschiedenen Sprechern unterschiedlichen Geschlechts aus unterschiedlichen Regionen gesprochen wurden. Nur zwei Prozent der Einzelwörter, mit denen die Versuche durchgeführt wurden, hat Alexa immer korrekt verstanden. Dagegen hat Alexa neun Prozent des Wortschatzes immer falsch interpretiert. Die Forschungsarbeit bezieht sich jedoch nur auf die englische Sprache, daher sind die von den Wissenschaftlern ermittelten Werte nur mit Einschränkungen auf die deutsche Sprache übertragbar. Die grundlegenden Prinzipien dürften allerdings identisch sein.

So geraten sowohl Menschen als auch maschinelle Sprachassistenten wie Alexa ins Schleudern, wenn es um homophone (gleichklingende) Wörter geht. Im Englischen seien hier zum Beispiel „sale“ und „sail“ genannt. Deutsche Pendants wären zum Beispiel „Mein“ und „Main“. Auch Wortpaare, die phonetisch große Ähnlichkeit haben, sind hier betroffen: im Englischen wären dies zum Beispiel „Fax“ und „Facts“.

Wie wahrscheinlich ist ein solcher Angriff?

Die Wahrscheinlichkeit einer Fehlinterpretation variiert jedoch mit der Herkunft des Sprechers und sogar mit dessen Geschlecht. Ein Skill-Squatting, das in Hamburg funktioniert, hat unter Umständen keine Chance auf Erfolg in München, Leipzig oder Wien. Dort wiederum funktionieren vielleicht andere. Oder, wenn man im Englischen bleiben möchte, bestehen große Unterschiede in den Aussprachen bestimmter Wörter zum Beispiel in London, Edinburgh und Leeds. Es wäre schwierig, ein „Universal“-Skill-Squat zu finden, der in allen deutschsprachigen Gebieten gleichermaßen funktioniert, aber definitiv nicht unmöglich: denkbare Kandidaten wären hier Wortpaare wie „Alle“ und „Anne“.

Bereits heute gibt es unterschiedliche Alexa-Skills, die zwar unterschiedliche Funktionen haben, aber durch sehr ähnliche Worte ausgelöst werden – das „Facts/Fax“-Beispiel von oben ist ein solcher Skill, der auch im Forschungsbericht explizit genannt wird. In Versuchen ist es sogar gelungen, einen Phishing-Angriff mittels Skill Squatting durchzuführen – allerdings ist unklar, ob dies auch außerhalb der Versuchsanordnung tatsächlich funktioniert.

Insgesamt muss man jedoch realistisch bleiben: Es handelt sich hier um eine Machbarkeitsstudie, in der ein möglicher Angriffsweg aufgezeigt wurde. Ob und inwieweit dieser auch von Kriminellen genutzt wird, hängt nicht zuletzt auch von wirtschaftlichen Faktoren ab. Da Internetkriminalität ein weltweites Geschäft ist, für das Ländergrenzen keine Rolle spielen, sind Kriminelle auf Angriffe bedacht, mit denen man möglichst viele potenzielle Opfer erreicht. Somit würden sich die kriminellen Akteure zunächst auf Sprachen mit vielen Sprechern konzentrieren.

Derzeit können Englisch, Chinesisch, Spanisch und Französisch insgesamt über drei Milliarden Sprecher weltweit auf sich vereinen. Dagegen wird Deutsch nur von höchstens etwa 130 Millionen Menschen auf der Welt gesprochen. Die höchste Wahrscheinlichkeit für erste Testläufe besteht im englischsprachigen Raum. Wenn sich das Modell als lukrativ herausstellt, wird es auch auf andere Länder übertragen werden, genau wie seinerzeit beim Phishing.

Mehr auf Sicherheit.info

Es ist bei all dem wichtig zu wissen, dass alle Angriffe, die der Forschungsbericht beschreibt, in einer isolierten Testumgebung stattfanden. Einerseits sollten so die übrigen Dienste von Amazon nicht über Gebühr strapaziert werden, zum anderen wollten die Forscher das Risiko ausschließen, dass ein unbeteiligter Nutzer versehentlich Aktionen zu seinem Nachteil auslöst, die die Versuchsergebnisse verzerren könnten.

Mögliche Gegenmaßnahmen

Auch die Forscher, die die Experimente durchgeführt haben, mussten sich früher oder später die Frage stellen, wie Amazon gegen diese Art der Manipulation vorgehen könnte. Eine der Möglichkeiten bestünde in einer zusätzlichen Prüfung auf phonetische Ähnlichkeiten mit bestehenden Skills. Insgesamt handelt es sich bei diesem Forschungsbericht über eine Grundlage, basierend auf der ein praktikabler Angriff entwickelt werden könnte. Die Autoren unterstreichen jedoch explizit die Tatsache, dass deren Versuche keine Aussagekraft über die Anwendbarkeit in einem praktischen Szenario besitzen. Wie viele andere Angriffsmöglichkeiten ist diese bisher noch rein akademisch. Noch.

Tim Berghoff, Security Evangelist, G DATA Software AG

Kontakt- und Firmen-Infos im Branchenverzeichnis