Fachartikel aus PROTECTOR Special Videoüberwachung 2018, S. 48 bis 51

Videoanalyse An der Schwelle zum Übermensch?

Das US-Militär nutzt sie bereits, russische und chinesische Städte ebenso. Künstliche Intelligenz (KI) ist in der Videoüberwachung angekommen. Die Technik könnte schon bald den Markt völlig auf den Kopf stellen. Doch etliche Hindernisse müssen noch überwunden werden. Zwei Verfahren wetteifern miteinander. Beide wollen die Entscheidungsprozesse im menschlichen Gehirn simulieren.

Bild:  Pixabay
(Bild: Pixabay)

Kollege Computer ermüdet nicht, verlangt keine Zuschläge für Überstunden und beschwert sich nicht über monotone Arbeitsaufgaben. Ideale Bedingungen für die Überwachung und Analyse von Videobildern. Wer jemals aus etlichen Stunden Videomaterial ein Ereignis herausfiltern musste, wünschte sich schon bald solch einen Assistenten. In einer Zeit, in der Autos ohne menschliche Eingriffe durch die Straßenschluchten amerikanischer Großstädte kutschieren, sollte doch auch dies technisch möglich sein. Denn gesteuert werden Tesla und seine Konkurrenten durch Künstliche Intelligenz.

Rekonstruktion des menschlichen Gehirns

Noch bietet kein Hersteller computerbasierte Videoanalyse mit „menschlichen“ Fähigkeiten an. Computer können Bewegungen und Farben erkennen, auch kann man ihnen einfache Regeln beibringen, komplexere Zusammenhänge bleiben ihnen aber noch verborgen. Erst recht können sie aus den eigenen Fehlern nicht selbstständig lernen. Doch eine völlig neue Generation von Computersystemen verspricht genau dies: einen Computer mit „menschlichen“ Eigenschaften. Die neue Technik soll zudem wenig Raum und Leistung beanspruchen. Man könnte sie also bequem in jedes Bedienpult einbauen, eventuell sogar in die Kamera oder unmittelbar in ihrer Nähe. Wichtig für Systeme, die an weit entfernten Orten über Datenleitungen mit der Zentrale verbunden sind.

Die neuen Rechner nutzen Künstliche Intelligenz, die von so genannten „Neuronalen Netzen“ zur Verfügung gestellt wird. Die Ingenieure haben hier versucht, die Vorgänge in einem menschlichen Gehirn mehr oder weniger perfekt nachzubauen. Die neuen Rechner wurden einzig zu dem Zweck konzipiert, „intelligent“ zu sein, also Entscheidungen zu treffen und anhand von Erfahrungen zu lernen. Sie nennen sich „neuromorphe“ Computer und unterscheiden sich erheblich von allen klassischen Computern, vor allem vom PC, der heute auf fast jedem Schreibtisch steht. Nicht nur viele Entscheider, auch die meisten Ingenieure haben mit dieser Art von Computern keine Erfahrung. Für sie besitzen Rechner stets eine Von-Neumann-Architektur und sind darauf optimiert, Tabellen zu kalkulieren, Schriftsätze wieder zu finden oder komplexe mathematische Aufgaben zu erledigen. Für diese Aufgaben wurden neuromorphe Computer nicht entwickelt. Sie befinden sich nach einigen Monaten des Betriebs auch nicht mehr im selben Zustand wie zu Beginn der Arbeit. Ähnlich wie ein neu eingestellter Mitarbeiter haben sie sich in ihre Aufgaben „eingearbeitet“. Bei jedem Vorgang verändert sich das Neuronale Netz, es entstehen neue Verknüpfungen, oder bestehende werden verstärkt. Nur wenige Techniker haben sich bis jetzt auf diese Besonderheiten eingestellt und nur wenige Firmen stellen Hilfsmittel und Tools zur Verfügung. Die meisten neuromorphen Chips sind Gegenstand der Grundlagenforschung und werden im jetzigen Zustand das Labor nicht verlassen. Nur IBM hat mit „True North“ bereits die zweite Generation dieser neuronalen Prozessoren vorgestellt und mit der Vermarktung begonnen.

Ein Chip analysiert Bilder von 100 Kameras

IBM ist mächtig stolz auf die Fortschritte. Noch 2011 musste man sich bei der ersten Generation eines neuromorphen Chips mit 256 Neuronen und 262.144 Synapsen begnügen. True North als zweite Generation verfügt über 5,4 Milliarden Transistoren und 4.096 Rechenkerne. Jeder Kern stellt 256 Silizium-Neuronen zur Verfügung, was zusammen mehr als eine Million ergibt. Die Neuronen werden durch 256 Millionen programmierbare Synapsen verbunden. Der Verbrauch liegt bei einem Zehntel Watt. Das US-Militär hat als erster potenzieller Kunde sein Interesse angemeldet. Erste Tests 2017 seien „vielversprechend“ verlaufen, hieß es. Die US- Luftwaffe möchte den Chip in der Bilderkennung einsetzen. Ein einziger Chip kann die Bilder von 100 Überwachungskameras simultan und in Echtzeit auswerten.

Der Energiebedarf bleibt mit einigen Hundert Milliwatt bescheiden. Damit punktet True North gegen seine schärfsten Konkurrenten, die Grafikkarten. Seit 2006 wurden die Hersteller von Grafikprozessoren (englisch: graphics processing unit – GPU) zu den Technologieführern der Künstlichen Intelligenz. Mathematiker fanden nämlich heraus, dass ihre hoch spezialisierten Prozessoren auch vorzüglich geeignet sind, neuronale Netze zu simulieren. Wer heute ein autonom fahrendes Auto verwendet, nutzt mit höchster Wahrscheinlichkeit diese Technik. Tesla Motors und der Grafikprozessorspezialist Nvidia arbeiten daher bereits seit der frühen Phase des Modell S zusammen. Für die Ingenieure bieten Grafikkarten eine Reihe von Vorzügen. Diese werden von der Industrie ständig weiterentwickelt und in großen Stückzahlen zu marktüblichen Preisen angeboten. Tools und Hilfsmittel sind in großer Zahl vorhanden, denn die Grafikchips arbeiten intern mit der seit Jahrzehnten vertrauten Computerarchitektur. Gefürchtet ist allerdings ihr Stromhunger. Das Modul Drive PX 2 von Nvidia aus dem Jahr 2016 wertet bis zu zwölf Kameras, Lidar-Scanner, Radar sowie Ultraschallsensoren aus, benötigt aber bis zu 250 Watt und Wasserkühlung. Auch für ein Auto kein Pappenstiel.

Lösung von Datenschutzproblemen

True North verbraucht nur einen Bruchteil der Energie, fand die US-Luftwaffe bei einem Test heraus. Neuromorphe Chips sind aber bis heute Sonderkonstruktionen, die in kleinen Stückzahlen gefertigt werden. Zu groß sind noch die Berührungsängste der Techniker. Sollte sich das ändern, empfehlen sich neuromorphe Chips für mobile Anwendungen und Sprachassistenzsysteme wie Alexa und Siri. Diese könnten in Zukunft nicht mehr die Hilfe der Cloud benötigen und ausschließlich auf lokalen Assistenten operieren. Dies würde viele Datenschutzprobleme lösen und gleichzeitig Stückzahlen bringen, denn diese benötigt die Industrie, um die Chips zu marktfähigen Preisen anbieten zu können. Für die Videoüberwachung eröffnet dies die Chance, in Zukunft Videosysteme mit eigener Intelligenz auszurüsten. Die betreffende Kamera beziehungsweise das Kameracluster melden sich nur dann in der zen tralen Leitstelle, wenn sie etwas Verdächtiges wahrgenommen haben. Ein Mensch, der sich einem Sicherheitszaun nähert, um seine Notdurft zu verrichten, ist ein Ärgernis, aber keine Gefahrenquelle. Ein Mensch mit einem Bolzenschneider aber schon. Uhrzeit, Verhaltensmuster und mögliche Ziele fließen in die Beurteilung der Lage mit ein. Eine Bierflasche ist harmlos, ein Molotowcocktail nicht. „Ab der Einsatzreife dauert es in der Regel noch zehn Jahre, bis eine neue Technik zur Videoüberwachung in den Betrieben ankommt“, erläutert der deutsche Sicherheitsexperte Rainer von zur Mühlen. „Alleine die Klärung von Patent- und Lizenzfragen erfordert viel Zeit.“ Die Industrie hält sich bedeckt. Auf Nachfrage von PROTECTOR & WIK wollte kein Hersteller einen konkreten Zeithorizont benennen.

Riesige Datenmengen erforderlich

Die Frage ist zudem, welche der aktuell verwendeten KI-Techniken bereits Einsatzreife erreicht hat. Neuromorphe Computer sicher nicht. Dass KI mit Grafikkarten funktioniert, beweisen die autonom fahrenden Autos von Tesla, die seit 2016 auf amerikanischen Straßen unterwegs sind. An einer praxistauglichen Adaption auf den Bereich der Videoüberwachung wird noch gearbeitet. Alles, was die Industrie bis jetzt vorgestellt hat, hat noch nicht viel mit echten menschlichen Erkenntnisprozessen zu tun. Erste Erfolge weisen aber den Weg. Zwischen 2009 und 2012 gewannen die neuronale Netzwerke der Forschungsgruppe von Jürgen Schmidtbauer am Schweizer Labor für Künstliche Intelligenz IDSIA eine Serie von acht internationalen Wettbewerben in den Bereichen Mustererkennung und Bilderkennung.

Mehr auf Sicherheit.info

Im Jahr 2012 errang ein neuronales Netz der Universität Toronto dem Image-Net-Wettbewerb für die automatische Bilderkennung den ersten Preis. Von großer Bedeutung sind möglichst große Datenbasen, wie sie heute etwa Youtube zur Verfügung stellen kann. Anhand der zahllosen Videoaufnahmen lassen sich die Netze trainieren. Sie lernen, Tiere und Menschen zu unterscheiden, sowie Bewegungsabläufe zu analysieren. Die Firma IC Realtime etwa hat im Dezember 2017 eine Plattform namens Ella auf den Markt gebracht, die per Google Cloud funktioniert und mittels Künstlicher Intelligenz analysiert, was auf einem Video passiert. Die Firma Boulder AI baut solche Programme direkt in Kameras ein. In China und Russland analysieren KI-Systeme die Bilder von Überwachungskameras, um verdächtiges Verhalten zu detektieren. Noch sind die Kriterien verhältnismäßig einfach, etwa die typischen Gesichtsmerkmale ethnischer Minderheiten, die in der Vergangenheit Terrorakte begangen haben. Auch nach auffälliger Mimik wird gesucht. 2012 unternahmen Forscher des Google X Labors und der Stanford-Universitätein Experiment mit Prozessorkernen, die zufällig ausgewählte Youtube-Videos analysierten und bis zu 20.000 Objekte eigenständig unterscheiden konnten. Die Rechenzeit für einen Durchgang soll bis zu zehn Tage gedauert haben. Für den Masseneinsatz ist die Technik also noch kaum geeignet. Auf jeden Fall müsste die Industrie, ähnlich wie bei selbstfahrenden Autos, die neuronalen Netze in bereits trainiertem Zustand ausliefern. Wie man dies optimal tut, ist ein Streitpunkt unter den Gelehrten. Etliche Wissenschaftler vertreten die Meinung, Lernen sei gut, Lernen plus klare Gesetze sei weit besser. Schließlich muss ein Kind auch nicht jedes Körperteil in den Topf mit heißem Wasser getaucht haben, um zu verstehen, dass dies keine gute Idee ist. Es besteht also noch Forschungsbedarf. Die kommerzielle Phase der KI hat trotzdem bereits begonnen, sie zu ignorieren, wäre ein Fehler.

Bernd Schöne, freier Journalist aus München