Direkt zum Inhalt

Tiefbau statt Flachdach

Durch hochauflösende Videotechnik hat die Datenmenge in Sicherheitsprojekten innerhalb kürzester Zeit dramatisch zugenommen. Effiziente Erfassung, Analyse und intelligente Anwendung der Daten werden daher immer kritischer. Die videobasierte Intelligenz zu erhöhen, sollte deshalb ein branchenweites Ziel sein. Deep Learning kann dabei helfen.

Die Inspiration für das Deep Learning entspringt den neuronalen Netzwerken.menschlichen Gehirns.
Die Inspiration für das Deep Learning entspringt den neuronalen Netzwerken.menschlichen Gehirns.

In Sicherheits- anwendungen wird eine enorme Masse an Rohdaten aus vielen unterschiedlichen Schichten generiert und verarbeitet – und in Smart-City-Projekten die Zahl der Überwachungsgeräte reicht manchmal in die Hunderttausende. Traditionelle Videoanalyse-Algorithmen erweisen sich hier schnell als unzureichend.

Klassische Unzulänglichkeiten

Herkömmliche Video-Algorithmen stellen spezielle Anforderungen an die Szenerie, und dennoch schwankt die Genauigkeit der Erkennung in vergleichbaren Anwendungen oft deutlich. Das liegt auch daran, dass traditionelle Algorithmen einige Schwächen aufweisen. In einem Prozess wie der Gesichtserkennung werden zwei Schritte benötigt: erstens werden die Merkmale extrahiert und zweitens ein klassifizierendes Lernen ausgeführt. Das Maß an Genauigkeit im ersten Schritt bestimmt direkt die Genauigkeit des gesamten Algorithmus. So wird auch der Großteil der Rechenleistung von diesem Teil verbraucht. Die Merkmale in klassischen Algorithmen werden von Menschen definiert und sind daher stark subjektiv. Abstraktere Merkmale, die Menschen nur schwer beschreiben können, fehlen meist. Durch geänderte Blickwinkel oder Lichtsituationen kann es bei enormer Sample-Größe schwer werden, viele Merkmale zu detektieren. Die Algorithmen funktionieren also nur in sehr spezifischen Umgebungen zuverlässig. Der zweite Schritt, das Classification Learning. Umfasst hauptsächlich die Erkennung von Zielen und Eigenschaften. Mit der Zahl der verfügbaren Kategorien steigt der Schwierigkeitsgrad. So erweisen sich klassische Videoanalysen als sehr genau bei der Fahrzeugerkennung, aber als eher ungenau bei der Erkennung von Menschen oder Objekten. Bei der Fahrzeug-Detektion muss nur zwischen Fahrzeug und Nicht-Fahrzeug unterschieden werden, während die Gesichter von Menschen einzigartig sind und wegen der resultierenden hohen Zahl an Kategorien sehr schwer zu detektieren sind. Die herkömmlichen Algorithmen nutzen eher flache Lernmodelle, um Situationen mit großen Datenmengen und komplexen Klassifizierungen zu bewältigen. Die Ergebnisse sind entsprechend bei weitem nicht optimal. Außerdem wird die Intelligenz dadurch eingegrenzt, was die Notwendigkeit einer tiefer gehenden Analyse – dem Deep Learning – deutlich aufzeigt. In der Sicherheitsbranche wird durch Big Data der Bedarf künftig weiter steigen.

Vorteile von Deep Learning

Die Inspiration für das Deep Learning entspringt den neuronalen Netzwerken des menschlichen Gehirns, das selbst als ein sehr komplexes „Deep-Learning-Modell“ betrachtet werden kann. Die neuronalen Netze bestehen aus Milliarden von vernetzten Neuronen, Deep Learning simuliert diese Struktur. Die mehrschichtigen Netzwerke können Informationen sammeln und entsprechende Aktionen ausführen. Sie besitzen außerdem die Fähigkeit der Objekt-Abstraktion und Wiederherstellung. Deep Learning ist grundsätzlich anders als sonstige Algorithmen. Es überwindet die Unzulänglichkeiten der klassischen Algorithmen durch diverse Maßnahmen. Eine davon besteht in der wesentlich tieferen Struktur. Statt des üblichen dreilagigen Aufbaus anderer Algorithmen kann die Zahl der Ebenen hier auf bis über 100 ansteigen, was eine komplexe Klassifizierung großer Datenmengen ermöglicht.

Anzeige

Es ähnelt dem menschlichen Lernen und setzt auf einen ebenenweisen Merkmalabstraktionsprozess. Als Simulation des menschlichen Gehirns durchläuft das Signal im Deep Learning zunächst eine Ebene der Verarbeitung, als nächstes findet ein teilweises Verstehen statt (flach), schließlich folgt eine übergeordnete Abstraktion (tief), woraufhin man das Objekt wahrnehmen kann. Deep Learning benötigt keine manuellen Eingriffe, sondern verlässt sich auf einen Computer, um die Merkmale selbst zu extrahieren. So ist es in der Lage, so viele Merkmale wie möglich aus den Zielen zu extrahieren, inklusive abstrakter Merkmale, die schwer zu beschreiben sind. Umso mehr Merkmale verfügbar sind, desto genauer wird die Erkennung und Klassifizierung sein. Einer der unmittelbarsten Vorteile von Deep Learning liegt in einer vergleichbaren oder sogar besseren Erkennungsrate, als sie ein Mensch erzielen würde. Hinzu kommen Fähigkeiten zur Interferenzvermeidung und zur Erfassung und Klassifizierung tausender Merkmale. Es gibt drei Hauptgründe, warum Deep Learning erst in den vergangenen Jahren populär wurde und nicht früher: die Masse an Daten, Rechenleistung und Netzwerkarchitektur. Verbesserungen bei der datengetriebenen Algorithmennutzung haben das Deep Learning in vielen intelligenten Anwendungen in kurzer Zeit vorangetrieben. Mit der Zunahme der Daten hat auch die Leistung der Algorithmen zugenommen.

Video liefert Big Data

Videoüberwachungsdaten machen etwa 60 Prozent von Big Data aus, der Anteil steigt zudem um 20 Prozent jährlich. Die Geschwindigkeit und das Ausmaß dies Anstiegs begründet sich durch die immer beliebteren HD- und 4K-Auflösungen. Hikvision engagiert sich in der Sicherheitsbranche seit vielen Jahren mit seiner eigenen Forschungs- und Entwicklungsabteilung, was für eine große Menge an echten Video- und Bilddaten sorgt, die zu Test- und Entwicklungszwecken verwendet werden können. Dank der Masse an hochqualitativen Daten und einem über 100 Mitarbeiter starken Team, das die Videobilder benennt, können Testdaten aus Millionen von Kategorien angehäuft werden. Die resultierenden Erkennungsmodelle für Menschen, Fahrzeuge und Objekte werden dank dieser Daten für die Anwendung in der Videoüberwachung immer präziser.

Anwendungen in Produkten

In den letzten beiden Jahren hat die Deep- Learning-Technologie bei Spracherkennung, Computer-Sehen, Stimmübersetzung und in vielen weiteren Anwendungen neue Maßstäbe gesetzt. Sie hat sogar die menschliche Leistung beim Abgleich von Gesichtern und bei der Bildklassifizierung übertroffen. So ist sie auch für die Videoüberwachung höchst interessant. Beim Einsatz intelligenter Videotechnik für die Zieldetektion, -verfolgung und -erkennunung spielt der Aufstieg des Deep Learning eine große Rolle. Mittels dieser drei Funktionen berührt Deep Learning potenziell beinahe jeden Bereich der Videoüberwachungsbranche: Gesichtserkennung, Fahrzeug- und Fahrzeugart-/Fahrzeugmarkenerkennung, Fußgängerdetektion, Erkennung abnormalen Verhaltens, multiples Target-Tracking und vieles mehr. Diese intelligenten Funktionen benötigen eine Reihe von Überwachungskameras sowie geeignete Back-End-Produkte und Server, die Deep-Learning-Algorithmen unterstützen. In kleineren Anwendungen können die Kameras selbst eine direkte Extraktion von menschlichen oder fahrzeugbezogenen Merkmalen vornehmen. Zehntausende Gesichtsbilder lassen sich in den Front-End- Geräten speichern, um einen unmittelbaren Abgleich vorzunehmen. Das reduziert die Kosten für die Kommunikation mit dem Server. In großen Anwendungen arbeiten die Kameras mit den Servern zusammen. Die strukturierten Videoaufgaben werden dabei am Front-End von den Kameras übernommen, was die Belastung für die Server senkt und so ihre Effizienz erhöht.

Direkt implementiert

Schon bald wird Hikvision eine ganze Reihe von Produkten mit Deep-Learning-Technologie vorstellen, darunter die Deepinview- Kameraserie, die Menschen, Fahrzeuge und Objekte samt Merkmalen und Verhalten präzise detektieren, erkennen und analysieren kann. Andere erwähnenswerte Produkte entstammen der Hikvision Deepinmind- NVR-Serie, die fortschrittliche Deep- Learning-Algorithmen beinhalten und das menschliche Denken und Erinnern imitieren. Die Deepinmind-Produkte besitzen einen NVR+GPU-Modus, der die Vorzüge eines traditionellen NVRs erhält und zusätzlich strukturierte Videoanalyse-Funktionen zur Verfügung stellt. Deep Learning ist die nächste Stufe in der Entwicklung der Kkünstlichen Intelligenz. Es geht über das Maschinenlernen hinaus, bei dem eine überwachte Klassifizierung von Merkmalen in Algorithmen verpackt wird. Stattdessen setzt es auf das Prinzip des Selbstlernens. Hikvision entwickelt dieses Konzept in Form seiner eigenen Analyse-Algorithmen weiter. Verbesserte Genauigkeit ist das Ergebnis des mehrschichtigen Lernens und der ausgiebigen Datensammlung. Die Anwendung dieser Algorithmen in der Sicherheitstechnik bringt einen enormen Gewinn an Analyseleistung.

Waynne Meek, Content Editor Hikvision Europe

Passend zu diesem Artikel