Kritische Infrastrukturen, die unsere Zivilisation stützen, werden immer komplexer. Sie überspannen Domänen, an deren Einbindung man früher nie dachte, und sehen sich neuen Gefahren ausgesetzt: Von volatilen Märkten, einem hohen Anteil dargebotsabhängiger Energieträger bis hin zu Cyber-Angriffen. Adversarial Resilience Learning ist eine neue Methodik der künstlichen Intelligenz zur Analyse und dem resilienten Betrieb komplexer, kritischer cyber-physischer Systeme.
Cyber-physische Systeme sind in den vergangenen Jahrzehnten einer Transformation unterworfen worden, die ihresgleichen sucht. Vor allem an unseren Energienetzen zeigt sich dies deutlich: Getrieben vom notwendigen Ausbau der Erneuerbaren Energien konfrontiert diese digitale Transformation hin zum Smart Grid nicht nur die höhere Volatilität der Energieerzeugung, sondern auch mit neuen, direkteren Marktkonzepten, Internet-of-Things-Trends und der scheinbar ubiquitären Anwendung von Algorithmen der künstlichen Intelligenz, mit denen die Effizienz unserer Energiesysteme erhöht werden soll. Dieses neue System lässt sich mit den uns bekannten Analyse- und Steuerungsmethoden jedoch nicht mehr vollständig beherrschen – wir verstehen die Verbindung zwischen Digitalisierung und kritischen Infrastrukturen längst noch nicht.
Statt künstliche Intelligenz als potenzielle Gefahr für die Stabilität unserer Stromversorgung zu betrachten, drehen wir beim Adversarial Resilience Learning (ARL) den Spieß um: Zwei Agenten, Angreifer und Verteidiger, konkurrieren über die Kontrolle eines cyber-physischen Systems. Sie haben keine explizite Kenntnis von den Handlungen der Gegenseite, doch durch die Beobachtung der Effekte exploriert der Angreifer das System und deckt Schwachstellen auf, während der Verteidiger durch die Angriffe lernt, eine resiliente Betriebsführung zu gewährleisten. Durch das gegenseitige Lernen helfen die ARL-Agenten Konstrukteuren und Entscheidern, Schwachstellen im System und Schlupflöcher in Marktregularien zu finden, und Bedienmannschaften, auch in komplexer, schnell veränderlicher Informationslage das Netz zuverlässig zu führen.
Dabei Entwickelt ARL im Kern eine neue Methodik im Bereich der künstlichen Intelligenz: Die Agenten mit ihren nichtkongruenten, gegebenenfalls sogar diametralen Zielen zwingen sich fortwährend zur Adaption. Die Unkenntnis darüber, ob ein Effekt Teil der Umgebung oder die Handlung eines anderen Agenten ist, führt zu einem System of Systems Reinforcement Learning. Die ARL-Agenten lernen damit robuster und effizienter, als die klassische Reinforcement-Learning-Agenten könnten.
Das Konzept ARL umspannt sowohl die methodische Forschung im Bereich der künstlichen Intelligenz, als auch angewandte Forschung bei der Analyse und dem sicheren Betrieb komplexer cyber-phyischer Systeme.
Moderne Ansätze im Reinforcement Learning haben gezeigt, dass das Selbst-Spiel – also das Spiel unterschiedlicher Instanzen eines Agenten gegeneinander – effektiv genutzt werden kann, um auch komplexe Umgebungen wie das Spiel Go zu meistern. ARL erweitert das Konzept, in dem es Agenten Sensoren und Aktuatoren zuweist, die keinerlei Domänenwissen transportieren, sondern lediglich die Definition eines mathematischen Raums zur Beschreibung valider Werte besitzen. Auch wissen die ARL-Agenten nichts voneinander, wodurch die Gegenspieler effektive Strategien entwickeln, um ihr Ziel in einer stark veränderlichen, partiell wahrnehmbaren Umgebung zu erreichen.
Darüber hinaus erlaubt das ARL-Konzept und die ARL-Referenzimplementierung, verschiedene Algorithmen des Reinforcement Learning gegeneinander antreten zu lassen, also beispielsweise den Effekt von A3C gegen A2C oder DDQN zu evaluieren. Die ARL-Referenzimplementierung wird damit auch zu einem Benchmark-System für intelligente Betriebsführung kritischer Infrastrukturen.
Evolutionäre Algorithmen entwickeln sich zu einer ernstzunehmenden Alternative zu den klassischen Verfahren des Gradientenabstiegs und zeigen Stärken insbesondere im Bereich des Reinforcement Learning. Inbesondere ARL profitiert mit seinem Anwendungsbereich von evolutionären Algorithmen, die weniger Probleme mit nichtkonvexen Optimierungsproblemen haben und die Kombination mit neuroevolutionären Algorithmen erlauben.
Üblicherweise sind bei Anwendungen des Deep Learning – und Deep Reinforcement Learning ist eine davon – die Gestalt des künstlichen neuronalen Netzes vom Entwickler vorgegeben. Doch das Konzept der ARL-Methodik erwartet volle Adaptivität: Da Systeme exploriert und kontrolliert werden sollen, die selbst dem Experimentator teilweise unbekannt sind, kann dieser keine Vorgabe über die Informationskapazität des künstlichen neuronalen Netzes im Herzen der Agenten gemacht werden. Ansätze der Neuroevolution, bei denen Architektur und Parameter des Netzes vom Algorithmus entwickelt werden, haben sich bei Standard-Benchmarks bereits als ebenbürtig und teilweise sogar überlegen gezeigt.
Ziel der ARL-Methodik ist, Agenten zu befähigen, über konkrete Modelle hinaus zu sinnvollen Handlungen in der Lage zu sein. Dabei soll kein neues Training oder Transferlernen erfolgen: ARL strebt danach, Methoden zur Approximation von Algorithmen zu entwickeln. Eine solche Möglichkeit besteht im Transfer des Neural Turing Machines-Konzept in die Domäne komplexer CPS. Der Differentiable Neural Computer, ein Vertreter der Neural Turing Machines, hat das Potenzial dazu bereits bewiesen.
Jede Anwendung der künstlichen Intelligenz muss, sofern sie in kritischen Infrastrukturen und CPS, von deren Wohlverhalten Menschenleben abhängen, eingesetzt werden, hohen Standards entsprechen. Im Umkehrschluss bedeutet dies, dass die Handlungen eines Agenten nachvollziehbar und damit ansatzweise verifizierbar werden. Im Bereich des Reinforcement Learning, das am ehesten der Idee der volladaptiven ARL-Agenten nahe kommt, existiert hier bisher eine große Forschungslücke.
Surrogat-Modelle werden eingesetzt, wenn die Benutzung echter Simulationsmodelle Zeit- oder anderweitig Ressourcenintensiv ist. Sie stellen Approximationen des Originalmodells dar, die leichtgewichtig, aber trotzdem für den Einsatzzweck genau genug sind. Für Ihre Erzeugung muss das Originalmodell erst analysiert – abgetastet – werden. Diese Abtastung muss möglichst effizient einen großen Informationsgehalt für das Surrogatmodell aufbauen. Ein effizientes Sampling insbesondere in den „Randbereichen“ des Modellzustandsraums wird durch das Training der ARL-Agenten automatisch ausgeführt.
ARL ist nicht nur ein Treiber methodischer Forschung in der künstlichen Intelligenz, sondern auch findet seine Anwendung in Analyse, Betrieb und Aufbau von Infrastrukturen. So lässt sich mit ARL die Erweiterung von Energienetzen strategisch planen: Ein evolutionärer Algorithmus kann Netzausbauszenarien und die Einbringung eines wesentlich höheren Anteils von erneuerbaren Energien vorschlagen, während die ARL-Agenten als komplexe Fitnessfunktion das neue Szenario bewerten.
ARL zeigt in seiner Anwendung seine Stärken vor allem bei der Exploration, Analyse und dem Betrieb komplexer cyber-physischer Systeme. Das Forschungsprojekt PYRATE beispielsweise entwickelt ein intelligentes, lernendes System zur Analyse von CPS. Dabei kommt ein System von Softwareagenten zum Einsatz, das sich nur anhand einer Beschreibung der vorhandenen Sensoren und Aktuatoren vollautomatisch an das CPS adaptiert, das in der Untersuchung durch einen sogenannten digitalen Zwilling repräsentiert wird. Die PYRATE-Softwaretechnologie entwickelt dabei eigenständig ein Modell des Systems; aus dieser Fähigkeit zur Adaption anhand der Schnittstellen rührt auch der Name der vielgestaltigen – polymorphen – Agenten. Diese Agenten koordinieren sich, um eine Schwachstelle zu finden, bei der die Teildomänen des Gesamtsystems zwar innerhalb nominaler Parameter arbeiten, das Gesamtsystem im Zusammenwirken der Domänen durch emergente Effekte aber destabilisiert wird.
Insbesondere sogenannte Angreifer, also Marktakteure, die „Schlupflöcher“ in Regularien nutzen, sind Ziel der Analysestrategie. PYRATE ermöglicht Experten, diese Schlupflöcher zu schließen, die bei traditioneller Betrachtung eines CPS nicht aufgefallen wären. Den Angreifern werden zudem KI-Verteidiger entgegengestellt, die das System betriebssicher halten sollen. Sie erlenen ihre Strategie zur Aufrechterhaltung der Betriebssicherheit direkt von den Angreifern.
Die im Wettstreit miteinander trainierenden ARL-Agenten sind in der Lage, einen Menschen bei der Bewältigung komplexer Situationen zu unterstützen. Statt das cyber-physische System selbst zu bedienen, unterstützt der Agent gewissermaßen als Verteidiger die kognitive Leistungsfähigkeit eines Menschen in einer Leitwarte. Gerade in modernen Energiesystemen werden Operatoren schon bei kleineren Zwischenfällen von einer Unmenge an Systemmeldungen regelrecht überflutet. Um die Lage zu beherrschen, Informationen zu aggregieren und gewichten, trainieren die ARL-Agenten gegeneinander. So können sie am Ende sogar die Benutzerschnittstelle dynamisch, sowohl der Lage als auch den Präferenzen des Benutzers gemäß, umkonfigurieren, um die optimale Lagedarstellung zu erreichen und das menschliche Urteilsvermögen zu unterstützen.
Im weiteren Sinne hofft ARL, ein Baustein bei der Entwicklung hin zur allgemeinen künstlichen Intelligenz zu sein. Die Trainingsmethodik kann einen Beitrag zu besserer Generalisierung in Reinforcement Learning-ähnlichen Szenarien sein, während die neuroevlutionäre Adaptivität der Agenten ein Lernen „von null an“ erlaubt. Die Erweiterung der Algorithmusapproximation kann letztlich eine Abstraktion ermöglichen: Artificial General Intelligence ist ein hohes, noch unerreichbares Ziel, doch auf dem Weg dorthin mag ARL ein veritabler Baustein sein.