3,6 min readPublished On: 21. Januar 2022By Tags: , , Categories: Bücher, Wissen

Weißt Du was Reinforcement Learning ist?

Hey, schau mal hier gibts noch mehr zum Thema Maschinelles Lernen.

Nachdem wir uns bereits mit den Themen maschinelles Lernen und Deep Learning beschäftigt haben, ist nun die Zeit gekommen, in ein weiteres Feld des maschinellen Lernens einzutauchen. Heute widmen wir uns dem Reinforcment Learning und stützen uns dabei auf das Buch von

Stuart Russell: Human Compatible. Künstliche Intelligenz und wie der Mensch die Kontrolle über superintelligente Maschinen behält.

Was ist Reinforcment Learning?

Reinforcement Learning wird von unserem Autor mit „verstärkendes Lernen“ übersetzt. Bei dieser Lernmethode lernt die Künstliche Intelligenz durch Belohnung. Diese Belohnung ist fiktiv und wurde vom Erbauer des Roboters bzw. dessen Programmierer festgesetzt. Bei Brettspielen ist der Sieg die Belohnung. Wenn ein Roboter aufstehen lernen soll, ist die Tatsache, dass sein Kopf weiter vom Boden weg ist, die Belohnung.

Die Herdplatte war ganz schön heiß.

Diese Art des Lernens haben sich die Entwickler von Künstlichen Intelligenzen beim Menschen abgeschaut. Auch wir lernen mit Hilfe von Belohnungen. Jedes Mal wenn wir etwas erreichen, schüttet unser Körper Dopamin aus und lässt uns einen Erfolg erleben. Jedes Kind, dass schon einmal eine heiße Herdplatte angefasst hat, wird dies nicht erneut freiwillig tun, weil der dabei empfundene Schmerz keine Belohnung sondern das Gegenteil, eine Bestrafung, war. Anders sieht es beim Schreibenlernen aus. Ein Kind, das Schreiben lernt, empfindet es als Belohnung, wenn der selbst geschriebene Buchstabe dem Vorbild gleicht. Bei jedem neuen Schreibversuch orientiert es sich an den eigenen Versuchen, die der Vorgabe am meisten entsprachen, erlebt einen Erfolg und durch diese Belohnung (u.a. auch durch das Lob von Erwachsenen) Stück für Stück das Schreiben.

Die Geschichte des Reinforcement Learnings

Erstaunlicherweise beginnt die Erfolgsgeschichte des Reinforcement Learnings zu einer Zeit, zu der die Themen Computer noch nicht sehr verbreitet waren. 1956 stellte Arthur Samuel sein Dame-Programm und damit die erste auf Reinforcement Learning basierende Software für ein Brettspiel im Fernsehen vor.

Computer spielen besser Schach als Menschen.

Als Arthur Samuels Programm Dame spielte war das eine Sensation. Auch als die auf der vorausschauende (Lookahead)Suche und dem Reinforcement Learning basierende Künstliche Intelligenz AlphaGo 2016 Lee Sedol den besten Go-Spieler der Welt schlug, waren die Menschen beeindruckt. Durch Reinforcement Learning kann AlphaGo die jeweilige Spielstellung bewerten.

Inzwischen sind Künstliche Intelligenzen, die Reinforcement Learning nutzen, fast schon normal geworden. So gibt es zum Beispiel auf Reinforcement Learning basierende Programme, die die Klickraten in Social Media optimieren, die für datenaffine Social Media Manager wahrscheinlich schon lange Alltagswerkzeuge sind.

Falls Du Lust hast, tiefer in das Thema Reinforcement Learning einzusteigen, findest Du in der folgenden Liste Künstliche Intelligenzen, die diese Technologie nutzen:

  • AlphaGo
  • Autonomes Fahren (bis jetzt hauptsächlich in der Simulation)
  • Backgammonprogramm von Gerry Tesauro
  • Dameprogramm von Arthur Samuel
  • DeepMinds
  • Delilah (Erpressungsbot)
  • DQN-System
  • Motorsteuerung bei Roboter
  • Programme die Klickraten in Sozialen Medien optimieren

Diese Liste ist nicht vollständig. Gern ergänze ich sie, sobald mir – zum Beispiel durch einen Tipp von Dir – weitere Künstliche Intelligenzen begegnen.

Fazit

Computer spielen schneller als Menschen.

Künstliche Intelligenzen haben den Vorteil, dass sie anhand von Belohnungen viel schneller lernen können als Menschen. Ein Programm kann am Tag abertausende Dame-, Schach- oder GO-Partien gegen sich selbst spielen. Dementsprechend schnell lernen Maschinen mit Hilfe von Reinforcement Learning. An dieser Stelle ist der Mensch der Maschine unterlegen, weil menschliche Schachpartien bis zu 18 Stunden und länger dauern können.

Maschinen und Programme, die auf Reinforcement Learning basieren, sind dagegen in der Art Ihrer Belohnungen begrenzt. AlphaGo erhält eine Belohnung, wenn es eine Go-Partie gewinnt, Das Programm würde nie auf die Idee kommen zu kochen, weil es für das Kochen eines leckeres Essens nicht belohnt wird. Hier ist der Mensch klar im Vorteil. Wir erleben jeden Tag unzählige unterschiedliche Belohnungen (satt sein nach dem Essen, die Freude, den letzten Bus erreicht zu haben, das Lob eines Kollegen usw.) und lernen daher viel mehr unterschiedliche Dinge als ein Programm, das allein auf Reinforcement Learning basiert.