Der Kryptowährungsmarkt ist bekannt für seine hohe Volatilität und die Herausforderung, schnelle und präzise Handelsentscheidungen zu treffen. In den letzten Jahren hat sich der automatisierte Handel als eine effektive Methode etabliert, um von den Schwankungen der digitalen Währungen zu profitieren. Dabei verlässt man sich zunehmend auf fortschrittliche Technologien wie Deep Reinforcement Learning (Deep RL), um Handelsentscheidungen nicht nur zu automatisieren, sondern auch intelligent und adaptiv zu gestalten. Automatisierter Handel basiert traditionell auf fest programmierten Regeln, die definieren, wann ein Kauf oder Verkauf stattfinden soll. Diese Regeln sind oft starr und können sich nicht an plötzliche Marktveränderungen oder neue Trends anpassen.
Anders gestaltet sich die Herangehensweise beim Deep Reinforcement Learning, bei dem ein Agent durch Trial-and-Error lernt, die besten Entscheidungen zu treffen. Die zugrundeliegende Methode ist inspiriert von der Art und Weise, wie Menschen aus Erfahrungen lernen, dabei aber in der Lage, riesige Datenmengen und komplexe Muster in Echtzeit zu verarbeiten. In der Anwendung auf den Kryptowährungsmarkt wird der Deep RL-Agent trainiert, um eine Handelsstrategie zu entwickeln, die den Gewinn maximiert. Die Belohnungsfunktion, die der Agent optimiert, basiert dabei auf dem sogenannten Profit and Loss (PnL), sprich dem finanziellen Ergebnis seiner Trades. Dadurch lernt der Agent, nicht einfach willkürliche Aktionen auszuführen, sondern Entscheidungen zu treffen, die den langfristigen Erfolg sichern.
Der Deep RL-Algorithmus, der in diesem Umfeld oft zum Einsatz kommt, ist das Double Dueling Deep Q Learning (DD-DQN) mit Prioritized Experience Replay. Diese Technologie ermöglicht es, Q- und V-Funktionen durch ein neuronales Netzwerk zu approximieren. Q-Funktionen geben dabei die erwartete Belohnung für eine bestimmte Aktion in einem bestimmten Zustand an, während V-Funktionen die Wertschätzung eines Zustannes selber repräsentieren. Durch die Trennung und Kombination beider Funktionen sowie das Nachpriorisieren von wichtigen Erfahrungen wird die Effizienz des Lernens erheblich gesteigert. Die Aktionen des Deep RL-Agenten gehen über das bloße Kaufen und Verkaufen hinaus.
Der Agent hat die Möglichkeit, zwischen fünf Optionen zu wählen: Kaufen einer von vier Kryptowährungen - ADA, BTC, ETH oder LTC - oder das Halten von US-Dollar. Dabei ist das System so konstruiert, dass wenn der Agent eine Kryptowährung auswählt, die er noch nicht besitzt, er zuerst sein gesamtes aktuelles Portfolio verkauft und dann die gewählte Währung in maximaler Menge erwirbt. Wählt der Agent eine Währung, die er bereits im Portfolio hat, wird diese Position gehalten. Die Entscheidungen erfolgen dabei in festen Zeitintervallen, genauer gesagt, in einstündigen Abständen. Um den aktuellen Zustand des Marktes und des Portfolios zu erfassen, werden Exogenous-Daten wie die täglichen Hoch-, Tief- und Schlusskurse jeder Kryptowährung für die vergangenen 24 Stunden verwendet.
Diese Zeitreihen werden mit zusätzlichen Informationen ergänzt: Ein sogenannter One-Hot-Vektor zeigt an, welche Währung aktuell im Portfolio gehalten wird. So verfügt der Agent über einen umfassenden Überblick über den Marktverlauf und seine eigenen Bestände, um darauf aufbauend die optimale Handelsaktion zu bestimmen. Ein wichtiger Baustein im Deep RL ist das neuronale Netzwerk, das für das Lernen und die Modellierung der Q- und V-Werte verantwortlich ist. Verschiedene Architekturen wurden ausprobiert, unter anderem Multilayer Perceptrons, 1D-Convolutional Neural Networks, Recurrent Neural Networks und Transformer-Modelle. Am besten schnitten dabei Long Short-Term Memory Netzwerke (LSTMs) ab, da sie besonders gut mit Zeitreihendaten umgehen können und sich an längerfristige Abhängigkeiten erinnern.
Mit LSTM lassen sich Trends und Muster in den Marktdaten effektiver erkennen, was sich unmittelbar auf die Qualität der Handelsentscheidungen auswirkt. Die einzelnen Zeitreihen der verschiedenen Kryptowährungen werden über eigene Encoder in embeddings umgewandelt und anschließend zusammen mit dem One-Hot-Portfolio-Vektor zu einem finalen, umfassenden Zustandsembedding zusammengefügt. Dieses dient als Eingabe für ein abschließendes Multilayer Perceptron, das die Q- und V-Werte berechnet. So entsteht ein auf den Markt und das Portfolio individuell abgestimmtes Modell, das die Grundlage für datengetriebenes Trading bildet. Die Evaluierung einer solchen Handelsstrategie ist entscheidend, um ihre Praxistauglichkeit zu überprüfen.
Dafür wird der Agent nach jedem Trainingsdurchlauf anhand von 1000 Zeitsteuerungsschritten getestet. Dabei wird nicht nur die Performance ohne Transaktionsgebühren betrachtet, sondern auch ein realistisches Szenario mit einer üblichen Handelsgebühr von 0,1 Prozent abgebildet. Interessanterweise zeigte sich, dass das Training ohne Gebühren und die abschließende Bewertung mit Gebühr die besten Ergebnisse bezüglich der Profitabilität lieferten. Ein bewährter Maßstab zur Gegenüberstellung von Handelsstrategien ist die Buy-and-Hold-Methode, bei der ein Händler einfach eine Währung kaufen und über den Beobachtungszeitraum halten würde. Der Deep RL-Agent konnte im Vergleich zu dieser simplen Strategie eine durchschnittliche Verbesserung von etwa 30 Prozent in 50 wiederholten Evaluationsdurchläufen erzielen.
Die statistische Signifikanz dieser Ergebnisse wurde mit Hilfe eines T-Tests bestätigt, wobei ein p-Wert von 0,000006 eindeutig zeigt, dass der Agent Buy and Hold deutlich übertrifft. Diese bemerkenswerten Ergebnisse verdeutlichen das Potenzial von Deep Reinforcement Learning im Bereich des automatisierten Kryptowährungshandels. Die Fähigkeit, aus Erfahrungen zu lernen und komplexe Marktdynamiken zu erfassen, lässt traditionelle feste Regeln hinter sich und ebnet den Weg für intelligente, adaptive Handelsstrategien. Neben der reinen Leistung ist ein weiterer Vorteil, dass solche Agenten leicht auf weitere Währungen oder sogar unterschiedliche Marktsegmente angepasst werden können. Die Modularität der Netzwerkarchitektur erlaubt es, zusätzliche Datenquellen einzubauen oder andere Zeitintervalle zu berücksichtigen.
Dies ermöglicht eine Skalierung in verschiedenste Handelsumgebungen. Es gilt jedoch zu beachten, dass der Kryptowährungsmarkt weiterhin sehr volatil bleibt und durch externe Ereignisse stark beeinflusst wird. Kein Modell kann vollständig vor allen Risiken schützen, und daher ist eine Kombination aus automatisierten Agenten und menschlicher Überwachung oft ratsam. Dennoch verbessert Deep RL die Chance, Marktbewegungen frühzeitig zu erkennen und profitabel zu handeln. Die Zukunft des Finanzhandels wird zunehmend von Künstlicher Intelligenz geprägt sein, vor allem durch Technologien wie Deep Reinforcement Learning.