Krypto-Startups und Risikokapital

Marin: Das Open Lab für die Entwicklung von Foundation Models – Ein neuer Weg zur offenen KI-Forschung

Krypto-Startups und Risikokapital
Marin: An Open Lab for Building Foundation Models

Marin ist ein innovatives Open Lab, das die Entwicklung von Foundation Models komplett transparent und gemeinschaftlich gestaltet. Es steht für die zukünftige offene Forschung in der KI und bietet Infrastruktur, Experimente, Modelle und Möglichkeiten, aktiv an der Verbesserung moderner KI-Systeme mitzuwirken.

Die Welt der Künstlichen Intelligenz hat in den vergangenen Jahren enorme Fortschritte gemacht. Dabei spielen sogenannte Foundation Models – große KI-Modelle, die als Basis für verschiedenste Anwendungen dienen – eine zentrale Rolle. Doch trotz zahlreicher Fortschritte ist die Open-Source-Bewegung im Bereich dieser Modelle bisher begrenzt. Marin, ein neuartiges Open Lab für den Aufbau von Foundation Models, bricht mit traditionellen Entwicklungsprozessen und ebnet den Weg zu einer offenen, kollaborativen Zukunft. Es stellt die Entwicklung von KI-Modellen auf eine transparente Grundlage und ermöglicht es Forschern und Entwicklern weltweit, gemeinsam an Innovationen zu arbeiten.

Dabei steht das Prinzip im Vordergrund, dass sämtliche Prozesse, von der Datenerhebung über die Modellarchitektur bis hin zu Training und Evaluierung, offen und nachvollziehbar gestaltet sind. Open Source und Künstliche Intelligenz – Status quo und Herausforderungen Open-Source-Software ist längst eine Erfolgsgeschichte und das Rückgrat moderner digitaler Infrastrukturen. Ihre Offenheit erlaubt es Menschen weltweit, basierend auf ihrem Können beizutragen, verändert die Art und Weise, wie Software entwickelt wird, und fördert Innovation, Sicherheit sowie gegenseitige Kontrolle. Im Bereich der KI ist die Situation jedoch noch nicht vergleichbar. Zwar existieren offene Gewichtungen bekannter Modelle wie Llama oder DeepSeek, allerdings sind die zugrundeliegenden Codes und die genutzten Datensätze häufig nicht öffentlich zugänglich.

Diese Schieflage behindert die umfassende Nachvollziehbarkeit und Weiterentwicklung von KI-Modellen, da wichtige Teile der „Rezeptur“ zum Training verborgen bleiben. In den letzten Jahren sind viele Initiativen entstanden, die sich dem Ziel verschrieben haben, neben den Modellgewichten auch den Quellcode und das dazugehörige Datenrezept offen zu legen. Organisationen und Gemeinschaften wie Eleuther AI, das Allen Institute for AI, Hugging Face, BigScience, LAION und Together AI haben hierfür bahnbrechende Arbeiten geleistet. Sie liefern nicht nur Modelle, sondern auch die vollständige Infrastruktur inklusive Datensets und Trainingsprotokollen, was es ermöglicht, auf diesen Errungenschaften aufzubauen und Innovationen in der KI voranzutreiben. Gleichzeitig offenbaren diese Schritte die Grenzen bisheriger Offenheit, denn die notwendige Infrastruktur für gemeinschaftliches Experimentieren, wie sie in der traditionellen Softwareentwicklung üblich ist, fehlt weitgehend.

Marin verfolgt einen neuen Ansatz, der Transparenz und Zusammenarbeit auf ein völlig neues Level hebt. Statt nur Ergebnisse oder Modelle zu teilen, wird jeder Entwicklungsschritt – vom Experiment bis zur Auswertung – offen dokumentiert, überprüfbar und reproduzierbar gemacht. Transparenz als Eckpfeiler des Open Labs Marin organisiert sämtliche Forschungs- und Entwicklungsarbeit in einer offenen Online-Umgebung, primär über GitHub. Jedes geplante, laufende oder abgeschlossene Experiment wird über ein GitHub-Issue dokumentiert, das gewissermaßen als Mini-Preregistration dient. Darin werden Hypothesen, Ziele, Methoden und Erfolgskriterien offen dargelegt.

Dieser Ansatz schafft eine wissenschaftlich saubere Grundlage und verhindert, dass nur positive Ergebnisse publik werden. Misserfolge und unbeabsichtigte Fehler bleiben ebenfalls transparent, was entscheidend für reproduzierbare und robuste Forschung ist. Der Prozess ist interaktiv und gemeinschaftlich. Interessierte können Experimente vorschlagen, indem sie Pull Requests (PRs) einreichen, die ihren Vorschlag in ausführbarem Code festhalten. Daraufhin können andere Forscher und Entwickler den Code prüfen, diskutieren und verbessern.

Sobald ein Experiment freigegeben ist, wird es gestartet, und der gesamte Verlauf ist in Echtzeit einsehbar. Verknüpfungen zu Tools wie Weights & Biases erlauben detaillierte Einblicke in Trainingsergebnisse und Metriken. Diese offene Infrastruktur erinnert an den OpenReview-Prozess bei wissenschaftlichen Publikationen, überträgt das Prinzip der Peer-Review jedoch direkt in die aktive Experimentierphase. So entsteht ein lebendiger Dialog, der sowohl die wissenschaftliche Qualität als auch die Anpassung an aktuelle Herausforderungen sicherstellt. Die Transparenz erlaubt tiefe Einblicke in alle Arbeitsschritte und fördert die Beteiligung unterschiedlichster Akteure – von erfahrenen Forschungsteams bis hin zu engagierten Individualentwicklern.

Forschung zwischen wissenschaftlicher Analyse und Modellentwicklung Eines der zentralen Forschungsziele bei Marin ist die Frage, wie man mit einem begrenzten Ressourcenbudget das bestmögliche Modell entwickelt. Dabei werden sowohl Rechenressourcen als auch Datenerhebung und menschliche Arbeit berücksichtigt. Diese Herausforderung wird mit einer Kombination aus kontrollierten, kleinen Experimenten und sogenannten „YOLO“-Runs (You Only Live Once) angegangen. Die kleinen, systematischen Experimente dienen dazu, einzelne Faktoren gezielt zu analysieren. Hierzu zählen Untersuchungen zu Modellarchitekturen, Optimierungsverfahren, Qualitätsklassifikatoren, Regularisierungstechniken und Datensätzen.

Dabei spielen präzise Messungen, Replikationen und Skalierungsgesetze eine wichtige Rolle, um besser zu verstehen, wie verschiedene Aspekte das Training und die Leistungsfähigkeit beeinflussen. Demgegenüber stehen größere Experimente, die direkt darauf abzielen, stärkere Modelle innerhalb der verfügbaren Mittel zu trainieren. Diese intensive Trainingsphase ist oft fehleranfällig und verlangt schnelle Anpassungen bei unerwarteten Herausforderungen. Marin hat es geschafft, solche großen Trainingsläufe transparent zu dokumentieren – etwa die Entwicklung des Marin 8B Modells. Dieses Modell basiert auf einer Llama-ähnlichen Transformer-Architektur, wurde über 12,7 Billionen Token hinweg trainiert und hat bei vielen Standard-Benchmarks überzeugt.

Insbesondere im Vergleich zu Llama 3.1 8B zeigt Marin 8B Base teils deutlich bessere Performance. Im Anschluss wurde das Modell durch Supervised Fine-Tuning (SFT) weiter verfeinert, was zu einer Instruktions-fähigen Variante führte, die in diversen Anwendungsbewertungen mit anderen offenen instruct-Modellen konkurrieren kann. Obwohl noch keine Reinforcement-Learning-Verfahren wie RLHF angewandt wurden, geben die bisherigen Resultate Anlass zur Hoffnung, dass noch weitere Optimierungen möglich sind. Offene Ressourcen für die Community Ein besonderes Merkmal von Marin ist die Möglichkeit für jedermann, sich aktiv zu beteiligen.

Modelle sind frei und der Quellcode ebenfalls offen zugänglich – etwa über Hugging Face oder spezielle Hosting-Angebote wie Together AI. Feedback und Verbesserungsvorschläge werden über GitHub oder Discord-Kanäle gesammelt, wodurch ein aktiver Diskurs und kontinuierliche Weiterentwicklung gefördert werden. Darüber hinaus existieren spezielle Angebote wie Datashop, ein Tool, das es Experten aus verschiedenen Fachgebieten ermöglicht, relevante Daten für das Training bereitzustellen oder zu kuratieren. Mit Hilfe von vortrainierten Modellen können Daten klassifiziert, gefiltert und aufbereitet werden. So lässt sich gezielt Domänenwissen einbringen, beispielsweise aus der Chemie oder Rechtsprechung, ohne dass tiefgreifende technische Infrastrukturen notwendig sind.

Die so gewonnenen Datensätze können dann für weiteres Fine-Tuning genutzt werden, um die Leistungsfähigkeit des Modells in Spezialgebieten zu steigern. Ein spannendes Format zur Förderung von Innovationen ist das Marin Speedrun-Programm. Es wird eine Art Wettbewerb organisiert, bei dem Forscher und Entwickler innerhalb bestimmter Rechenbudgets ihre Trainingsmethoden optimieren und einreichen können. So entstehen Vergleichsmaßstäbe für verschiedene Ansätze, die auch auf größeren Skalen getestet werden, um deren Übertragbarkeit zu analysieren. Dieses Format bezieht die Community aktiv ein, um algorithmische Fortschritte zu beschleunigen.

Bedeutung und Perspektiven für die KI-Forschung Marin steht für eine neue Art, KI-Modelle zu erforschen und zu entwickeln, die echtes Open-Source im ursprünglichen Sinne erlaubt. Es ist nicht nur eine Plattform, um Modelle herunterzuladen, sondern eine lebendige Forschungsumgebung, in der jeder einzelne Schritt nachvollziehbar und diskutierbar ist. Dies erhöht die wissenschaftliche Glaubwürdigkeit, fördert die Zusammenarbeit und vermeidet potenzielle Probleme durch intransparente „Black-Box“-Modelle. Die Herausforderungen sind dabei enorm, denn leistungsstarke Foundation Models benötigen erhebliche Rechenressourcen, die nicht jeder leicht zugänglich hat. Marin arbeitet aktiv mit Partnern wie Google TPU Research Cloud zusammen, um Ressourcen verfügbar zu machen, und kooperiert mit führenden KI-Teams und Organisationen, um die technische Basis ständig zu erweitern.

Die Zukunftsaussichten sind beeindruckend: Marin plant, effizientere Architekturen wie lineare Attention, Unterstützung für längere Kontexte, Multimodalität, mehrsprachige Modelle und verbesserte Domänenleistung zu erforschen. Zudem soll der Prozess durch den Einsatz von Reinforcement-Learning-basierten Post-Trainings verfeinert werden. Der offene Charakter des Projekts lädt Forscher, Praktiker und Interessierte aller Art ein, mitzuwirken und gemeinsam die nächsten großen Schritte der KI-Entwicklung zu gestalten. Dank der offenen Infrastruktur und der aktiven Community bietet Marin nicht nur eine Chance, bestehende Modelle zu verbessern, sondern auch die Art und Weise zu verändern, wie Künstliche Intelligenz erdacht und realisiert wird. Die offene Wissenschaft, angetrieben von echter Zusammenarbeit und Transparenz, könnte dadurch der Schlüssel zu nachhaltigeren und demokratischeren KI-Systemen sein, die allen zugutekommen.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Drugs currently in clinical trials will likely not be impacted by AI
Montag, 30. Juni 2025. Warum KI klinische Studien in der Medikamentenentwicklung derzeit kaum beeinflusst

Die Rolle von Künstlicher Intelligenz in der Arzneimittelentwicklung unterscheidet sich stark zwischen präklinischer Forschung und klinischen Studienphasen. Besonders bei der Bewertung von Wirkstoffen in klinischen Studien spielen viele Faktoren eine Rolle, die den Einfluss von KI begrenzen.

PowerSchool hacker pleads guilty to student data extortion scheme
Montag, 30. Juni 2025. PowerSchool Hacker gesteht Erpressungsversuch mit sensiblen Schülerdaten – Folgen und Hintergründe des massiven Cyberangriffs

Ein 19-jähriger Student aus Massachusetts hat sich schuldig bekannt, an einem umfangreichen Cyberangriff auf PowerSchool beteiligt gewesen zu sein, bei dem persönliche Daten von Millionen Schülern und Lehrkräften erbeutet und zur Erpressung genutzt wurden. Dieser Fall zeigt die wachsende Bedrohung durch Cyberkriminalität im Bildungssektor und wirft Fragen zur Datensicherheit auf.

Maintainers share their stories for Maintainer Month
Montag, 30. Juni 2025. Die Welt der Open-Source-Maintainer: Geschichten, Herausforderungen und der Einfluss auf die digitale Zukunft

Einblicke in die Arbeit und Motivation von Open-Source-Maintainern, ihre bedeutenden Beiträge zur Softwareentwicklung und wie sie die offene Technikgemeinschaft prägen und stärken.

Desktop Icons of Yore
Montag, 30. Juni 2025. Die faszinierende Geschichte der Desktop-Icons: Ein Blick zurück auf die digitalen Retro-Klassiker

Ein ausführlicher Einblick in die Entwicklung und Bedeutung von Desktop-Icons, von den frühen monochromen Symbolen bis zu den farbenfrohen, interaktiven Designs der 90er Jahre und ihre Relevanz in der heutigen digitalen Welt.

Verizon is sharing customers email addresses
Montag, 30. Juni 2025. Verizon und der Datenschutz: Werden Kundene-Mail-Adressen geteilt?

Ein umfassender Blick auf die Bedenken rund um den Datenschutz bei Verizon und wie die Weitergabe von Kunden-E-Mail-Adressen die Privatsphäre beeinflusst. Erfahren Sie, welche Hintergründe es gibt, wie Verbraucher betroffen sein können und welche Maßnahmen für besseren Schutz notwendig sind.

JPMorgan, With $3 Trillion in Assets, Lets Clients Buy Bitcoin Near $105,300 Without Custody Service
Montag, 30. Juni 2025. JPMorgan ermöglicht Bitcoin-Kauf ohne Verwahrdienst bei beeindruckenden 3 Billionen Dollar Vermögen

JPMorgan, eine der führenden globalen Banken mit einem Vermögenswert von 3 Billionen Dollar, eröffnet seinen Kunden den Zugang zum Bitcoin-Kauf in einer innovativen Weise ohne traditionellen Verwahrdienst. Diese Entwicklung markiert einen bedeutenden Wandel im Umgang mit Kryptowährungen im konservativen Finanzsektor.

I'm building a venture studio and launching a marketplace for AI creators
Montag, 30. Juni 2025. Ojunu: Die Zukunft der KI-Kreativität und der Marktplatz für AI-Künstler im Aufschwung

Entdecken Sie, wie Ojunu als innovativer Marktplatz für KI-Künstler und AI-Creators revolutionär gestaltet ist. Ein umfassender Einblick in die Möglichkeiten, exklusive Vorteile für frühe Nutzer und das starke Community-Engagement, das kreative Potenziale von Künstlicher Intelligenz entfesselt.