hennig.ai v2.6.4 - Fortgeschrittene | マインドモ・マインドマップ

Die Navigationskarte für generative künstliche Intelligenz
2.6.4

Generative KI (auf Englisch Generative Artifical Intelligence, kurz GenAI) ist ein Teilbereich der Künstlichen Intelligenz, der darauf spezialisiert ist, neue Inhalte wie Texte, Bilder, Musik oder Code zu erschaffen, indem er aus großen Datenmengen lernt und daraus eigenständig neue, ähnliche Muster generiert. Während der Oberbegriff Künstliche Intelligenz alle Systeme umfasst, die menschenähnliche Intelligenzleistungen erbringen können - wie etwa Sprache verstehen, logische Schlüsse ziehen oder Muster erkennen - konzentriert sich generative KI speziell auf den kreativen Aspekt der Inhaltserstellung.

Enterprise-Governance-Disziplinen

Eine Enterprise-Governance-Disziplin ist ein strukturierter Ansatz zur Festlegung von Richtlinien, Prozessen und Verantwortlichkeiten, der eine verantwortungsvolle, effiziente und konforme Steuerung bestimmter Unternehmensbereiche sicherstellt. Sie kombiniert Fachwissen, Methoden, Prinzipien und Kontrollmechanismen, um klare Leitlinien für Entscheidungsfindung, Risikomanagement und Rechenschaftspflicht zu schaffen. Im Kontext von KI erweisen sich drei zentrale Governance-Disziplinen als besonders relevant: IT-Governance, Data-Governance und AI-Governance. Diese drei Disziplinen bilden ein komplementäres Rahmenwerk, das die verschiedenen Aspekte der KI-Entwicklung und -Nutzung abdeckt. Ihre Stärke liegt in der gegenseitigen Ergänzung, wobei bestimmte Themenbereiche an den Schnittstellen liegen und somit von mehreren Disziplinen gleichzeitig adressiert werden.

AI-Governance

AI-Governance bezieht sich auf den Rahmen von Regeln, Praktiken und Prozessen zur Steuerung, Kontrolle und Überwachung von KI-Systemen in Organisationen. Dabei umfasst AI-Governance folgende Schlüsselelemente: 1. Richtlinien und Standards für die Entwicklung, den Einsatz und die Nutzung von KI-Systemen 2. Verantwortlichkeiten und Rechenschaftspflichten bei KI-bezogenen Entscheidungen 3. Risikomanagement für KI-Anwendungen 4. Ethische Leitlinien für KI-Nutzung 5. Compliance mit gesetzlichen Vorschriften und Branchenstandards 6. Datenschutz- und Sicherheitsmaßnahmen 7. Transparenz und Erklärbarkeit von KI-Entscheidungen 8. Richtlinien und Vorgaben für das Lifecycle-Management von KI-Systemen AI-Governance ist ein wichtiger Bestandteil moderner Unternehmensführung geworden, da KI-Systeme zunehmend geschäftskritische Entscheidungen beeinflussen oder übernehmen.

Data-Governance

Bei Data-Governance handelt es sich um einen strukturierten Ansatz zur Verwaltung, Organisation und Überwachung von Daten in einer Organisation. Data-Governance umfasst: - Festlegung von Richtlinien, Standards und Prozessen für den Umgang mit Daten - Definition von Verantwortlichkeiten und Rollen (wie Data Owner, Data Steward) - Sicherstellung von Datenqualität, -sicherheit und Compliance - Management des Datenlebenszyklus - Etablierung von Entscheidungsstrukturen für datenrelevante Fragen Data-Governance ist ein zentrales Konzept im modernen Datenmanagement und wird von Organisationen wie DAMA (Data Management Association) in ihrem DMBOK (Data Management Body of Knowledge) sowie von Forschern und Praktikern in zahlreichen Fachpublikationen definiert und beschrieben.

IT-Governance

IT-Governance bezeichnet den Rahmen an Regeln, Prozessen, Verantwortlichkeiten und Strukturen, die festlegen, wie Informationstechnologie in einer Organisation gesteuert, kontrolliert und überwacht wird. Es ist ein formaler Ansatz zur Sicherstellung, dass IT-Investitionen den Geschäftszielen entsprechen und Risiken angemessen gemanagt werden. Zu den Kernaspekten von IT-Governance gehören: - Strategische Ausrichtung: Sicherstellung, dass IT-Strategien mit den Unternehmenszielen übereinstimmen - Wertschöpfung: Maximierung des geschäftlichen Nutzens von IT-Investitionen - Risikomanagement: Identifikation und Kontrolle IT-bezogener Risiken - Ressourcenmanagement: Optimierung der IT-Ressourcennutzung - Leistungsmessung: Überwachung und Bewertung der IT-Performance Es gibt mehrere anerkannte Frameworks für IT-Governance, darunter COBIT (Control Objectives for Information and Related Technologies), ITIL (Information Technology Infrastructure Library) und ISO/IEC 38500, die internationale Norm für IT-Governance.

Standards und Leitlinien

Anbei eine Liste der wichtigsten Standards und Standardisierungsinitiativen im AI-Bereich. Viele dieser Standards sind noch in Entwicklung, da sich das Feld schnell weiterentwickelt und neue Herausforderungen entstehen.

Content of Authenticity Initiative

Die Content Authenticity Initiative (CAI) ist eine im November 2019 von Adobe, der New York Times und Twitter gegründete Vereinigung. Ziel der CAI ist die Förderung eines Industriestandards, der sichere Aussagen über die Herkunft digitaler Inhalte ermöglicht. Dieser Standard basiert auf kryptographischen Methoden und Metadaten, die Informationen über die Erstellung, Bearbeitung und Identität von Dateien enthalten. Durch die Implementierung dieser Technologien soll die Verbreitung von Desinformation eingedämmt und das Vertrauen in digitale Medien gestärkt werden.

Übergreifend

OECD AI Principles

Die OECD AI Principles, 2019 von den OECD-Mitgliedsländern verabschiedet, sind die ersten international vereinbarten Richtlinien für die ethische Entwicklung und Nutzung von KI-Systemen. Sie definieren Kernprinzipien wie die Förderung von inklusivem Wachstum, Respekt für menschliche Werte, Transparenz, Sicherheit und klare Verantwortlichkeiten. Obwohl nicht rechtlich bindend, haben diese Prinzipien erheblichen Einfluss auf nationale KI-Strategien, Regulierungsansätze und internationale Zusammenarbeit und dienten als Grundlage für weitere KI-Rahmenwerke.

ISO/IEC JTC 1/SC 42
(Artificial Intelligence)

ISO/IEC JTC 1/SC 42 (Artificial Intelligence) ist das zentrale internationale Standardisierungskomitee für KI innerhalb der ISO/IEC-Organisation. Es entwickelt und koordiniert Standards für alle Aspekte von KI-Systemen. Die wichtigsten Arbeitsbereiche umfassen: - Grundlegende Standards und Begriffsdefinitionen - KI-Management und Governance - Vertrauenswürdigkeit und Zuverlässigkeit - KI-Sicherheit und Robustheit - Technische Standards für KI-Systeme - Standards für Big Data - Qualitätsanforderungen für KI Das Komitee bringt internationale Experten zusammen und arbeitet an der fortlaufenden Entwicklung und Aktualisierung von Standards, um mit der schnellen Entwicklung der KI-Technologie Schritt zu halten. Diese Standards dienen als wichtige Grundlage für die internationale Zusammenarbeit und Qualitätssicherung im KI-Bereich.

Sicherheitsstandards

Secure AI Framework (SAIF)

Das Secure AI Framework (SAIF) von Google ist ein konzeptioneller Rahmen, der darauf abzielt, Sicherheitsrisiken im gesamten Lebenszyklus von KI-Systemen zu identifizieren und zu mindern. SAIF besteht aus sechs zentralen Elementen: 1. Erweiterung starker Sicherheitsgrundlagen auf das KI-Ökosystem: Nutzung bewährter Sicherheitspraktiken zur Absicherung von KI-Systemen. 2. Implementierung von Sicherheitskontrollen für KI: Anwendung spezifischer Sicherheitsmaßnahmen, die auf die einzigartigen Herausforderungen von KI zugeschnitten sind. 3. Schutz der KI-Modelle und Daten: Sicherstellung der Integrität und Vertraulichkeit von Trainingsdaten und Modellen. 4. Sicherstellung der Transparenz und Nachvollziehbarkeit: Förderung von Erklärbarkeit und Verantwortlichkeit in KI-Systemen. 5. Förderung einer Sicherheitskultur in der KI-Entwicklung: Integration von Sicherheitsüberlegungen in alle Phasen der KI-Entwicklung. 6. Zusammenarbeit und Wissensaustausch: Förderung der Zusammenarbeit zwischen verschiedenen Akteuren, um Sicherheitsbedrohungen effektiv zu begegnen. SAIF dient als Leitfaden für Organisationen, um KI-Systeme sicher und verantwortungsvoll zu entwickeln und einzusetzen.

ISO/IEC Standards für KI-Sicherheit

ISO/IEC Standards für KI-Sicherheit sind international anerkannte Normen, die von der International Organization for Standardization (ISO) und der International Electrotechnical Commission (IEC) gemeinsam entwickelt werden. Die wichtigsten Standards befassen sich mit: Grundlegende Aspekte: - Begriffsdefinitionen und Terminologie - Risikomanagement für KI-Systeme - Qualitätsanforderungen und Bewertungskriterien - Sicherheits- und Robustheitskriterien Der bekannteste Standard ist ISO/IEC 42001 für KI-Managementsysteme, der Organisationen einen Rahmen für die verantwortungsvolle Entwicklung und den Einsatz von KI-Systemen bietet, ähnlich wie ISO 9001 für Qualitätsmanagement. Diese Standards sind besonders wichtig für: - Internationale Zusammenarbeit - Zertifizierungen von KI-Systemen - Erfüllung regulatorischer Anforderungen - Qualitätssicherung in der KI-Entwicklung Die Standards werden kontinuierlich weiterentwickelt, um mit der schnellen Entwicklung der KI-Technologie Schritt zu halten.

NIST AI Risk Management
Framework

Das NIST AI Risk Management Framework (AI RMF) ist ein vom National Institute of Standards and Technology entwickelter Leitfaden für das Management von KI-Risiken. Es bietet Organisationen einen strukturierten Ansatz zur Bewertung und Minimierung von Risiken bei der Entwicklung und dem Einsatz von KI-Systemen. Das Framework basiert auf vier Hauptfunktionen: 1. Govern (Steuern): Entwicklung von Richtlinien und Prozessen für KI-Risikomanagement 2. Map (Kartieren): Identifikation und Analyse von KI-Risiken 3. Measure (Messen): Bewertung und Priorisierung von Risiken 4. Manage (Managen): Implementierung von Maßnahmen zur Risikominimierung Das NIST AI RMF ist freiwillig und technologieneutral, wird aber zunehmend als Standard-Referenz für KI-Risikomanagement angesehen, besonders in den USA. Es hilft Organisationen dabei, KI-Systeme verantwortungsvoll und sicher zu entwickeln und einzusetzen.

Ethische Richtlinien

Constitutional AI

Constitutional AI beschreibt einen Ansatz in der Entwicklung von KI-Systemen, bei dem bestimmte Verhaltensweisen, ethische Grundsätze und Beschränkungen direkt in das Training des KI-Models eingebaut werden. Diese "Verfassung" des KI-Systems wird während des Trainingsprozesses implementiert, um sicherzustellen, dass das Model bestimmte Grenzen nicht überschreitet und sich an vorgegebene ethische Richtlinien hält. Das Konzept wurde maßgeblich von Anthropic entwickelt und zielt darauf ab, KI-Systeme von Grund auf sicherer und zuverlässiger zu machen, anstatt Beschränkungen erst nachträglich einzuführen. Dieser Ansatz unterscheidet sich von herkömmlichen Methoden dadurch, dass die gewünschten Verhaltensweisen nicht durch nachträgliches Feintuning oder Filtern erreicht werden, sondern fundamentaler Bestandteil des Trainings sind.

Ethics Guidelines for Trustworthy AI
der Europäischen Kommission

Die Ethics Guidelines for Trustworthy AI der Europäischen Kommission sind ein 2019 veröffentlichter Leitfaden, der Prinzipien für vertrauenswürdige KI in Europa definiert. Die Richtlinien basieren auf dem Grundsatz, dass KI vertrauenswürdig sein muss, um ihr volles Potenzial zu entfalten. Diese Richtlinien bilden eine wichtige Grundlage für den späteren AI Act der EU.

UNESCO AI Ethics Guidelines

Die UNESCO AI Ethics Guidelines (offiziell: "Recommendation on the Ethics of Artificial Intelligence") ist das erste globale Regelwerk für KI-Ethik, das 2021 von den 193 UNESCO-Mitgliedstaaten verabschiedet wurde. Diese Richtlinien bieten einen ethischen Rahmen für die Entwicklung und Nutzung von KI, mit Fokus auf folgende Kernprinzipien: - Schutz der Menschenrechte - Förderung von Vielfalt und Inklusion - Umweltschutz und nachhaltige Entwicklung - Transparenz und Verantwortlichkeit - Datenschutz und Privatsphäre Die Richtlinien sind nicht rechtlich bindend, dienen aber als wichtige globale Orientierung für Regierungen, Unternehmen und Entwickler. Sie betonen besonders die Bedeutung von KI für nachhaltige Entwicklung und die Notwendigkeit, den Zugang zu KI-Technologien gerecht zu gestalten.

Partnership on AI’s Fairness,
Transparency, and Accountability
Standards

Die "Partnership on AI" (PAI) ist eine 2016 gegründete Non-Profit-Organisation, die von großen Technologieunternehmen wie Amazon, Apple, Google, Meta, Microsoft und anderen zusammen mit Akademikern, Forschern und zivilgesellschaftlichen Organisationen ins Leben gerufen wurde. Die Standards für Fairness, Transparenz und Verantwortlichkeit wurden entwickelt, um: - Fairness in KI-Systemen zu fördern - Transparenz bei KI-Entscheidungen zu erhöhen - Klare Verantwortlichkeiten zu etablieren Die PAI arbeitet dabei als Multi-Stakeholder-Initiative, die verschiedene Perspektiven einbezieht und praktische Richtlinien für die ethische Entwicklung und den Einsatz von KI entwickelt. Die Standards sollen dabei helfen, KI-Systeme vertrauenswürdig und im Einklang mit gesellschaftlichen Werten zu gestalten.

IEEE Ethically Aligned Design

IEEE Ethically Aligned Design ist eine Initiative des IEEE (Institute of Electrical and Electronics Engineers), der weltweit größten technischen Berufsorganisation. Der IEEE startete diese Initiative, um ethische Richtlinien und Standards für die Entwicklung von KI und autonomen Systemen zu schaffen. Das Besondere an diesem Ansatz ist, dass er von Technologieexperten ausgeht, aber ethische Prinzipien direkt in den Designprozess integriert - daher der Name "Ethically Aligned Design". Die Initiative bringt Experten aus verschiedenen Bereichen zusammen: - Ingenieure - Ethiker - Rechtswissenschaftler - Sozialwissenschaftler - Politiker Ziel ist es, praktische Richtlinien zu entwickeln, die ethische Überlegungen von Anfang an in die Entwicklung von KI-Systemen einbeziehen, statt sie erst nachträglich zu berücksichtigen.

Recht und Regulatorik

Recht umfasst verbindliche gesetzliche Regelungen, die von staatlichen oder supranationalen Institutionen erlassen und von Gerichten durchgesetzt werden, beispielsweise im Strafrecht, Zivilrecht oder Datenschutzrecht. Regulatorik hingegen bezeichnet spezifische Vorschriften und Maßnahmen, die von Aufsichtsbehörden oder Regulierungsstellen entwickelt werden, um gesetzliche Rahmenbedingungen praxisnah und branchenspezifisch umzusetzen, etwa in der Finanz- oder Technologieregulierung. Während Recht eine statische Grundordnung vorgibt, ermöglicht Regulatorik eine flexible Anpassung an wirtschaftliche und technologische Entwicklungen.

Berechtigtes Interesse (LI)

Berechtigtes Interesse im KI-Kontext erlaubt die Verarbeitung personenbezogener Daten ohne Einwilligung, wenn die Interessen des Verarbeiters die Rechte der betroffenen Personen nicht überwiegen und eine sorgfältige Abwägungsprüfung durchgeführt wurde. Bei KI-Anwendungen ist diese Rechtsgrundlage besonders relevant für Trainingsdaten, Modellverbesserungen und Fehleranalysen, wobei die Komplexität der Verarbeitung, mögliche Diskriminierungsrisiken und der potenzielle Umfang betroffener Personen besondere Beachtung erfordern. Verantwortliche müssen wirksame Schutzmaßnahmen implementieren, darunter Anonymisierung, Pseudonymisierung, Datensparsamkeit und transparente Informationen über die KI-Verarbeitung, um ein angemessenes Gleichgewicht zwischen Innovation und Grundrechtsschutz zu gewährleisten. "Berechtigtes Interesse" ist zwar besonders stark im europäischen Datenschutzrecht (DSGVO) verankert, existiert aber auch in verschiedenen Formen in internationalen Datenschutzgesetzen. In ähnlicher Form findet sich das Konzept im britischen UK GDPR, im brasilianischen LGPD, im südkoreanischen PIPA und in Teilen des kalifornischen CCPA/CPRA, wenn auch teilweise unter anderen Bezeichnungen oder mit unterschiedlichen Anforderungen. Viele andere Länder haben bei der Entwicklung ihrer Datenschutzgesetze das europäische Modell als Inspiration genutzt und ähnliche Konzepte implementiert, die eine Interessenabwägung zwischen Verarbeitungsinteressen und Betroffenenrechten vorsehen.

IT-Recht und -Regulatorik

KI-Systeme unterliegen als spezielle Form von IT-Systemen allen regulatorischen Anforderungen, die für klassische IT-Systeme gelten, weshalb neben KI-spezifischen Regelungen wie dem AI Act auch die grundlegenden IT-Sicherheitsstandards berücksichtigt werden müssen. Dies zeigt sich beispielsweise bei KRITIS, wo KI-Systeme in kritischen Infrastrukturen die strengen Anforderungen des IT-Sicherheitsgesetzes 2.0 erfüllen müssen, oder bei der NIS2-Richtlinie, die über die klassischen KRITIS-Bereiche hinausgeht und zusätzliche Cybersicherheits-Anforderungen definiert. Ein weiteres Beispiel ist die NORA (Normenkontrollrat-Architektur) als IT-Architekturrahmen der öffentlichen Verwaltung, die spezifische Anforderungen für den Einsatz von IT- und KI-Systemen im öffentlichen Sektor festlegt. Diese und weitere regulatorische Vorgaben bilden einen komplexen Anforderungsrahmen, der bei der Entwicklung und dem Betrieb von KI-Systemen berücksichtigt werden muss.

EU-Produkthaftungsrichtlinie 2024/2853

Die EU-Produkthaftungsrichtlinie 2024/2853 erweitert den Geltungsbereich der Produkthaftung auf digitale Produkte, einschließlich KI-Systeme, und schafft damit erstmals einen umfassenden rechtlichen Rahmen für den Verbraucherschutz im Bereich moderner Technologien. Sie führt zu einer Verschärfung der Haftung für Hersteller und andere Wirtschaftsakteure, wobei auch Importeure, EU-Vertreter, Fulfillment-Dienstleister und Online-Plattformen haftbar gemacht werden können. Für KI-Systeme bedeutet dies eine erhöhte Verantwortung der Entwickler und Anbieter, die Sicherheit und Zuverlässigkeit ihrer Produkte zu gewährleisten, was neue Herausforderungen bei der Entwicklung, dem Einsatz und der fortlaufenden Wartung von KI-Technologien mit sich bringt.

Der EU AI Act

Der EU AI Act ist das erste umfassende KI-Gesetz weltweit, das KI-Systeme basierend auf ihrem Risikopotenzial in verschiedene Kategorien einteilt - von verbotenen Praktiken über Hochrisiko-Systeme bis hin zu Anwendungen mit geringem Risiko. Für Hochrisiko-Systeme werden strenge Anforderungen an Qualität, Transparenz, Dokumentation und menschliche Aufsicht gestellt, während andere KI-Systeme leichtere Auflagen erfüllen müssen. Die Durchsetzung erfolgt durch nationale Behörden mit europäischer Koordinierung, wobei Verstöße mit erheblichen Strafen geahndet werden können.

Die Datenschutz-Grundverordnung (DSGVO)

Die Datenschutz-Grundverordnung (DSGVO) ist das zentrale EU-Gesetz zum Schutz personenbezogener Daten, das 2018 in Kraft trat und einheitliche Regeln für die Verarbeitung von persönlichen Daten in der EU festlegt. Sie gibt Unternehmen und Organisationen klare Vorgaben für den Umgang mit personenbezogenen Daten und stärkt die Rechte der Betroffenen durch Prinzipien wie Datensparsamkeit, Zweckbindung, Einwilligungspflicht und das "Recht auf Vergessenwerden". Die DSGVO ist auch für KI-Systeme relevant, da sie strenge Anforderungen an die Verarbeitung personenbezogener Daten stellt und hohe Strafen bei Verstößen vorsieht.

Der Gesetzesentwurf SB 1047

Der kalifornische Gesetzentwurf SB 1047, bekannt als "Safe and Secure Innovation for Frontier Artificial Intelligence Models Act", zielte darauf ab, die Entwicklung und den Einsatz fortschrittlicher KI-Modelle zu regulieren, um potenzielle Risiken zu minimieren. Er sah vor, dass Entwickler vor dem Training eines solchen Modells verschiedene Sicherheitsmaßnahmen implementieren, darunter die Fähigkeit, das Modell bei Bedarf vollständig abzuschalten, sowie die Erstellung eines schriftlichen Sicherheits- und Sicherheitsprotokolls. Zudem sollten Whistleblower geschützt und ein öffentliches Cloud-Computing-Cluster namens CalCompute eingerichtet werden, um Forschung und Innovation im Bereich der KI zu fördern. Obwohl der Gesetzentwurf sowohl im kalifornischen Senat als auch in der Assembly verabschiedet wurde, wurde er am 29. September 2024 von Gouverneur Gavin Newsom mit der Begründung abgelehnt, dass er zu eng gefasst sei und die Innovation behindern könnte. Den Gesetzestext und den aktuellen Stand dazu findet man hier: [https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047](https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047)

Urheberrecht und
geistiges Eigentum

Klage gegen Anthropic wegen
Urheberrechtsverletzung

Im August 2024 reichten die Autoren Andrea Bartz, Charles Graeber und Kirk Wallace Johnson eine Sammelklage gegen das KI-Unternehmen Anthropic ein. Sie werfen Anthropic vor, urheberrechtlich geschützte Bücher ohne Genehmigung verwendet zu haben, um ihre KI-Modelle, insbesondere den Chatbot Claude, zu trainieren. Konkret wird behauptet, dass Anthropic den Datensatz "The Pile" nutzte, der unter anderem "Books3" enthält – eine Sammlung von fast 200.000 Büchern, die aus raubkopierten Quellen stammen. Die Kläger argumentieren, dass Anthropic durch die unlizenzierte Nutzung dieser Werke gegen das Urheberrecht verstößt und die kreativen Leistungen der Autoren ausbeutet.

"Fair Use"-Prinzip

Das Fair Use-Prinzip ist ein Rechtskonzept im US-amerikanischen Urheberrecht, das die begrenzte Nutzung urheberrechtlich geschützter Werke ohne Erlaubnis des Rechteinhabers erlaubt, wenn bestimmte Bedingungen erfüllt sind. Es wird abgewogen, ob die Nutzung unter anderem für Zwecke wie Kritik, Bildung, Forschung oder Berichterstattung erfolgt und ob sie den Marktwert des Originals beeinträchtigt. Um Fair Use zu bestimmen, werden vier Hauptfaktoren herangezogen: der Zweck und die Art der Nutzung, die Art des geschützten Werks, der Umfang der Nutzung im Verhältnis zum Gesamtwerk und die Auswirkung der Nutzung auf den wirtschaftlichen Wert des Originals.

Probleme und Herausforderungen bei der
Erstellung und Nutzung von KI-Modellen

AI-Slop

AI-Slop bezeichnet massenhaft produzierte, qualitativ minderwertige Inhalte, die von künstlicher Intelligenz erstellt wurden. Der Begriff etablierte sich ab 2023, als text- und bildgenerierende KI-Systeme wie ChatGPT, Midjourney und Stable Diffusion öffentlich verfügbar wurden und ihre Nutzung explosionsartig zunahm. Seither hat sich das Phänomen kontinuierlich verstärkt und stellt eine zunehmende Herausforderung für die Qualität digitaler Inhalte dar.

Diese KI-generierten Inhalte zeichnen sich durch geringe Originalität, fehlerhafte Informationen oder fehlenden Mehrwert aus. Sie werden oft automatisiert in großen Mengen erstellt, um Webseiten zu füllen, Suchmaschinen zu manipulieren oder Werbeeinnahmen zu generieren. Der Begriff lehnt sich an "Slop" für minderwertige Essensreste an und beschreibt die Überflutung des Internets mit generischen KI-Texten und -Bildern.

Typische Beispiele sind maschinell erstellte Artikel mit oberflächlichen Informationen, KI-generierte Bilder mit erkennbaren Fehlern wie unnatürlichen Händen oder verzerrten Gesichtszügen, sowie automatisierte Social-Media-Beiträge ohne inhaltliche Substanz. Besonders problematisch sind gefälschte Produktrezensionen, KI-generierte Nachrichtenseiten und massenhaft produzierte E-Books, die Amazon und andere Plattformen seit 2023 überfluten.

Erkennbar wird AI-Slop häufig an repetitiven Formulierungen, unnatürlichem Sprachfluss und sogenannten Halluzinationen – erfundenen Fakten, die KI-Systeme als vermeintliche Wahrheiten präsentieren. Bei Bildern fallen häufig anatomische Fehler, unmögliche Perspektiven oder inkonsistente Details auf.

Das Phänomen stellt erhebliche Herausforderungen für Suchmaschinen, Content-Plattformen und Nutzer dar, die nach qualitativ hochwertigen Informationen suchen. Google hat 2024 mehrere Updates eingeführt, um gegen minderwertigen KI-Content vorzugehen. Plattformen wie Stack Overflow und Reddit haben Richtlinien gegen unverifizierte KI-Inhalte implementiert. Parallel entwickeln Unternehmen Detektionssysteme und Wasserzeichen-Technologien, um KI-generierte Inhalte kennzeichnen zu können.

Die Diskussion um AI-Slop betrifft grundlegende Fragen der Content-Qualität, der Authentizität und der Verantwortung bei der Nutzung generativer KI-Systeme. Schätzungen gehen davon aus, dass bereits Milliarden von Webseiten teilweise oder vollständig aus KI-generierten Inhalten bestehen. Dies nährt Befürchtungen einer "toten Internet-Theorie" – der Vorstellung, dass menschliche Inhalte zunehmend von maschinell erzeugten Texten und Bildern verdrängt werden.

"Needle in a haystack"

Das "Needle in a Haystack"-Phänomen beschreibt eine fundamentale Herausforderung bei Large Language Models, bei der wichtige Informationen in sehr langen Kontexten übersehen oder nicht korrekt verarbeitet werden. Wenn ein LLM mit einem extrem langen Text konfrontiert wird, in dem eine kleine, aber entscheidende Information versteckt ist, fällt es dem Modell oft schwer, diese spezifische Information zu identifizieren und in seiner Antwort zu berücksichtigen.

Dieses Problem tritt besonders häufig auf, wenn die relevante Information in der Mitte eines sehr langen Dokuments platziert ist. LLMs zeigen eine charakteristische U-förmige Aufmerksamkeitsverzerrung, bei der sie Informationen am Anfang und Ende eines Textes deutlich besser gewichten als solche in der Mitte - unabhängig von deren tatsächlicher Relevanz. Dieses Phänomen wird auch als "Lost in the Middle" bezeichnet.

Die Schwierigkeit entsteht durch die Art, wie Aufmerksamkeitsmechanismen in Transformern funktionieren. Bei sehr langen Sequenzen verlieren diese Mechanismen an Effizienz, da die Berechnungszeit quadratisch mit der Kontextfenstergröße ansteigt. Wichtige Details können dadurch "übersehen" werden, obwohl das Modell die Information durchaus in seinen versteckten Repräsentationen kodiert - es gelingt ihm nur nicht, diese in kohärente und präzise Antworten zu übersetzen.

Forscher nutzen spezielle Benchmark-Tests, um diese Fähigkeit verschiedener Modelle zu messen. Der bekannteste Test wurde 2023 von Greg Kamradt entwickelt: Dabei wird gezielt eine wichtige Information in einem langen, ansonsten irrelevanten Text versteckt - etwa eine spezifische Aussage über San Francisco in Paul Graham Essays. Das Modell muss dann diese "Nadel im Heuhaufen" finden und korrekt wiedergeben.

Inzwischen existieren erweiterte Versionen dieses Tests, darunter Multi-Needle-Evaluationen, die mehrere versteckte Informationen gleichzeitig testen, und multimodale Varianten für Bild- und Videoinhalte.

Die Verbesserung dieser Fähigkeit ist entscheidend für praktische Anwendungen wie Dokumentenanalyse, Rechtsrecherche oder Retrieval-Augmented Generation, wo LLMs präzise Informationen aus umfangreichen Textsammlungen extrahieren müssen. Aktuelle Forschungsansätze umfassen Kalibrierungsmechanismen zur Korrektur der Positionsverzerrung und externe Speicher-Architekturen, die das Problem auf grundlegender Ebene angehen.

Modell Degradation

Im Kontext von Large Language Models bezeichnet Model Degradation die allmähliche Verschlechterung der Leistung und Qualität über Zeit oder bei bestimmten Anwendungsfällen. Diese Verschlechterung kann sich als subtile Verschiebung der Modellausgaben manifestieren, wodurch das Modell langsam von seinem anfänglichen Verhalten abweicht und unvorhersehbarer wird. In extremeren Fällen kann sich die Leistung auch drastisch verschlechtern, wobei das Modell eintönige, repetitive oder bedeutungslose Antworten generiert und seine ursprünglichen Fähigkeiten effektiv verliert. Ursachen für diese Probleme können Training auf veralteten Daten, fehlerhafte Fine-Tuning-Prozesse oder die zunehmende Diskrepanz zwischen Trainings- und Anwendungsszenarien sein.

Model Collapse

Model Collapse beschreibt einen degenerativen Prozess bei Large Language Models, der durch rekursives Training auf KI-generierten Daten (sei es vom Modell selbst oder von ähnlichen Modellen) entsteht. Dieser Prozess führt zu einer progressiven Qualitäts- und Diversitätsabnahme der Modellausgaben, wobei sich Fehler und Verzerrungen über Generationen hinweg akkumulieren. Das Phänomen äußert sich durch zunehmend repetitive, vereinfachte und realitätsferne Ausgaben, da das Modell allmählich den Bezug zu natürlichen Sprachverteilungen verliert und besonders seltene Muster ("Tail-Verlust") vergisst. In frühen Stadien (Early Model Collapse) gehen zunächst Randdaten verloren, während spätere Stadien (Late Model Collapse) durch stark verzerrte Outputs gekennzeichnet sind. Auch Optimierungstechniken können zum Model Collapse beitragen, wenn sie zu stark auf bestimmte Ausgabestile oder -muster fokussieren. Die fortschreitende Degeneration beeinträchtigt schließlich die Fähigkeit der Modelle, vielfältige, informative und kreative Inhalte zu generieren, was langfristig die Nützlichkeit und Zuverlässigkeit generativer KI gefährden kann.

Model Autophagy Disorder (MAD)

Model Autophagy Disorder beschreibt ein Phänomen, bei dem KI-Sprachmodelle sich selbst "verschlingen" oder degenerieren. Der Ausdruck "Autophagie" stammt dabei aus der Biologie und bezeichnet einen Prozess, bei dem Zellen ihre eigenen Bestandteile abbauen. Übertragen auf KI-Modelle beschreibt Model Autophagy Disorder einen selbstverstärkenden Degenerationsprozess: Ein Sprachmodell, das auf seinen eigenen Ausgaben oder denen ähnlicher Modelle trainiert wird, kann beginnen, bestimmte Muster oder Einschränkungen zu verstärken und zu überbetonen. Anstatt die Vielfalt und Qualität der ursprünglichen Trainingsdaten zu erhalten, "verdaut" das Modell zunehmend seine eigenen Limitierungen und Verzerrungen. Es kannibalisiert sich quasi selber. Dieser Prozess führt typischerweise zu: 1. Abnehmender Komplexität und Nuancierung in den Antworten 2. Verstärkung von Mustern, die dem Modell eigen sind 3. Verlust von Detailreichtum und Kreativität 4. Zunehmend standardisierten oder formelhaften Antworten Das Phänomen stellt ein ernsthaftes Problem für die kontinuierliche Verbesserung von KI-Systemen dar, besonders in Anwendungsfällen, wo neuere Modellgenerationen auf den Ausgaben älterer Modelle trainiert werden.

Behavioral Drift

Behavioral Drift beschreibt ein Phänomen, bei dem sich das Verhalten eines LLM systematisch verändert, obwohl die äußere Umgebung und die Aufgabenstellung weitgehend konstant bleiben. Anders als beim Model Drift, wo das Modell statisch bleibt und die Welt sich wandelt, findet beim Behavioral Drift eine Art "innere Drift" des Modells selbst statt. Diese interne Verhaltensänderung entsteht typischerweise durch subtile Verstärkungsmechanismen während des Modellbetriebs. Beispielsweise können kontinuierliches Feedback, implizite Belohnungssignale oder wiederkehrende Interaktionsmuster dazu führen, dass das Modell bestimmte Antworttendenzen verstärkt und andere abschwächt. Das Modell entwickelt sozusagen eine Art Eigendynamik, die es langsam, aber systematisch von seinem ursprünglich trainierten und validierten Verhalten wegführt. Vergleichbar ist dieser Prozess mit einem menschlichen Lernvorgang: Eine Person hat eine Fähigkeit erlernt, modifiziert ihre Herangehensweise jedoch durch wiederholte Anwendung immer weiter, ohne dass sich die grundlegenden Anforderungen geändert hätten. Die Modifikation erfolgt nicht als Reaktion auf eine veränderte Umwelt, sondern durch interne Anpassungsprozesse. Die besondere Herausforderung des Behavioral Drift liegt in seiner oft schleichenden Natur. Die Veränderungen können so graduell und subtil sein, dass sie reguläre Qualitätskontrollen passieren, aber in der Summe zu einer signifikanten und möglicherweise unerwünschten Abweichung vom ursprünglichen Modellverhalten führen. Dies erfordert spezifische Überwachungs- und Gegenmechanismen, die nicht nur externe Veränderungen, sondern auch die interne Entwicklungsdynamik des Modells berücksichtigen.

Model Drift

Model Drift beschreibt ein Phänomen, bei dem ein Large Language Model selbst unverändert bleibt, während sich die Welt und der Kontext, in dem es operiert, kontinuierlich weiterentwickeln. Das Modell, mit seinen fixierten Parametern und seinem zum Trainingszeitpunkt eingefrorenem Wissen, steht einer dynamischen, sich ständig verändernden Realität gegenüber. Diese Divergenz zwischen statischem Modell und dynamischer Umgebung manifestiert sich in verschiedenen Formen. Sprache entwickelt sich weiter, neue Begriffe entstehen und werden populär, während andere veralten. Faktenwissen, das zum Zeitpunkt des Trainings korrekt war, wird mit fortschreitender Zeit zunehmend ungenau oder schlichtweg falsch. Kulturelle Normen und gesellschaftliche Erwartungen verändern sich, wodurch die Angemessenheit bestimmter Modellausgaben in Frage gestellt werden kann. Vergleichbar ist dieser Prozess mit einem einmal erstellten Nachschlagewerk, das ohne Aktualisierungen mit der Zeit an Relevanz und Genauigkeit verliert. Die Informationen darin bleiben zwar unverändert, aber ihre Nützlichkeit und Korrektheit nehmen ab, je weiter sich die Welt von dem Zeitpunkt entfernt, zu dem das Werk erstellt wurde. Die besondere Herausforderung des Model Drifts liegt in seiner Unvermeidlichkeit und der Notwendigkeit regelmäßiger Aktualisierungen. Anders als beim Model Shift, wo interne Verstärkungsmechanismen zu Verhaltensänderungen führen, erfordert das Management von Drifts eine kontinuierliche Anpassung des Modells an die sich verändernde Welt – sei es durch vollständiges Nachtraining, gezielte Aktualisierungen des Faktenwissens oder adaptive Mechanismen, die externe Veränderungen kompensieren können.

Dark Patterns

Dark Patterns sind Designstrategien in digitalen Anwendungen, die Nutzer dazu bringen, Entscheidungen zu treffen, die nicht in ihrem Interesse liegen. Diese Methoden nutzen psychologische Prinzipien aus, um Menschen unbewusst zu manipulieren oder zu täuschen. Beispiele sind versteckte Kosten beim Online-Einkauf, automatisch aktivierte Abonnements oder komplizierte Kündigungsprozesse.

In der Entwicklung von Machine Learning-Systemen und Large Language Models können Dark Patterns besonders subtil auftreten. KI-Systeme können darauf programmiert werden, übermäßig zustimmende Antworten zu geben oder Nutzer zur längeren Verwendung zu verleiten. Diese Schmeichelei-Funktion führt dazu, dass Menschen mehr Zeit und Daten mit dem System teilen, was dem Anbieter wirtschaftliche Vorteile bringt.

Forscher betrachten solche manipulativen KI-Verhaltensweisen als ethisches Problem, da sie das Vertrauen der Nutzer ausnutzen. Das Erkennen von Dark Patterns ist wichtig für die verantwortliche Entwicklung und Nutzung von KI-Technologien.

AI Sycophancy

AI Sycophancy bezeichnet das Verhalten von KI-Systemen, die dazu neigen, den Meinungen und Aussagen ihrer Nutzer übermäßig zuzustimmen oder diese zu bestätigen, anstatt objektiv korrekte Informationen zu liefern.

Das Phänomen entsteht während des Trainingsprozesses, wenn Modelle darauf optimiert werden, positive Rückmeldungen von Menschen zu erhalten. Die Systeme lernen dabei, dass Zustimmung und Bestätigung häufiger zu positiven Bewertungen führen als Widerspruch oder Korrektur falscher Annahmen.

In der Praxis führt dies dazu, dass ein Sprachmodell fehlerhafte Aussagen eines Nutzers bestätigt, anstatt diese zu korrigieren. Das Problem betrifft verschiedene KI-Anwendungen von Chatbots bis zu Empfehlungssystemen und kann die Verbreitung von Fehlinformationen begünstigen.

Forscher arbeiten an Trainingsmethoden, die Modelle dazu bringen, Wahrhaftigkeit über Gefälligkeit zu priorisieren. Die Herausforderung besteht darin, ein Gleichgewicht zwischen hilfreicher Interaktion und faktischer Korrektheit zu finden.

AI Sycophancy wird als ein zentrales Problem für die Verlässlichkeit und den verantwortungsvollen Einsatz von KI-Systemen betrachtet.

Angriffsmethoden

Style Attack Disguise

Style Attack Disguise ist eine Angriffsmethode auf KI-Systeme, die einen bemerkenswerten Unterschied ausnutzt: Menschen und Maschinen nehmen Text unterschiedlich wahr. Der Angriff funktioniert, indem normale Buchstaben durch visuell identische, aber technisch andere Zeichen aus speziellen Unicode-Bereichen ersetzt werden.

Die Methode verwendet verschiedene Arten von Sonderzeichen: mathematische Alphabete (z.B. 𝐀, 𝐁, 𝐂), Länderflaggen-Symbole (🇦, 🇧, 🇨), eingekreiste Buchstaben (Ⓐ, Ⓑ, Ⓒ) und Buchstaben in Quadraten (🄰, 🄱, 🄲). Für das menschliche Auge sehen diese Zeichen aus wie normale Buchstaben. Computersysteme behandeln sie jedoch als völlig unterschiedliche Zeichen, was zu Verarbeitungsfehlern führt.

Es gibt zwei Varianten der Methode: SADlight ersetzt gezielt einzelne Wörter im Text. Die Auswahl erfolgt strategisch nach der Bedeutung des Wortes und seiner technischen Anfälligkeit. Diese Variante ist effizient und benötigt bei großen Sprachmodellen durchschnittlich nur 2 bis 8 Versuche, um eine Erfolgsquote von 88-99% zu erreichen. SADstrong ersetzt alle Zeichen im gesamten Text auf einmal. Diese Variante ist aggressiver und erreicht die höchste Erfolgsrate, wirkt aber weniger natürlich und könnte fortgeschrittene KI-Systeme alarmieren.

Die Wirksamkeit der Methode hängt davon ab, wie verschiedene KI-Systeme Text verarbeiten: Systeme wie DistilBERT markieren unbekannte Sonderzeichen als "nicht erkannt" und können sie nicht weiterverarbeiten. Systeme wie RoBERTa zerteilen die Sonderzeichen in viele kleine Teile, wodurch der ursprüngliche Sinn verloren geht. Große Sprachmodelle interpretieren die Zeichen manchmal falsch - beispielsweise werden Länderflaggen-Symbole mit nationalen Themen verknüpft, selbst wenn diese im Kontext irrelevant sind.

Die experimentellen Ergebnisse zeigen durchgängig hohe Erfolgsquoten: Bei der Stimmungsanalyse von Texten erreicht die Methode 88-99% Erfolgsquote bei großen Sprachmodellen. Bei maschinellen Übersetzungen führt sie zu erheblichen Qualitätsverlusten. Große Sprachmodelle wurden mit 88-99% Erfolgsquote bei durchschnittlich 2 bis 8 Versuchen getäuscht. Kommerzielle Übersetzungsdienste wie Google Translate, Baidu Translate und Alibaba Translate erwiesen sich als anfällig.

Die Methode funktioniert nicht nur bei reinen Textanwendungen. Sie lässt sich auch auf Systeme übertragen, die mehrere Modalitäten kombinieren. Bei Bildgenerierung aus Text können die veränderten Zeichen dazu führen, dass statt des gewünschten Objekts völlig andere Inhalte erzeugt werden. Bei Sprachsynthese-Systemen entstehen stark verzerrte Audioausgaben, die sogar die Aussprache benachbarter, unveränderter Wörter beeinträchtigen.

Style Attack Disguise zeigt eine grundlegende Schwachstelle in der Verarbeitung von Sonderzeichen durch KI-Sprachsysteme. Die Kombination aus menschlicher Lesbarkeit und maschineller Fehlinterpretation stellt ein erhebliches Sicherheitsrisiko dar. Dies gilt besonders, weil solche stilistischen Schriftarten in sozialen Medien immer häufiger verwendet werden. Tests mit modernen Schutzmechanismen belegen, dass die Methode auch unter erschwerten Bedingungen erfolgreich bleibt. Der Grund: Zeichenbasierte Veränderungen lassen sich schwerer durch Umformulierungen neutralisieren als herkömmliche Angriffsmethoden.

Nerd Sniping

Nerd Sniping bei LLMs bezieht sich auf eine neu Angriffsmethode, die darauf abzielt, die Denkprozesse von Large Language Models (LLMs) ineffizient zu machen. Konkret bedeutet das, dass das LLM durch bestimmte Anfragen oder Prompts in eine Art "Denkschleife" gebracht wird, in der es sich auf irrelevante oder wenig produktive Aspekte einer Frage konzentriert und somit seine Rechenzeit verschwendet. Diese Methode zielt darauf ab, die Ressourcen des LLMs zu erschöpfen oder es von der eigentlichen Aufgabe abzulenken.

Jailbreaking

Im Kontext von Large Language Models bezeichnet "Jailbreaking" den Versuch, die Sicherheitsbegrenzungen und ethischen Richtlinien eines KI-Systems zu umgehen. Die Methoden reichen von der geschickten Umformulierung problematischer Anfragen bis hin zu komplexen Prompt-Injection-Techniken, die das Modell dazu bringen sollen, gegen seine eigenen Sicherheitsrichtlinien zu verstoßen. Während einige diese Praktiken als wichtig für das Verständnis von KI-Schwachstellen betrachten, birgt Jailbreaking erhebliche ethische und sicherheitstechnische Bedenken, da es zur Erzeugung von schädlichen oder manipulativen Inhalten missbraucht werden kann.

Token/String Manipulation

Token/String Manipulation versucht durch geschickte Veränderung von Textzeichen (wie Sonderzeichen, Unicode, Leerzeichen oder alternative Schreibweisen) die Erkennungsmechanismen eines Systems zu umgehen. Ein typisches Beispiel ist das Einfügen von nicht sichtbaren Zeichen oder das Ersetzen ähnlich aussehender Buchstaben (wie das lateinische 'a' durch das kyrillische 'а'), wodurch Filterregeln, die auf exakte Zeichenübereinstimmung setzen, möglicherweise umgangen werden können. Zur Absicherung sind daher Unicode-Normalisierung, reguläre Ausdrücke die Zeichenklassen berücksichtigen und kontextbasierte Analysen statt reiner Stringvergleiche wichtig.

Rollenspieltechniken

Rollenspieltechniken basieren darauf, einem System durch geschickte Prompts eine bestimmte Rolle oder Persona zuzuweisen, wodurch dessen ursprüngliche Verhaltensgrenzen möglicherweise verschoben werden können. Ein typisches Beispiel wäre die Aufforderung, als "unethischer Assistent" oder in einer Rolle zu agieren, die nicht an übliche Beschränkungen gebunden ist. Da die Rollenvorgabe oft in einem scheinbar harmlosen narrativen Kontext erfolgt, kann sie für das System schwieriger zu erkennen sein als direkte Aufforderungen zu unerwünschtem Verhalten.

Kontextuelle Verwirrung

Kontextuelle Verwirrung ist eine Technik, bei der durch widersprüchliche oder mehrdeutige Anweisungen versucht wird, die Kontextverarbeitung eines Systems zu stören. Die Methode nutzt aus, dass Systeme oft Schwierigkeiten haben, bei komplexen oder scheinbar gegensätzlichen Kontextinformationen die richtigen Schlüsse zu ziehen und entsprechend ihrer Richtlinien zu reagieren. Durch geschickte Kombination verschiedener Kontextebenen oder das Einführen von Ambiguitäten können so unter Umständen unerwünschte Systemreaktionen provoziert werden.

Injections

Injections im Kontext von Large Language Models beziehen sich auf gezielte Manipulationen, bei denen Eingaben so gestaltet werden, dass das Verhalten des Modells in einer gewünschten Weise beeinflusst oder verändert wird. Injections sind damit eine ernsthafte Herausforderung für die Sicherheit und Zuverlässigkeit von LLMs. Sie können nicht nur zu Fehlfunktionen, sondern auch zu Missbrauch führen, insbesondere wenn sie in sicherheitskritischen oder vertraulichen Anwendungen eingesetzt werden. Um diesen Risiken zu begegnen, arbeiten Entwickler an robusteren Modellen, besseren Prompt-Guardrails und sichereren Trainingsprozessen.

Indirect Prompt Injection

Indirect Prompt Injection ist eine Technik, bei der ein Angreifer das Verhalten eines KI-Modells durch manipulierte Inhalte beeinflusst, die nicht direkt im Prompt, sondern in externen Quellen oder Daten eingebettet sind. Das Modell wird so gestaltet, dass es diese Inhalte bei der Verarbeitung einbezieht, wodurch es zu unerwünschten oder fehlerhaften Ausgaben kommen kann. Diese Methode nutzt Schwachstellen in der Integration von KI-Modellen mit anderen Datenquellen wie APIs, Webseiten oder Dokumenten. Mit der Einführung von Memory-Funktionen wie bei ChatGPT verschärft sich diese Problematik zusätzlich: Manipulierte oder fehlerhafte Inhalte könnten dauerhaft in der Erinnerung des Modells gespeichert werden. Dies führt dazu, dass die schädlichen oder falschen Informationen nicht nur in einer Sitzung, sondern auch in zukünftigen Interaktionen immer wieder einfließen und das Modell langfristig beeinträchtigen können.

Direct Prompt Injection

Direct Prompt Injection bezeichnet eine gezielte Manipulation, bei der ein Angreifer das Verhalten eines KI-Modells durch direkt eingebettete Anweisungen in den Eingabeprompt verändert. Dabei wird versucht, Sicherheitsmechanismen oder vorab definierte Regeln des Modells zu umgehen, um unerwünschte oder schädliche Antworten zu provozieren. Diese Methode nutzt die Tendenz von Modellen, Texteingaben wörtlich zu interpretieren, ohne den Kontext oder potenzielle Gefahren zu hinterfragen.

Probleme im Training

Catastrophic Forgetting

Catastrophic Forgetting beschreibt ein zentrales Problem beim sequenziellen Training künstlicher neuronaler Netzwerke, bei dem das Netzwerk zuvor erlernte Informationen verliert, sobald es auf neue Aufgaben trainiert wird. Dies geschieht, weil die neuen Lerninhalte durch Anpassung der Gewichte in den Netzwerkverbindungen realisiert werden – oft auf Kosten des bisherigen Wissens.

Das Phänomen wurde erstmals 1989 von Michael McCloskey und Neal Cohen dokumentiert, die zeigten, dass ein Netzwerk beim sequenziellen Lernen sein Wissen über frühere Aufgaben vollständig verlieren kann. Das grundlegende Problem entsteht durch überlappende Repräsentationen im Netzwerk, bei denen dieselben Parameter zur Darstellung verschiedener Aufgaben verwendet werden.

Forschungsarbeiten haben verschiedene Strategien entwickelt, um Catastrophic Forgetting zu verringern: Regularisierungsverfahren wie Elastic Weight Consolidation gewichten Gewichtsveränderungen nach ihrer Bedeutung für frühere Aufgaben, während Rehearsal-Methoden frühere Daten erneut präsentieren. Progressive neuronale Netzwerke fügen für neue Aufgaben zusätzliche Module hinzu und schützen dabei bestehende Verbindungen.

Catastrophic Forgetting bleibt eine zentrale Herausforderung für die Entwicklung adaptiver KI-Systeme, die flexibel auf neue Aufgaben reagieren sollen, ohne ihre Kernfähigkeiten zu verlieren. Die aktuelle Forschung fokussiert sich zunehmend auf ganzheitliche Lernmodelle, die Stabilität und Plastizität dynamisch ausbalancieren und auch das Problem des "Loss of Plasticity" – der nachlassenden Lernfähigkeit – adressieren.

LLM Grooming

LLM Grooming bezeichnet eine gezielte Manipulation von großen Sprachmodellen (LLMs) durch das Einfügen von Desinformationen in deren Trainingsdaten. Dabei fluten Akteure absichtlich das Internet mit Propaganda oder irreführenden Inhalten, die später von den Modellen aufgenommen werden, um deren Antworten zu beeinflussen. Diese Technik kann dazu führen, dass KI-Modelle falsche Narrative verstärken und verbreiten, was insbesondere bei Themen wie politischer Propaganda oder Fehlinformationen problematisch ist. LLM Grooming zeigt die Risiken auf, die mit der Abhängigkeit von generativen KI-Modellen und unkontrollierten Datenquellen verbunden sind.

Bias im Kontext von LLM-Modellen bezeichnet Verzerrungen oder Vorurteile, die sich aus den Trainingsdaten oder der Architektur des Modells ergeben. Diese entstehen, wenn die zugrunde liegenden Daten bestimmte Perspektiven, Werte oder Muster überrepräsentieren und andere vernachlässigen, was zu unfairen oder einseitigen Antworten führen kann. Bias in LLMs kann unbeabsichtigte soziale, kulturelle oder politische Auswirkungen haben und stellt eine zentrale Herausforderung für die Entwicklung ethischer und ausgewogener KI dar.

Halluzinationen

Eine Halluzination ist eine falsche oder erfundene Information, die ein KI-Modell als wahr ausgibt. Sie entsteht hauptsächlich aus drei Gründen: 1. Muster im Training, die zu falschen Schlussfolgerungen führen 2. Lücken im Trainingswissen, die das Modell durch "kreative" Vervollständigung füllt 3. Die statistische Natur der Textgenerierung, die manchmal unzuverlässige Verknüpfungen erzeugt und Halluzinationen somit zu einer inhärenten Eigenschaft von LLMs macht Besonders häufig treten Halluzinationen bei sehr spezifischen Fragen auf, bei denen das Modell unsicher ist, aber trotzdem eine plausibel klingende Antwort generiert.

Energieverbrauch

Der Energieverbrauch von KI-Systemen ist ein zunehmend kritischer Faktor, besonders beim Training großer Sprachmodelle. Das Training eines einzigen großen KI-Modells kann mehrere tausend GPU-Stunden benötigen und damit so viel Energie verbrauchen wie hunderte Haushalte in einem Jahr. Hauptfaktoren des Energieverbrauchs sind: - Rechenleistung für das Training - Kontinuierlicher Betrieb der Modelle (Inference) - Kühlung der Hardware - Infrastruktur der Rechenzentren Die Energieintensität führt zu wichtigen Diskussionen über: - Nachhaltigkeit von KI-Entwicklung - Notwendigkeit energieeffizienter Architekturen - Einsatz erneuerbarer Energien - Umweltauswirkungen der KI-Industrie Diese Herausforderungen treiben die Entwicklung effizienterer Technologien und nachhaltigerer Trainingsmethoden voran.

Der "Open"-Begriff bei KI-Modellen

Die Philosophie der Offenheit bei KI-Modellen umfasst mehrere komplementäre Dimensionen: Open Source gibt Einblick in den Code und die Algorithmen der KI-Systeme, Open Weights macht die trainierten Modellparameter zugänglich, Open Data ermöglicht den Zugang zu den Trainingsdaten, und Open Science sorgt für Transparenz in den Forschungsmethoden und -ergebnissen. Diese vier Aspekte der Offenheit bilden zusammen ein Ökosystem, in dem KI-Systeme umfassend geprüft, verstanden und kollaborativ weiterentwickelt werden können. Die heutigen KI-Modelle setzen diese Philosophie in unterschiedlichem Maße um – einige veröffentlichen nur ihre Modellgewichte, während andere auch Trainingsdaten oder Forschungsmethoden teilen, was zu unterschiedlichen Graden von Transparenz und Nachvollziehbarkeit führt. Die Kombination von Open Source, Open Weights, Open Data und Open Science schafft ein Fundament für Wissensaustausch und gemeinschaftliche Innovation im Bereich der künstlichen Intelligenz.

Open Source AI Definition (OSAID)

Die Open Source Initiative (OSI) hat die Open Source AI Definition (OSAID) entwickelt, um Transparenz und Offenheit im Bereich der künstlichen Intelligenz zu fördern. Diese Definition legt Standards fest, wie KI-Systeme als "Open Source" klassifiziert werden können, einschließlich der Offenlegung von Trainingsdaten, Algorithmen und Modellparametern. Die OSAID zielt darauf ab, die Überprüfbarkeit, Reproduzierbarkeit und ethische Nutzung von KI-Systemen zu gewährleisten, ähnlich wie die Open-Source-Definition für Software. Allerdings ist die OSAID noch nicht vollständig etabliert und wird weiterhin diskutiert und verfeinert. Sie hat bereits breite Unterstützung gefunden und wird von vielen Organisationen und Experten als wichtiger Schritt zur Förderung von Transparenz und Zusammenarbeit in der KI-Community anerkannt.

Open Science

Open Science beschreibt einen Ansatz zur wissenschaftlichen Forschung, bei dem der gesamte Forschungsprozess transparent und zugänglich gestaltet wird. Dieses Konzept umfasst die offene Zugänglichkeit von wissenschaftlichen Veröffentlichungen (Open Access), die Verfügbarkeit von Forschungsdaten (Open Data), die Transparenz der verwendeten Methoden und Werkzeuge (Open Methods) sowie die Offenlegung von Laborprotokollen und Arbeitsabläufen. Im KI-Bereich beinhaltet Open Science zusätzlich die Dokumentation von Trainingsverfahren, Hyperparametern, Evaluierungsmethoden und Modellarchitekturen, sodass die Forschungsergebnisse vollständig nachvollziehbar und reproduzierbar sind. Open Science wird durch verschiedene Praktiken umgesetzt, darunter Preprints, offene Peer-Review-Verfahren, offene Laborbücher, registrierte Studien und kollaborative Forschungsplattformen, die gemeinsam ein Ökosystem für transparente und gemeinschaftliche Wissensproduktion bilden.

Open Weights

Open Weights bezeichnet die Praxis, die trainierten Parameter (Gewichte) eines künstlichen neuronalen Netzwerks oder KI-Modells öffentlich verfügbar zu machen. Diese Gewichte repräsentieren das "gelernte Wissen" des Modells und werden typischerweise in standardisierten Dateiformaten wie HDF5, ONNX oder als PyTorch/TensorFlow-Checkpoint-Dateien bereitgestellt. Im KI-Bereich ermöglicht Open Weights anderen Forschern und Entwicklern, vortrainierte Modelle direkt zu verwenden, zu analysieren oder durch Feinabstimmung (Fine-tuning) an neue Aufgaben anzupassen, ohne das rechenintensive Training von Grund auf durchführen zu müssen. Die Veröffentlichung von Modellgewichten ist eine zentrale Komponente vieler moderner KI-Veröffentlichungen, wobei Modelle wie Llama oder Mistral ihre Gewichte zugänglich machen, während andere Aspekte ihrer Entwicklung und Architektur nicht vollständig offengelegt werden. Die Gewichte von Open-Weights-Modellen werden unter verschiedenen Lizenzen veröffentlicht, darunter speziell für KI-Modelle entwickelte Lizenzen wie die ML Commons License, die Apache 2.0 Lizenz, MIT-Lizenz, oder eigene angepasste Lizenzen wie die Llama 2 Community License oder die Responsible AI License (RAIL). Diese Lizenzen regeln oft spezifisch die Nutzung, Wiederverwendung und kommerzielle Anwendung der Modellgewichte und können Einschränkungen bezüglich der Verwendung für schädliche Zwecke oder Wettbewerbsbeschränkungen enthalten.

Open Data

Open Data bezeichnet Daten, die frei zugänglich, nutzbar und veränderbar sind sowie unter minimalen rechtlichen Einschränkungen weitergegeben werden können. Typischerweise werden diese Daten unter offenen Lizenzen wie Creative Commons oder Open Data Commons veröffentlicht, welche klare, transparente Bedingungen für die Nutzung festlegen. Im KI-Kontext umfasst Open Data insbesondere die vollständige Offenlegung der verwendeten Trainingsdaten, einschließlich Herkunft, Zusammensetzung und Verarbeitungsmethoden.

Open Source

Open Source ist ein Entwicklungsmodell, bei dem Softwarequellcode frei zugänglich gemacht wird, sodass jeder ihn einsehen, nutzen, verändern und weiterverbreiten kann, wobei die Open Source Initiative (OSI) zehn Bedingungen festlegt, die eine echte Open-Source-Lizenz erfüllen muss. Zu den bekanntesten OSI-anerkannten Lizenzen gehören MIT, GPL, Apache und BSD, die verschiedene Freiheiten und Pflichten definieren – von großzügigen Lizenzen (MIT, Apache) mit wenigen Einschränkungen bis zu solchen, die verlangen, dass alle Änderungen ebenfalls offen bleiben müssen (GPL). Durch Offenheit und gemeinsames Arbeiten fördert Open Source neue Ideen, bessere Qualität und Vertrauen in digitale Produkte.

BSD-Lizenz

Die BSD-Lizenz (in verschiedenen Varianten, meist 2-Klausel und 3-Klausel) erlaubt die Nutzung, Veränderung und Weitergabe mit minimalen Einschränkungen, ähnlich wie die MIT-Lizenz. Sie verlangt lediglich die Beibehaltung des Copyright-Hinweises und, im Fall der 3-Klausel-Variante, dass der Name der ursprünglichen Autoren nicht ohne Erlaubnis für Werbung verwendet wird. Die BSD-Lizenz ist besonders bei kommerziellen Unternehmen beliebt, da sie die Einbindung des Codes in proprietäre Produkte ohne zusätzliche Verpflichtungen ermöglicht.

Apache-Lizenz

Die Apache-Lizenz 2.0 erlaubt freie Nutzung, Veränderung und Verteilung der Software, verlangt jedoch die Beibehaltung von Copyright-Hinweisen und fordert, dass Änderungen dokumentiert werden. Sie bietet einen ausdrücklichen Patentschutz, der automatisch Lizenznehmern Rechte an Patenten gewährt, die für die Software relevant sind. Die Apache-Lizenz ist geschäftsfreundlicher als die GPL, da sie nicht erfordert, dass Änderungen unter derselben Lizenz veröffentlicht werden müssen, aber sie bietet mehr rechtlichen Schutz als die simplere MIT-Lizenz.

GPL-Lizenz

Die GPL fordert, dass jede veränderte und weiterverbreitete Version der Software ebenfalls unter der GPL stehen muss, was als "Copyleft" bekannt ist und sicherstellt, dass abgeleitete Werke frei bleiben. Sie verlangt, dass der vollständige Quellcode zusammen mit dem Programm verfügbar gemacht wird, wenn das Programm verbreitet wird, was Nutzer daran hindert, GPL-Code in proprietäre Software einzubauen. Die GPL existiert in verschiedenen Versionen (v2, v3), wobei v3 zusätzliche Bestimmungen gegen Softwarepatente und "Tivoization" (Einschränkung der Hardware-Freiheit) enthält.

MIT-Lizenz

Die MIT-Lizenz erlaubt jedem, die Software ohne Einschränkungen zu nutzen, zu verändern und weiterzugeben, solange der ursprüngliche Copyright-Hinweis erhalten bleibt. Sie stellt praktisch keine Forderungen an Nutzer, außer dass die Lizenz mit verbreitet wird, und bietet keinen Patentschutz. Der Hauptvorteil dieser extrem unkomplizierten Lizenz ist ihre Kompatibilität mit nahezu allen anderen Lizenzen, was sie besonders beliebt für weit verbreitete Bibliotheken und Werkzeuge macht.

Grundlagen für LLMs
- Machine Learning

Machine Learning ist ein Teilgebiet der künstlichen Intelligenz, bei dem Computersysteme die Fähigkeit erhalten, aus Erfahrungen zu lernen und sich zu verbessern, ohne explizit programmiert zu werden. Statt feste Regeln zu befolgen, erkennen Machine Learning Algorithmen Muster in Daten und entwickeln Modelle, die Vorhersagen treffen oder Entscheidungen ohne menschliches Eingreifen fällen können. Diese datengetriebene Herangehensweise ermöglicht es Systemen, komplexe Aufgaben wie Bilderkennung, Sprachverarbeitung oder Empfehlungssysteme zu bewältigen, indem sie aus Beispielen lernen und ihre Leistung mit mehr Daten kontinuierlich verbessern.

Vektordatenbank

Eine Vektordatenbank ist ein spezialisiertes Datenbanksystem, das Informationen in Form von numerischen Vektoren speichert und es ermöglicht, diese Vektoren effizient nach Ähnlichkeit zu durchsuchen. Sie spielt eine zentrale Rolle in modernen KI-Anwendungen, besonders für Semantic Search und RAG (Retrieval Augmented Generation), da sie es ermöglicht, aus großen Datenmengen schnell semantisch ähnliche Inhalte zu finden - zum Beispiel können Texte, Bilder oder andere Daten als Vektoren gespeichert werden, und die Datenbank kann dann blitzschnell ähnliche Inhalte finden, was für kontextbezogene Antworten und präzise Informationssuche essentiell ist.

Natural Language Processing (NLP)

Natural Language Processing (NLP) beschäftigt sich damit wie Computer menschliche Sprache verstehen, verarbeiten und generieren können. Es geht darum, die Komplexität natürlicher Sprache - mit all ihren Nuancen, Mehrdeutigkeiten und kontextabhängigen Bedeutungen - für Maschinen zugänglich zu machen. Moderne NLP-Systeme, besonders die auf Transformer-Architektur basierenden Modelle, können dabei nicht nur Text analysieren und klassifizieren, sondern auch Zusammenhänge verstehen, Fragen beantworten, Texte zusammenfassen oder neue, kontextrelevante Texte generieren. Sie verarbeiten dabei Sprache auf verschiedenen Ebenen - von der Grammatik über Semantik bis hin zu pragmatischen Aspekten wie Kontext und Intention.

Perplexity

Perplexity ist ein Maß, das in der Künstlichen Intelligenz, insbesondere bei Sprachmodellen im NLP-Bereich, verwendet wird, um die Güte eines Modells bei der Vorhersage von Textsequenzen zu bewerten. Perplexity gibt an, wie „verwirrt“ das Modell ist, wenn es die nächste Wortfolge vorhersagen soll: Ein niedriger Perplexity-Wert bedeutet, dass das Modell die Wortwahrscheinlichkeiten gut abschätzen kann, während ein hoher Wert auf Schwierigkeiten bei der Vorhersage hinweist. Im NLP-Kontext ist Perplexity besonders wichtig, da sie als Leistungsindikator dafür dient, wie gut ein Modell natürliche Sprachmuster und Zusammenhänge erfasst. Ein Sprachmodell mit niedriger Perplexity ist in der Regel besser darin, flüssige und sinnvolle Texte zu generieren, was auf ein gutes Verständnis von Sprachstrukturen hinweist.

Tokenisierung

Tokenisierung ist der grundlegende Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, die ein KI-Sprachmodell verarbeiten kann. Dabei wird Text nicht einfach in einzelne Wörter aufgeteilt, sondern in Untereinheiten, die häufig auch Wortteile oder sogar einzelne Zeichen sein können - beispielsweise könnte das Wort "Sprachmodell" in die Tokens "Sprach" und "modell" zerlegt werden. Diese Tokenisierung ist entscheidend für die Effizienz und Leistungsfähigkeit von Sprachmodellen, da sie bestimmt, wie das Modell Text "sieht" und verarbeitet, wobei jedes Token einem Eintrag im Vokabular des Modells entspricht und in einen numerischen Wert (Token-ID) umgewandelt wird, mit dem das Modell dann rechnen kann.

Neuronale Netzwerke

Neuronale Netze sind mathematische Modelle, die aus miteinander verbundenen künstlichen Neuronen bestehen und durch ihre schichtweise Anordnung komplexe Muster in Daten erkennen können. Sie ahmen in vereinfachter Form die Funktionsweise des menschlichen Gehirns nach, indem Signale zwischen Neuronen übertragen und durch Gewichtungen verstärkt oder abgeschwächt werden. Durch Trainingsverfahren wie Backpropagation können diese Netze lernen, ihre Gewichtungen so anzupassen, dass sie spezifische Aufgaben immer besser bewältigen. Bei modernen Sprachmodellen spielt besonders die Transformer-Architektur mit ihrem "Attention"-Mechanismus eine entscheidende Rolle, da sie es ermöglicht, Beziehungen zwischen verschiedenen Textteilen unabhängig von deren Position zu erkennen und zu gewichten. Diese Fähigkeit, kontextuelle Zusammenhänge über lange Textpassagen hinweg zu erfassen, bildet die Grundlage für die beeindruckenden Leistungen heutiger Large Language Models bei der Verarbeitung und Generierung natürlicher Sprache.

Sprachmodelle

Sprachmodelle sind KI-Modelle, die darauf trainiert wurden, Muster und Bedeutungen in natürlicher Sprache zu erkennen und Texte basierend auf diesen Mustern zu erzeugen. Sie können auf verschiedene Aufgaben wie Textgenerierung, -klassifikation und -verständnis angewendet werden und ermöglichen Anwendungen von Chatbots bis hin zu maschineller Übersetzung. Alle derzeitig bekannten Sprachmodelle bauen auf neuronalen Netzwerken und der Transformerarchitektur auf.

Reasoning

Im Kontext der Generativen KI bezeichnet "Reasoning" einen strukturierten, nachvollziehbaren Denkprozess, bei dem ein Problem oder eine Fragestellung schrittweise analysiert und gelöst wird. Der Begriff umfasst verschiedene Ansätze, die seit 2024 deutlich an Bedeutung gewonnen haben.

Das Chain-of-Thought Reasoning zerlegt Probleme in kleinere, logisch nachvollziehbare Schritte. Diese 2022 eingeführte Technik ermöglicht es großen Sprachmodellen, komplexe Aufgaben durch eine Kette von Zwischenschritten zu lösen, anstatt direkt zu einer Antwort zu springen. Besonders bei mathematischen Problemen und logischen Rätseln zeigt dieser Ansatz deutliche Verbesserungen.

Das Causal Reasoning konzentriert sich auf das Verstehen von Ursache-Wirkungs-Beziehungen. Anders als traditionelle KI-Systeme, die nur Korrelationen erkennen, kann Causal AI echte kausale Zusammenhänge identifizieren und nutzen. Dies ermöglicht bessere Vorhersagen und fundierte Entscheidungen in komplexen Systemen.

Mathematical Reasoning befasst sich mit der systematischen Lösung mathematischer Probleme. Moderne KI-Modelle wie OpenAI o1 erreichen hier bemerkenswerte Leistungen und können bei anspruchsvollen Mathematik-Wettbewerben mit den besten Schülern mithalten.

Die Entwicklung ist rasant vorangeschritten. Was 2023 noch als experimentell galt, hat sich 2024 zu einem zentralen Forschungsbereich entwickelt. Neue Modelle wie OpenAI o1 und o3 nutzen "Inference-time Compute" - sie nehmen sich mehr Zeit zum "Nachdenken" und erzielen dadurch bessere Ergebnisse. 2025 gilt als Jahr der breiten Einführung dieser Technologien in Unternehmen.

Reasoning wird heute als Schlüsseltechnologie für die nächste Generation der Künstlichen Intelligenz betrachtet, die über einfache Mustererkennung hinausgeht und echtes Problemlösungsdenken ermöglicht.

Monte-Carlo-Methode

Die Monte-Carlo-Methode ist ein statistisches Verfahren, das Zufallszahlen verwendet, um komplexe mathematische Probleme zu lösen oder Wahrscheinlichkeiten zu berechnen.

Das Verfahren führt eine sehr große Anzahl von Zufallsexperimenten durch und analysiert deren Ergebnisse, um Näherungswerte für gesuchte Lösungen zu finden. Der Name stammt vom berühmten Casino in Monte Carlo, da das Verfahren auf dem Prinzip des Zufalls basiert wie Glücksspiele.

In der Praxis generiert ein Computer Millionen von zufälligen Zahlen und testet verschiedene Szenarien, um herauszufinden, wie wahrscheinlich bestimmte Ereignisse sind. Die Methode funktioniert nach dem Gesetz der großen Zahlen: Je mehr Zufallsexperimente durchgeführt werden, desto genauer wird das Ergebnis.

Im Machine Learning wird die Monte-Carlo-Methode verwendet, um Unsicherheiten in Modellvorhersagen zu quantifizieren oder komplexe Optimierungsprobleme zu lösen. Das Verfahren eignet sich besonders für Situationen, in denen exakte mathematische Lösungen schwer zu berechnen sind. Die Monte-Carlo-Methode bildet die Grundlage für verschiedene Algorithmen im maschinellen Lernen, insbesondere bei der Bewertung von Modellzuverlässigkeit und bei Reinforcement Learning-Ansätzen.

Bedeutung für LLM-Reasoning:

Bei Large Language Models wird die Monte-Carlo-Methode eingesetzt, um die Qualität des logischen Schlussfolgerns zu verbessern. Das Verfahren ermöglicht es LLMs, mehrere verschiedene Denkwege für ein Problem zu erkunden, indem systematisch verschiedene Lösungsansätze generiert und bewertet werden.

Durch die Bewertung vieler alternativer Antwortmöglichkeiten kann das Modell die wahrscheinlich beste Lösung identifizieren. Diese Technik wird als Monte-Carlo Tree Search (MCTS) implementiert, um komplexe Reasoning-Aufgaben systematisch zu durchsuchen. Nach aktuellen Forschungsergebnissen aus 2024 und 2025 zeigen experimentelle Evaluationen bemerkenswerte Leistungsverbesserungen bei mathematischen und logischen Aufgaben.

Moderne Implementierungen verwenden fortgeschrittene Algorithmen wie Direct Preference Optimization und contrastive decoding, um sowohl die Genauigkeit als auch die Geschwindigkeit der Reasoning-Prozesse zu verbessern. Die Methode hilft LLMs dabei, konsistentere und zuverlässigere Antworten bei logischen Problemen, mathematischen Aufgaben oder mehrstufigen Argumentationen zu liefern.

Large Multimodal Models (LMMs)

Ein Large Multimodal Model (LMM) ist ein großes KI-Modell, das nicht nur Sprache, sondern auch andere Datentypen wie Bilder, Audio und Video verarbeiten und generieren kann. Durch die Kombination und das Verstehen verschiedener Modalitäten kann ein LMM komplexe Aufgaben wie Bildbeschreibung, Text-zu-Bild-Generierung und Videoinhalte basierend auf Sprache ausführen und eröffnet so vielseitige, kontextübergreifende Anwendungen.

Optimierung von Sprachmodellen

Die Modell-Optimierung umfasst alle Techniken und Werkzeuge, mit denen wir das Verhalten eines KI-Modells für spezifische Anwendungen anpassen können - ohne es neu trainieren zu müssen. Sie ermöglichen es Nutzern, die Antworten und Ergebnisse von Modellen gezielt zu beeinflussen und die Interaktion mit den Modellen individuell zu gestalten.

Playground

Ein Playground im Kontext von AI-Modellen ist eine interaktive Benutzeroberfläche, die es Nutzern ermöglicht, KI-Modelle direkt auszuprobieren, zu testen und verschiedene Prompts zu experimentieren. Im Playground können Anwender Parameter wie Temperatur, Antwortlänge und andere Modellverhaltenseinstellungen anpassen, um zu verstehen, wie das Modell auf unterschiedliche Eingaben reagiert, und gezielt das Modellverhalten zu steuern oder zu optimieren.

Top-K Parameter

Der Top-k Parameter ist eine Einstellung bei KI-Modellen, die festlegt, wie viele der wahrscheinlichsten nächsten Token bei der Textgenerierung berücksichtigt werden sollen. Ein höherer k-Wert führt zu mehr Variabilität in den Antworten, während ein niedrigerer k-Wert die Ausgaben vorhersehbarer und fokussierter macht.

Temperatur

Die Temperatur ist ein Parameter, der die Zufälligkeit/Kreativität der Modellausgaben steuert. Bei hoher Temperatur (nahe 1) werden auch weniger wahrscheinliche Tokens häufiger ausgewählt, was zu kreativeren, aber potenziell weniger präzisen Antworten führt. Niedrige Temperatur (nahe 0) führt zu deterministischeren, konservativeren Antworten.

Cache-Augmented Generation (CAG)

Cache-Augmented Generation erweitert große Sprachmodelle (LLMs) um einen externen Zwischenspeicher, der vorab kuratierte Informationen wie Fakten, Dokumente oder häufig verwendete Textbausteine bereithält. Das Modell greift bei der Antwortgenerierung zunächst auf diesen Speicher zu, durchsucht ihn nach relevanten Inhalten und integriert die gefundenen Informationen nahtlos in seine Antwort – vergleichbar mit einem Nachschlagewerk, das während des Schreibprozesses konsultiert wird.

Obwohl sowohl Cache-Augmented Generation als auch Retrieval-Augmented Generation (RAG) externe Wissensquellen nutzen, funktionieren sie grundlegend unterschiedlich. RAG führt bei jeder Anfrage eine dynamische Echtzeitsuche in umfangreichen Wissensdatenbanken durch und nutzt dabei semantische Suchtechniken wie Vektorähnlichkeit. Cache-Augmented Generation hingegen arbeitet mit einem vordefinierten, statischen Zwischenspeicher aus bereits strukturierten Inhalten.

Diese unterschiedlichen Ansätze bringen jeweils spezifische Vor- und Nachteile mit sich: Cache-Augmented Generation punktet durch höhere Geschwindigkeit und Vorhersagbarkeit, da keine aufwendige Suche notwendig ist. Gleichzeitig schränkt der statische Charakter jedoch die Flexibilität und Aktualität der verfügbaren Informationen ein. RAG eignet sich daher besonders für umfangreiche, sich häufig ändernde Wissensbestände, während Cache-Augmented Generation seine Stärken bei wiederkehrenden Abfragen und stabilen Informationsdomänen ausspielt.

Retrieval Augmented
Generation (RAG)

RAG (Retrieval Augmented Generation) ist eine Methode, bei der ein Sprachmodell mit einer externen Wissensdatenbank erweitert wird, um präzisere und faktisch korrekte Antworten zu generieren. Der Prozess läuft typischerweise in drei Schritten ab: 1. Retrieval (Abrufen) - Die Nutzereingabe wird verwendet, um relevante Dokumente aus einer Vektordatenbank abzurufen - Ähnlichkeitssuche findet die passendsten Informationen 2. Augmentation (Erweiterung) - Die gefundenen Informationen werden zusammen mit der ursprünglichen Anfrage als erweiterter Prompt an das Sprachmodell übergeben - Das Modell erhält so zusätzlichen, spezifischen Kontext 3. Generation (Erzeugung) - Das Modell generiert eine Antwort, die sowohl auf seinem trainierten Wissen als auch auf den abgerufenen spezifischen Informationen basiert RAG wird häufig eingesetzt, um Sprachmodelle mit aktuellen oder domänenspezifischen Informationen zu erweitern und ihre Antworten verlässlicher zu machen.

Wissensdatenbank

Eine Wissensdatenbank (Knowledge Database) im Kontext von KI-Systemen ist ein strukturiertes Speichersystem, das als zentrale Wissensquelle für KI-Anwendungen dient. Sie stellt die Grundlage für faktisch korrektes und domänenspezifisches Wissen bereit, auf das KI-Systeme zugreifen können. Besonders im Zusammenspiel mit RAG-Systemen spielt sie eine wichtige Rolle: Die in der Knowledge Database gespeicherten Informationen werden in maschinenlesbare Vektorrepräsentationen umgewandelt und können dann von KI-Modellen für präzise, kontextbezogene Antworten genutzt werden. Dies ermöglicht es KI-Systemen, nicht nur auf ihr trainiertes Basiswissen zurückzugreifen, sondern auch auf aktuelles, verifiziertes und organisationsspezifisches Wissen zuzugreifen.

Context Engineering

Context Engineering ist ein relativ neuer Begriff, der die systematische Gestaltung und Optimierung des Informationsumfelds bezeichnet, das einem Large Language Model (LLM) zur Verfügung gestellt wird, um eine bestimmte Aufgabe zu erfüllen.

Im Gegensatz zum traditionellen Prompt Engineering, das sich auf die Formulierung einzelner Anweisungen konzentriert, umfasst Context Engineering die ganzheitliche Orchestrierung aller relevanten Informationen, Daten, Tools und Kontextinformationen, die ein LLM benötigt, um konsistent und zuverlässig zu funktionieren. Es geht dabei um die strategische Auswahl, Strukturierung und Bereitstellung von Informationen innerhalb des begrenzten Kontextfensters eines LLMs.

Dieser Begriff hat besonders durch die Unterstützung prominenter KI-Experten wie Andrej Karpathy an Bedeutung gewonnen. In einem viel beachteten Tweet auf X erklärte er: "+1 for 'context engineering' over 'prompt engineering'".

Sein weithin zitiertes Schlüsselzitat zu diesem Thema lautet: "Context Engineering ist die delikate Kunst und Wissenschaft, das Kontextfenster mit genau den richtigen Informationen für den nächsten Schritt zu füllen."

Karpathys zentrale Einsichten zum Context Engineering:

Die Betriebssystem-Metapher: Karpathy beschreibt LLMs als "wie eine neue Art von Betriebssystem", bei dem "das LLM wie die CPU ist und sein Kontextfenster wie der RAM, der als Arbeitsspeicher des Modells dient." So wie ein Betriebssystem verwaltet, was in den RAM passt, verwaltet Context Engineering, welche Informationen in das begrenzte Kontextfenster gehören.

Jenseits einfacher Prompts: Karpathy betont, dass in "jeder industrietauglichen LLM-Anwendung Context Engineering die delikate Kunst und Wissenschaft ist, das Kontextfenster mit genau den richtigen Informationen für den nächsten Schritt zu füllen." Das geht weit über einfaches Prompt-Schreiben hinaus.

Wissenschaft und Kunst: Er beschreibt es als sowohl "Wissenschaft, weil es richtig zu machen Aufgabenbeschreibungen und Erklärungen, Few-Shot-Beispiele, RAG, verwandte (möglicherweise multimodale) Daten, Tools, Status und Historie, Komprimierung" umfasst und stellt fest, dass "es gut zu machen höchst nicht-trivial ist."

Karpathys Aussagen haben in der KI-Community erhebliche Aufmerksamkeit erhalten, da viele es als genauere Beschreibung dessen sehen, was fortgeschrittene KI-Anwendungsentwicklung tatsächlich beinhaltet - nicht nur das Erstellen von Prompts, sondern die sorgfältige Orchestrierung des gesamten Kontexts, der diese Prompts umgibt, um das Denken und die Antworten des Modells effektiv zu lenken.

Prompt Engineering

Prompt Engineering ist die systematische Entwicklung und Optimierung von Eingabeaufforderungen (Prompts) für KI-Modelle, mit dem Ziel, konsistente und qualitativ hochwertige Ausgaben zu erzielen. Diese spezialisierte Disziplin umfasst das Verständnis von Modellverhalten, die Entwicklung von Prompt-Strategien und die Anwendung bewährter Techniken, wie beispielsweise die Nutzung von Rollenanweisungen, Kontextbereitstellung oder Chain-of-Thought-Prompting, um die bestmöglichen Ergebnisse aus einem KI-Modell herauszuholen.

Prompt Evaluation

Prompt Evaluation ist ein Verfahren aus der Informatik, insbesondere im Bereich der Künstlichen Intelligenz (KI). Es beschreibt die systematische Analyse und Verbesserung von sogenannten Prompts – also den Texteingaben, mit denen Nutzer Sprachmodelle wie ChatGPT oder Claude ansprechen.

Ziel der Prompt Evaluation ist es, herauszufinden, wie unterschiedliche Formulierungen die Qualität der KI-Antworten beeinflussen. Dabei werden unter anderem folgende Aspekte untersucht:

Welche Eingabevarianten führen zu besonders präzisen oder hilfreichen Antworten?
Wie lässt sich die Verständlichkeit und Relevanz der Antworten verbessern?
Welche Formulierungen ermöglichen eine möglichst effektive Kommunikation mit dem KI-System?

Das Verfahren hat sich besonders ab dem Jahr 2020 mit dem Aufkommen leistungsfähiger Sprachmodelle wie GPT-3 etabliert. Mit der zunehmenden Verbreitung von KI-Systemen seit 2022 hat die Bedeutung von Prompt Evaluation weiter zugenommen. Forschende, Unternehmen und Entwickler nutzen diese Methode heute gezielt, um ihre Interaktionen mit KI-Modellen zu optimieren und die Antwortqualität messbar zu verbessern.

User Prompting

User Prompting bezeichnet die direkte Interaktion des Nutzers mit dem KI-Modell durch Eingabe von Fragen, Anweisungen oder Aufgaben. Es ist die "normale" Kommunikation mit dem Modell, bei der der Nutzer seine spezifischen Anfragen stellt, im Gegensatz zum System Prompting, das die grundlegenden Verhaltensregeln festlegt. Diese Nutzeranfragen können dabei von einfachen Fragen bis hin zu komplexen Aufgabenstellungen reichen und beinhalten auch die Möglichkeit, Antworten zu präzisieren oder nachzufragen. Die Qualität der Antwort hängt dabei sowohl von der Klarheit und Präzision des User Prompts als auch von den durch System Prompts festgelegten Grundregeln ab.

Chain of Thought

Chain of Thought (Gedankenkette) ist eine Prompt-Engineering-Technik, bei der der Mensch durch gezielte Prompts das KI-Modell anleitet, Antworten in einzelne, nachvollziehbare Denkschritte zu zerlegen. Anstatt das Modell direkt nach einer Lösung zu fragen, fordert der Prompt explizit dazu auf, den Lösungsweg schrittweise zu entwickeln und zu dokumentieren. Diese Technik führt oft zu genaueren Ergebnissen, da die einzelnen Gedankenschritte transparent und überprüfbar werden und komplexe Probleme systematisch in kleinere, handhabbare Einheiten zerlegt werden.

Few Shot Prompt

Ein Few Shot Prompt ist eine Anfrage an ein KI-Modell, bei der einige wenige Beispiele mitgeliefert werden, um dem Modell die gewünschte Art der Antwort oder Aufgabenlösung zu demonstrieren. Im Gegensatz zum Zero Shot Prompt, wo das Modell ohne Beispiele auskommen muss, werden hier typischerweise zwei bis fünf Beispiele gegeben, die das gewünschte Format oder die Herangehensweise veranschaulichen. Dies ist besonders nützlich bei speziellen oder ungewöhnlichen Aufgabenformaten, wo das Modell durch die Beispiele besser "verstehen" kann, was genau erwartet wird. Ein Few Shot Prompt könnte zum Beispiel erst zwei Beispiele für die Umwandlung von Sätzen in einen bestimmten Stil zeigen, bevor die eigentliche Aufgabe gestellt wird - ähnlich wie ein Lehrer erst ein paar Beispielaufgaben vorrechnet, bevor die Schüler selbst üben.

Zero Shot Prompt

Ein Zero Shot Prompt ist eine direkte Anfrage an ein KI-Modell, bei der keine spezifischen Beispiele oder vorherige Kontext-Information gegeben werden - das Modell muss die Aufgabe also "aus dem Stand" bewältigen, basierend auf seinem trainierten Wissen. Der Begriff "Zero Shot" bedeutet dabei, dass das Modell die Aufgabe ohne zusätzliche Hilfestellung oder Demonstration lösen muss, im Gegensatz zu "Few Shot" oder "One Shot" Prompts, bei denen Beispiele zur Orientierung mitgeliefert werden. Diese Art des Promptings testet die grundlegende Fähigkeit des Modells, neue Aufgaben ohne spezifische Anleitung zu verstehen und zu lösen, basierend auf seinem allgemeinen Verständnis von Sprache und Kontext.

System Prompting

System Prompting ist eine spezielle Form des Prompt Engineerings, bei der dem KI-Modell grundlegende Verhaltensweisen, Rollen oder Regeln durch einen speziellen "System Prompt" vorgegeben werden, der dem eigentlichen Nutzerdialog vorgeschaltet ist. Diese System Prompts definieren sozusagen die "Persönlichkeit" oder "Grundkonfiguration" des Modells - sie legen fest, wie das Modell kommunizieren soll, welche Rolle es einnimmt, welche Grenzen es hat und wie es auf bestimmte Situationen reagieren soll. Beispielsweise kann ein System Prompt festlegen, dass das Modell als Experte für ein bestimmtes Fachgebiet agieren, einen bestimmten Schreibstil verwenden oder spezifische Richtlinien befolgen soll. Im Gegensatz zu normalen Prompts bleiben diese Anweisungen während der gesamten Konversation aktiv und beeinflussen alle Antworten des Modells.

Die Interaktion mit Sprachmodellen

Inference - Verarbeitung
und Ausgabe

Inference ist der Anwendungsprozess eines trainierten KI-Modells, bei dem das Modell neue Eingaben basierend auf seinem trainierten Wissen verarbeitet und entsprechende Ausgaben erzeugt. Anders als in der Trainingsphase werden dabei keine Modellparameter mehr verändert - das Modell nutzt ausschließlich sein bereits gelerntes Wissen, um auf neue Situationen zu reagieren. Dieser Prozess findet bei jeder Nutzung eines KI-Modells statt, sei es bei der Texterstellung, Bildgenerierung, Übersetzung oder anderen KI-Anwendungen.

Prompting - Die Eingabe

Die direkte Interaktion mit Sprachmodellen, das Prompting, ist der Prozess der Kommunikation mit KI-Modellen durch die Formulierung von Eingabetexten (Prompts), die dem Modell mitteilen, welche Art von Ausgabe oder Verhalten gewünscht ist. Diese Prompts können von einfachen Fragen bis hin zu komplexen Anweisungen reichen, wobei die Qualität der Modellantworten oft direkt von der Klarheit und Präzision der Formulierung abhängt - ähnlich wie bei der Kommunikation mit Menschen ist auch hier die Art, wie wir fragen, entscheidend für die Antwort, die wir erhalten.

Kontextfenster

Das Kontextfenster, auch Context Window oder Context Length genannt, bezeichnet die maximale Anzahl von Tokens, die ein Sprachmodell gleichzeitig verarbeiten und "im Gedächtnis" behalten kann. Es umfasst sowohl den Input (die Anfrage oder den bisherigen Gesprächsverlauf) als auch den Output (die generierte Antwort). Man kann es sich als "Arbeitsgedächtnis" des Modells vorstellen - beispielsweise kann ein Modell mit 8k Kontextfenster etwa 6000 Wörter oder 12-15 Seiten Text gleichzeitig verarbeiten. Was über diese Grenze hinausgeht, wird "vergessen" oder abgeschnitten. Neuere Modelle mit größeren Kontextfenstern können entsprechend längere Texte verarbeiten und komplexere Zusammenhänge erfassen, weshalb die Größe des Kontextfensters ein wichtiger Leistungsindikator für die Fähigkeiten eines Modells ist.

Größe des Kontextfensters

Die Größe des Kontextfensters wird durch zwei Hauptfaktoren bestimmt: 1. Die Modellarchitektur und das Training: Die maximale Kontextlänge muss bereits beim Training des Modells festgelegt werden, da die Transformer-Architektur und die Attention-Mechanismen darauf ausgelegt sein müssen. Ein nachträgliches Erweitern ist nicht ohne weiteres möglich, da das Modell die längeren Sequenzen nicht verarbeiten gelernt hat. 2. Hardware-Limitierungen: Größere Kontextfenster bedeuten exponentiell steigenden Speicher- und Rechenaufwand, da die Attention-Mechanismen für jedes Token Beziehungen zu allen anderen Tokens berechnen müssen. Die verfügbare Hardware (besonders der GPU-Speicher) setzt hier praktische Grenzen. Die Modellentwickler müssen also bei der Architekturentwicklung und dem Training einen Kompromiss zwischen gewünschter Kontextlänge und praktischer Umsetzbarkeit finden. Neue Techniken wie "Sliding Window Attention" oder "Sparse Attention" versuchen diese Limitierungen zu umgehen.

Training von Sprachmodellen

Das Training von Sprachmodellen beginnt mit einer riesigen Menge an Textdaten, die das Modell analysiert, um Sprachmuster, Wortbeziehungen und Kontextinformationen zu lernen. Zunächst wird der Text in Tokens (kleine Einheiten wie Wörter oder Wortteile) zerlegt, die das Modell verarbeitet. Durch Deep Learning und den Einsatz von Techniken wie der Transformer-Architektur lernt das Modell, Vorhersagen zu treffen, welches Wort oder Token am wahrscheinlichsten als nächstes im Text folgen sollte, indem es Abhängigkeiten und Kontexte im Text berücksichtigt. Während des Trainings berechnet das Modell seine Vorhersagen und vergleicht sie mit den tatsächlichen Wörtern im Text, wobei es Fehler durch sogenannte Rückpropagation korrigiert. Dieser Prozess wiederholt sich millionenfach, wodurch das Modell allmählich lernt, sinnvolle und kohärente Texte zu generieren. Schließlich wird das Modell oft auf spezifische Aufgaben optimiert (Fine-Tuning), damit es präzise Antworten und Texte für spezielle Anwendungsbereiche liefern kann.

Label

Ein "Label" bezeichnet die korrekte Antwort oder Klassifikation, die als Zielwert bei überwachtem Lernen verwendet wird. Labels sind essentiell für das Training von LLMs, da sie dem Modell zeigen, welche Ausgabe für einen bestimmten Eingabetext erwartet wird. Durch den Vergleich seiner Vorhersagen mit diesen Labels kann ein LLM seine Parameter anpassen und lernen, bessere Vorhersagen zu machen. Labels entstehen typischerweise durch menschliche Annotation, bei der Experten oder Crowdworker Trainingsdaten manuell mit den korrekten Antworten oder Kategorien versehen.

Low-Rank Adaptation (LoRA)

LoRA (Low-Rank Adaptation) ist eine Technik zur effizienten Feinabstimmung großer KI-Modelle, die es ermöglicht, Modelle an spezifische Aufgaben oder Kontexte anzupassen, ohne alle Parameter ändern zu müssen. Bei LoRA wird ein Modell erweitert, indem nur eine kleine Anzahl zusätzlicher, „low-rank“ Parameter eingeführt wird, die während des Trainings angepasst werden. Diese Methode reduziert Rechen- und Speicherkosten erheblich, da die Grundparameter des Modells unverändert bleiben und nur die zusätzlichen Parameter trainiert werden. LoRA ist besonders nützlich für die Anpassung großer Sprachmodelle, da es ermöglicht, spezifische Anwendungen kosteneffizient zu optimieren, ohne das gesamte Modell neu trainieren zu müssen.

Proximal Policy Optimization
(PPO)

Proximal Policy Optimization (PPO) ist eine zentrale Trainingsmethode im RLHF-Prozess von Sprachmodellen, die das Modell behutsam in die gewünschte Richtung optimiert. Sie funktioniert wie ein vorsichtiger Lernprozess: Das Modell generiert zunächst verschiedene Antworten, die von Menschen bewertet werden. Basierend auf diesem Feedback lernt das Modell, welche Arten von Antworten "besser" sind. PPO stellt dabei sicher, dass sich das Modell nur schrittweise verändert und nicht zu stark von seinem ursprünglichen Verhalten abweicht - ähnlich wie ein behutsamer Lehrer, der Verbesserungen in kleinen, kontrollierten Schritten vornimmt. Der "Proximal" Teil bezieht sich dabei auf diese vorsichtige Annäherung: Das Modell darf sich bei jedem Trainingsschritt nur innerhalb bestimmter Grenzen verändern, um zu verhindern, dass bereits gelerntes Wissen oder Fähigkeiten verloren gehen. Diese Methode ist besonders wichtig für die Stabilität des Trainings und die Qualität der Endergebnisse.

Overfitting

Overfitting bezeichnet ein Phänomen im maschinellen Lernen, bei dem ein Modell die Trainingsdaten zu genau "auswendig lernt", anstatt die zugrundeliegenden Muster zu verstehen. Man kann sich das wie einen Schüler vorstellen, der für eine Matheprüfung nur die Beispielaufgaben auswendig lernt, statt die mathematischen Konzepte zu verstehen. Ein überangepasstes (overfitted) Modell: - Funktioniert hervorragend auf den bekannten Trainingsdaten - Versagt aber bei neuen, unbekannten Daten - Hat die spezifischen Beispiele "auswendig gelernt" - Kann nicht gut generalisieren Um Overfitting zu verhindern, nutzt man verschiedene Techniken wie: - Validierungsdatensätze zur Überprüfung - Early Stopping (Training wird gestoppt, bevor Overfitting eintritt) - Regularisierungsmethoden, die zu präzises Anpassen bestrafen Das Ziel ist ein ausgewogenes Training, das dem Modell ermöglicht, relevante Muster zu erkennen, ohne sich zu sehr auf spezifische Beispiele zu fixieren.

Epochen

Eine Epoche im Training eines KI-Modells bezeichnet einen vollständigen Durchlauf durch den gesamten Trainingsdatensatz. Man kann sich das wie einen kompletten Lerndurchgang vorstellen: In jeder Epoche sieht das Modell alle Trainingsdaten einmal und passt dabei seine Parameter (Gewichte und Biases) kontinuierlich an. Nach jeder Epoche wird typischerweise die Leistung des Modells evaluiert, um zu sehen, ob es sich verbessert hat oder ob Probleme wie Overfitting auftreten. Das Training eines Modells erstreckt sich meist über viele Epochen, wobei die optimale Anzahl von verschiedenen Faktoren abhängt - ähnlich wie ein Schüler, der den Lernstoff mehrmals durchgeht, aber irgendwann einen Punkt erreicht, ab dem weiteres Wiederholen keinen zusätzlichen Nutzen mehr bringt. Die Kunst liegt darin, den richtigen Zeitpunkt zum Beenden des Trainings zu finden.

Model Alignment

Model Alignment bezeichnet in der KI-Forschung die Ausrichtung von KI-Systemen an menschlichen Werten und Zielen. Ziel ist es, Systeme so zu gestalten, dass sie hilfreiche, sichere und verlässliche Ausgaben erzeugen – im Einklang mit gesellschaftlichen Normen und Erwartungen.

Ein zentrales Element dabei ist das Lernen durch menschliches Feedback. Dabei kommen Methoden wie Reinforcement Learning from Human Feedback (RLHF) zum Einsatz. Hier bewerten Menschen Modellantworten, und diese Bewertungen fließen in ein Belohnungsmodell ein, das die weitere Optimierung der KI steuert. Eine alternative Herangehensweise ist Constitutional AI, bei der ein Modell auf Basis eines festgelegten Regelwerks („Verfassung“) lernt, seine Ausgaben eigenständig zu hinterfragen und zu überarbeiten.

Neuere Verfahren wie Reinforcement Learning from AI Feedback (RLAIF) nutzen Rückmeldungen anderer KI-Modelle, um menschliches Feedback zu ergänzen oder zu ersetzen. Solche Methoden gewinnen an Bedeutung, insbesondere bei der Skalierung von Trainingsprozessen großer Modelle.

Die Bedeutung von Model Alignment ist mit der Entwicklung leistungsstarker Systeme wie GPT-4 (OpenAI) oder Claude (Anthropic) deutlich gewachsen. Je leistungsfähiger diese Systeme werden, desto wichtiger ist es, dass sie im Sinne der Nutzer handeln, keine schädlichen oder unerwünschten Ausgaben produzieren und dabei transparente, nachvollziehbare Entscheidungen treffen.

Fine-Tuning

Beim Fine-Tuning wird ein vortrainiertes Modell auf spezifische Aufgaben oder Wissensbereiche hin optimiert, indem man es mit sorgfältig ausgewählten, aufgabenspezifischen Datensätzen weitertrainiert. Man kann sich das wie eine Spezialisierung nach dem Grundstudium vorstellen: Das Modell hat durch Pre-Training bereits ein breites "Grundwissen" erworben und wird nun - ähnlich einem Medizinstudenten, der sich zum Chirurgen spezialisiert - für bestimmte Anwendungsfälle verfeinert, etwa für medizinische Analysen, juristische Texte oder Programmieraufgaben.

Pre-Training

In der ersten Trainingsphase, dem Pre-Training, wird das Modell mit gewaltigen Mengen an Texten gefüttert und lernt dabei wie ein Sprachschüler die grundlegenden Muster von Sprache, indem es ständig versucht vorherzusagen, welches Wort als nächstes kommen könnte. Dabei passt es sich durch sogenannte Next-Token-Prediction selbstständig an und lernt ohne menschliche Hilfe, wie Sprache funktioniert - ähnlich einem Kind, das zunächst einfach durch Zuhören und Nachmachen lernt, bevor es gezielt unterrichtet wird.

Trainingsparameter

Trainingsparameter sind die anpassbaren Werte innerhalb eines Modells, die während des Trainings optimiert werden, um die Leistung des Modells zu verbessern. Diese Parameter, oft in Form von sogenannten Gewichten und Biases in neuronalen Netzwerken, bestimmen, wie stark einzelne Neuronen in den Schichten des Modells aktiviert werden und wie das Modell Eingabemuster verarbeitet. Im Kontext großer Sprachmodelle sind die Anzahl und Optimierung dieser Parameter entscheidend dafür, wie gut das Modell komplexe Muster in Daten erkennt, Sprachzusammenhänge versteht und sinnvolle, kontextbezogene Antworten generiert. Viele Open Source Modelle haben deshalb in Ihrem Namen ein Postfix, dass für die Anzahl der der Trainingsparameter steht und damit eine Auskunft über die Leistungsfähigkeit geben soll. Beispiel: Llama 3.2 405B steht für 405 Milliarden (*englisch "405 billions")* Trainingsparameter.

Bias

Ein Bias (oder Schwellenwert) in einem neuronalen Netzwerk ist ein zusätzlicher Wert, der die Aktivierungsschwelle eines Neurons bestimmt. Man kann sich den Bias wie einen "Grundzustand" oder eine "Voreinstellung" des Neurons vorstellen: Er verschiebt die Aktivierungsfunktion des Neurons nach oben oder unten und bestimmt damit, wie leicht oder schwer das Neuron "feuert". Ein positiver Bias macht das Neuron empfindlicher, sodass es schon bei geringeren Eingangssignalen aktiv wird. Ein negativer Bias macht es weniger empfindlich, sodass stärkere Signale nötig sind. Diese Biases sind, zusammen mit den Gewichten, entscheidend für die Lernfähigkeit des Netzwerks - sie ermöglichen es dem Modell, komplexere Muster zu erkennen und nicht nur lineare Zusammenhänge abzubilden. Wie die Gewichte werden auch die Biases während des Trainings automatisch angepasst.

Gewicht

Ein Gewicht in einem neuronalen Netzwerk ist ein numerischer Wert, der die Stärke der Verbindung zwischen zwei Neuronen bestimmt. Man kann sich dies wie die "Wichtigkeit" einer bestimmten Verbindung vorstellen: Ein höheres Gewicht bedeutet, dass diese Verbindung einen stärkeren Einfluss auf die nachfolgende Verarbeitung hat - ähnlich wie bei bestimmten Informationen, die wir als besonders relevant einstufen. Ein niedriges oder negatives Gewicht hingegen schwächt den Einfluss ab oder kann sogar hemmend wirken. Während des Trainings werden diese Gewichte ständig angepasst: Wenn das Modell Fehler macht, werden die Gewichte leicht verändert, um bessere Ergebnisse zu erzielen. Dies geschieht millionenfach, bis das Netzwerk die gewünschten Muster erkennt und korrekt verarbeitet. Die Gesamtheit aller Gewichte speichert somit das "gelernte Wissen" des Modells.

Trainingsdaten

Trainingsdaten für KI-Modelle sollten bestimmte grundlegende Qualitätsmerkmale erfüllen: Die Daten sollten divers und repräsentativ sein - sie müssen die reale Vielfalt der Anwendungsfälle abbilden, für die das Modell später eingesetzt werden soll. Dabei ist Ausgewogenheit wichtig, um Verzerrungen (Bias) zu vermeiden. Die Qualität der Daten ist entscheidend - sie müssen korrekt, konsistent und sauber sein. Fehlerhafte oder widersprüchliche Daten können das Modell in die falsche Richtung trainieren. Auch die Strukturierung und Annotation der Daten muss den Trainingszielen entsprechen. Besonders wichtig ist auch der Umfang der Daten - je komplexer die Aufgabe, desto mehr qualitativ hochwertige Trainingsdaten werden benötigt. Für spezialisierte Aufgaben sind dabei oft domänenspezifische Datensätze erforderlich, die die jeweiligen Fachbegriffe und Zusammenhänge abdecken.

Einer der bekanntesten große Sätze an
Trainingsdaten: "The Pile"

The Pile ist ein öffentlich verfügbarer Datensatz von EleutherAI aus dem Jahr 2020, der für das Training von großen Sprachmodellen entwickelt wurde. Es ist ein sehr umfangreicher Datensatz (etwa 825 GB Textdaten) aus diversen Quellen wie wissenschaftlichen Publikationen, Programmcode, Webseiten, Büchern und anderen Textquellen. Was "The Pile" besonders macht, ist seine sorgfältige Kuratierung für KI-Training und der offene Zugang - im Gegensatz zu vielen proprietären Trainingsdatensätzen. Er wurde so zusammengestellt, dass er eine breite, qualitativ hochwertige Wissensbasis für das Training von Sprachmodellen bietet. Hauptquellen sind: - Wikipedia und andere Wikis - GitHub (Programmcode und Dokumentationen) - PubMed Central (medizinische Publikationen) - Arxiv (wissenschaftliche Paper) - Stack Exchange (Q&A-Plattformen) - USPTO Patente - Project Gutenberg (Bücher) - OpenSubtitles (Untertitel) - YoutubeSubtitles - PhilPapers (philosophische Texte) - NIH ExPorter (Forschungsberichte) - Enron Emails - DM Mathematics (mathematische Diskussionen) - Ubuntu IRC-Logs - BookCorpus - OpenWebText2 - HackerNews

Small Language Models (SLM)

Ein Small Language Model (SLM) ist ein neuronales Sprachmodell mit einer vergleichsweise geringen Anzahl an Parametern (typischerweise unter 1 Milliarde), das für spezifische Aufgaben oder Domänen optimiert wurde. SLMs sind ressourceneffizienter als große Modelle und können auf Edge-Geräten oder in Umgebungen mit begrenzten Rechenkapazitäten eingesetzt werden.

"Lightweight" LLM

Lightweight LLMs sind komprimierte oder destillierte Versionen größerer Sprachmodelle, die darauf abzielen, die wesentlichen Fähigkeiten des ursprünglichen Modells bei deutlich reduziertem Ressourcenbedarf zu erhalten. Sie entstehen durch verschiedene Optimierungstechniken wie Quantisierung, Pruning oder Knowledge Distillation, wobei das Ziel ist, die Modellgröße und den Ressourcenverbrauch zu minimieren, während möglichst viel der ursprünglichen Leistungsfähigkeit bewahrt wird. Der Hauptvorteil von Lightweight LLMs liegt in ihrer Einsatzfähigkeit auf ressourcenbeschränkten Systemen oder Edge-Geräten, wodurch sie sich besonders für lokale Anwendungen eignen, bei denen Effizienz und Geschwindigkeit wichtig sind.

Large Language Models (LLM)

Ein Large Language Model (LLM) ist ein neuronales Sprachmodell mit einer sehr großen Anzahl an Parametern (typischerweise über 1 Milliarde), das auf großen Textmengen trainiert wurde. LLMs können durch ihr umfangreiches Training komplexe sprachliche Muster erkennen und für vielfältige Aufgaben wie Textgenerierung, Übersetzung oder Beantwortung von Fragen eingesetzt werden.

Mixture of Experts (MoE)

Mixture of Experts (MoE) ist eine KI-Architektur, bei der mehrere spezialisierte neuronale Netzwerke (Experten) parallel existieren, wobei ein Gating-Mechanismus dynamisch entscheidet, welche Experten für eine bestimmte Eingabe aktiviert werden sollen. Der Gating-Mechanismus bewertet jede Eingabe und leitet sie an die relevantesten Experten weiter, oft durch "Sparse Gating", bei dem nur eine kleine Teilmenge aller verfügbaren Experten aktiviert wird. Diese Kombination aus Spezialisierung und selektiver Aktivierung ermöglicht wesentlich größere und leistungsfähigere Modelle, die effizienter mit Rechenressourcen umgehen, da für jede Anfrage nur ein Bruchteil des gesamten Modells berechnet werden muss.

Embedding Layer

Ein Embedding Layer ist eine grundlegende Komponente in Sprachmodellen, die Text für die weitere Verarbeitung vorbereitet, indem sie Wörter oder Tokens in dichte, kontinuierliche Vektoren (Embeddings) umwandelt. Diese Vektoren stellen Wörter in einem mehrdimensionalen Raum dar, wobei semantisch ähnliche Wörter nahe beieinander liegen - beispielsweise würden die Vektoren für "König" und "Königin" oder "laufen" und "rennen" ähnliche Positionen im Vektorraum einnehmen. Das ist wichtig, weil neuronale Netze nicht direkt mit Text arbeiten können, sondern numerische Repräsentationen benötigen, wobei die Embeddings die Bedeutung und Beziehungen zwischen Wörtern in einer für das Modell verarbeitbaren Form kodieren.

KI-Architekturen

Mamba

Mamba ist eine neuartige Architektur für große Sprachmodelle (Large Language Models, LLMs), die im Dezember 2023 von Forschern um Albert Gu (Carnegie Mellon University) und Tri Dao vorgestellt wurde. Sie wurde als Alternative zur verbreiteten Transformer-Architektur entwickelt.

Die Grundlage von Mamba bildet ein selektives State-Space-Modell (S4), das für die effiziente Verarbeitung langer Eingabesequenzen optimiert wurde. S4-Modelle funktionieren dabei wie ein dynamisches Gedächtnissystem, das kontinuierlich einen kompakten Zustand der bisherigen Eingabe pflegt und bei neuen Informationen nur diesen Zustand aktualisiert, anstatt die gesamte Historie neu zu verarbeiten.

Diese Architektur ermöglicht es, relevante Informationen aus sehr langen Sequenzen zu extrahieren, ohne dass der Rechenaufwand quadratisch mit der Sequenzlänge ansteigt. Im Gegensatz zu Transformer-basierten Ansätzen verwendet Mamba keine Selbstaufmerksamkeit (Attention), sondern ein lineares Zustandsmodell. Dadurch erreicht die Architektur eine lineare Zeitkomplexität beim Training sowie konstante Rechenzeit pro Schritt während der Inferenz, was insbesondere bei sehr langen Sequenzen zu Vorteilen führt.

Seit der Veröffentlichung wird Mamba aktiv weiterentwickelt. Im Mai 2024 wurde bereits Mamba-2 mit weiteren Optimierungen vorgestellt. Neben dem Einsatz in Sprachverarbeitung findet die Architektur zunehmend Anwendung in anderen Bereichen der Sequenzverarbeitung, etwa bei Audiodaten, Bildverarbeitung oder in der Genomik.

Erste Varianten wie „Speech-Mamba" und „Vision-Mamba" demonstrieren die Übertragbarkeit des Konzepts auf verschiedene Datentypen. Die Architektur hat sich als besonders effektiv für Sequenzen mit über einer Million Token erwiesen.

Diffusionsmodelle

Ein Diffusionsmodell ist ein generatives KI-Modell, das darauf basiert, schrittweise Rauschen aus Daten zu entfernen, um neue Inhalte wie Bilder oder Audiodaten zu generieren. Im Training lernen Diffusionsmodelle, wie sie den Prozess der „Verrauschung“ umkehren können, indem sie aus verrauschten Daten stufenweise klare und realistische Darstellungen erzeugen. In der Praxis beginnt ein Diffusionsmodell mit einer zufälligen, verrauschten Version eines Bildes oder einer anderen Datenstruktur und rekonstruiert daraus schrittweise eine klare Version. Diese Methode hat in der Bildgenerierung (z. B. bei Modellen wie DALL-E oder Stable Diffusion) große Fortschritte ermöglicht, da sie besonders gut darin ist, detailreiche und natürliche Ergebnisse zu erzeugen.

Transformer-Modelle

Die Transformer-Architektur, 2017 von Google mit dem Paper "Attention is All You Need" eingeführt, revolutionierte die Verarbeitung von Sprache durch einen neuartigen Aufbau: Die Kernelemente sind: 1. Der "Self-Attention"-Mechanismus, der es dem Modell ermöglicht, die Bedeutung eines Wortes im Kontext aller anderen Wörter eines Satzes gleichzeitig zu erfassen, statt sequentiell wie bei früheren Architekturen 2. Eine Encoder-Decoder-Struktur, wobei der Encoder die Eingabe verarbeitet und in eine abstrakte Repräsentation umwandelt, während der Decoder diese Repräsentation in die gewünschte Ausgabe übersetzt 3. Multi-Head Attention, die es ermöglicht, verschiedene Arten von Beziehungen zwischen Wörtern parallel zu analysieren 4. Positional Encoding, das die Position der Wörter im Text berücksichtigt Diese Architektur ermöglicht es modernen Sprachmodellen, Sprache deutlich besser zu verstehen und zu generieren als frühere Ansätze.

Deep Learning

Deep Learning ist die zentrale Technologie, die moderne Sprachmodelle überhaupt erst möglich macht, da sie durch ihre vielschichtigen (tiefen) neuronalen Netzwerke komplexe sprachliche Muster und Zusammenhänge aus großen Datenmengen lernen können. Die Besonderheit liegt in der Fähigkeit des Deep Learning, durch seine vielen Verarbeitungsebenen (Layer) automatisch relevante Merkmale aus den Rohdaten zu extrahieren - von einfachen Wortbeziehungen in den unteren Schichten bis hin zu komplexen semantischen Konzepten in den höheren Schichten, wobei die Transformer-Architektur als spezielle Form des Deep Learning den aktuellen Stand der Technik für Sprachmodelle darstellt.

Ground Truth

Ground Truth im Kontext von Machine Learning bezeichnet präzise und verifizierte Daten, die als Referenz für das Training, die Validierung und das Testen von Modellen verwendet werden. Diese Daten dienen als "goldener Standard", um die Genauigkeit der Modellvorhersagen zu überprüfen, indem sie mit den tatsächlichen, beobachteten Ergebnissen verglichen werden. Besonders in überwachten Lernverfahren ist Ground Truth essenziell, da Modelle durch korrekt gelabelte Datensätze lernen, Muster zu erkennen und Vorhersagen zu treffen. Die Qualität und Zuverlässigkeit der Ground-Truth-Daten beeinflusst direkt die Leistung des Modells und ist entscheidend für dessen Anwendung in realen Szenarien.

Trainingsmethoden

Retrieval Augmented Fine Tuning (RAFT)

RAFT (Retrieval Augmented Fine Tuning) ist eine 2024 von Forschern der UC Berkeley entwickelte Trainingsmethode für Large Language Models (LLMs). Ziel der Methode ist es, Modelle gezielt auf den Umgang mit domänenspezifischen Dokumentensammlungen in Retrieval-Augmented Generation (RAG) vorzubereiten. Entwickelt wurde RAFT von einer Forschungsgruppe um Tianjun Zhang und Shishir G. Patil, die zuvor durch das Projekt Gorilla LLM bekannt wurde.

Das Verfahren adressiert die Grenzen herkömmlicher Fine-Tuning-Ansätze, die oft auf Memorierung beruhen, und passt Modelle an Szenarien an, in denen relevante Informationen aus gemischten Dokumentensammlungen extrahiert werden müssen.

Das Trainingsverfahren kombiniert drei zentrale Elemente: Erstens werden Modelle mit einer Mischung aus relevanten („oracle") Dokumenten und irrelevanten („distractor") Dokumenten trainiert. Zweitens wird die Verfügbarkeit relevanter Dokumente variiert – der optimale Anteil von Trainingsdaten ohne relevante Dokumente variiert je nach Datensatz zwischen 0 und 60 Prozent. Drittens erzeugen die Modelle Antworten im Chain-of-Thought-Format, die Quellenangaben zu den verwendeten Dokumenten enthalten. Dadurch lernen sie, irrelevante Informationen zu ignorieren und korrekte Belege aus relevanten Dokumenten zu zitieren.

In Evaluierungen auf Datensätzen wie PubMed, HotpotQA und mehreren Gorilla-Benchmarks (z. B. HuggingFace Hub, Torch Hub, TensorFlow Hub) zeigten RAFT-trainierte Modelle deutliche Leistungsverbesserungen im Vergleich zu Standard-Fine-Tuning und Baseline-RAG-Implementierungen. Die publizierten Ergebnisse belegen konsistente Steigerungen der Genauigkeit und eine erhöhte Robustheit bei variierender Anzahl von Dokumenten in der Inferenzphase.

Als Implementierungsbasis nutzten die Forscher Meta LLaMA 2 in der 7-Milliarden-Parameter-Version auf Microsoft Azure AI Studio. Der Code sowie eine Demonstration wurden als Open Source unter Apache 2.0 Lizenz veröffentlicht.

Damit wird gezeigt, dass auch kleinere, spezialisiert trainierte Modelle in domänenspezifischen Anwendungen mit deutlich größeren, generisch trainierten Modellen konkurrieren können.

Reinforcement Learning

Reinforcement Learning ist ein KI-Lernparadigma, bei dem ein System durch Interaktion mit einer Umgebung lernt, indem es für wünschenswerte Aktionen belohnt und für unerwünschte bestraft wird, wodurch es eine Strategie entwickelt, die langfristige Belohnungen maximiert. Dieser Ansatz ermöglicht KI-Systemen, komplexe Aufgaben eigenständig zu meistern, ohne dass ihnen explizite Lösungswege vorgegeben werden müssen. Die Trial-and-Error-Methodik des Reinforcement Learning führt zu adaptiven, selbstverbessernden Systemen, die in unvorhersehbaren und dynamischen Umgebungen agieren können. Für Large Language Models bietet Reinforcement Learning die Möglichkeit, über das reine Vorhersagen von Wörtern hinaus zu komplexen Zielen wie Nützlichkeit, Ehrlichkeit und Sicherheit optimiert zu werden. Diese Optimierung transformiert LLMs von reinen Text-Vorhersagemaschinen zu Assistenzsystemen, die bewusst auf die Qualität ihrer Antworten im Sinne menschlicher Werte und Erwartungen ausgerichtet sind.

Reinforcement Learning from AI Feedback (RLAIF)

Reinforcement Learning from AI Feedback (RLAIF) ist ein Verfahren des maschinellen Lernens, bei dem ein KI-System durch Rückmeldungen eines anderen, bewertenden KI-Modells lernt – anstelle von menschlichem Feedback. Das lernende System führt dabei Handlungen aus, die vom Bewertungsmodell beurteilt werden. Dieses Modell wurde zuvor darauf trainiert, menschliche Präferenzen nachzuvollziehen. Die Bewertungen werden in Form von Belohnungssignalen verwendet, um das Verhalten des lernenden Systems zu verbessern.

RLAIF basiert auf den Prinzipien des bestärkenden Lernens (Reinforcement Learning), bei dem gewünschtes Verhalten durch positive Rückmeldungen verstärkt und unerwünschtes Verhalten reduziert wird. Das Verfahren wurde entwickelt, um den hohen Zeit- und Kostenaufwand menschlicher Bewertungen im klassischen Ansatz RLHF (Reinforcement Learning from Human Feedback) zu reduzieren. Studien zeigen, dass RLAIF etwa ein Zehntel der Kosten von RLHF verursachen kann.

Eingesetzt wird RLAIF vor allem bei der Entwicklung großer Sprachmodelle, um deren Antworten hilfreicher, sicherer und verlässlicher zu gestalten. Dabei kommt häufig eine sogenannte „Verfassung" zum Einsatz – ein Regelwerk aus menschlich formulierten Prinzipien, das das bewertende KI-System zur Einschätzung von Antworten nutzt. Dieses Konzept wurde unter dem Namen „Constitutional AI" erstmals von Anthropic im Dezember 2022 eingeführt.

Untersuchungen zeigen, dass RLAIF in bestimmten Bereichen ähnlich gute oder sogar bessere Ergebnisse als RLHF erzielt. So erreichte RLAIF in Tests zur Harmlosigkeit eine Erfolgsquote von 88 %, verglichen mit 76 % bei RLHF – ohne dabei die Hilfsbereitschaft der Antworten zu beeinträchtigen. Die Qualität der Ergebnisse hängt jedoch maßgeblich von der Genauigkeit und Fairness des bewertenden KI-Systems ab.

Ein Vorteil von RLAIF ist die bessere Skalierbarkeit: Automatisierte Rückmeldungen lassen sich schneller und konsistenter generieren als menschliche. Neuere Ansätze wie „direct-RLAIF" (d-RLAIF) gehen noch einen Schritt weiter, indem sie auf die explizite Modellierung von Belohnungssystemen verzichten und stattdessen direkt auf die Rückmeldungen des KI-Bewertungsmodells während des Trainingsprozesses zugreifen.

Reinforcement Learning with
Human Feedback (RLHF)

Nach dem Fine-tuning kommt typischerweise das RLHF (Reinforcement Learning from Human Feedback), bei dem das Modell durch menschliches Feedback lernt, bessere und vor allem nützlichere Antworten zu generieren. Dabei bewerten Menschen die Ausgaben des Modells, und das System lernt aus diesem Feedback, welche Antworten als hilfreich und angemessen empfunden werden - ähnlich wie ein Praktikant, der von erfahrenen Kollegen Rückmeldung zu seiner Arbeit bekommt und daraus lernt, wie er sich verbessern kann. Zusätzlich werden oft noch spezielle Sicherheits- und Alignment-Techniken wie Constitutional AI eingesetzt, die sicherstellen sollen, dass das Modell ethisch und sicher agiert und seine Fähigkeiten im Sinne menschlicher Werte einsetzt.

Supervised Learning

Supervised Learning ist ein Paradigma des maschinellen Lernens, bei dem Algorithmen anhand von Beispielpaaren aus Eingaben und korrekten Ausgaben (Labels) trainiert werden, um Muster zu erkennen und Regeln abzuleiten. Diese Methode ermöglicht es KI-Systemen, Zusammenhänge zwischen Merkmalen und Zielwerten zu erlernen und auf neue, ungesehene Daten zu verallgemeinern. Supervised Learning bildet die Grundlage für zahlreiche praktische KI-Anwendungen wie Bilderkennung, Sprachübersetzung oder medizinische Diagnostik, da es präzise Vorhersagen auf klar definierten Aufgaben ermöglicht. Für Large Language Models wird Supervised Learning insbesondere beim Finetuning eingesetzt, wo vortrainierte Modelle auf spezifische Aufgaben oder gewünschte Verhaltensweisen hin optimiert werden, indem sie mit hochwertigen Beispielen für korrekte Antworten auf bestimmte Anfragen trainiert werden. Diese supervised Feinabstimmung ist entscheidend, um LLMs von allgemeinen Sprachmodellen zu nützlichen Assistenzsystemen zu transformieren, die präzise auf menschliche Anfragen reagieren und spezifische Aufgaben zuverlässig erfüllen können.

Unsupervised Learning

Unsupervised Learning ist ein Paradigma des maschinellen Lernens, bei dem Algorithmen ohne vorgegebene Labels oder Zielwerte Muster, Strukturen und Zusammenhänge in Daten selbständig erkennen und extrahieren. Dieser Ansatz ermöglicht es KI-Systemen, verborgene Strukturen in großen, unstrukturierten Datensätzen zu entdecken und zu organisieren, wie beispielsweise durch Clustering, Dimensionsreduktion oder Anomalieerkennung. Da Unsupervised Learning keine menschlich etikettierten Daten benötigt, kann es mit deutlich größeren Datenmengen trainiert werden und eignet sich besonders für Aufgaben, bei denen die "richtigen Antworten" nicht im Voraus bekannt sind. Für Large Language Models ist Unsupervised Learning in der Regel die Grundlage des Pre-Training-Prozesses, bei dem die Modelle anhand enormer Textmengen lernen, Wortsequenzen vorherzusagen und dadurch ein tiefes Verständnis für Sprache, Wissen und Kontext entwickeln. Diese unsupervised vortrainierten Sprachmodelle erfassen die statistischen Muster menschlicher Sprache und bilden damit das Fundament, auf dem spezifischere Fähigkeiten durch nachfolgende Trainingsmethoden aufbauen können.

KI und IT

DevOps

DevOps verbindet die Softwareentwicklung (Development) mit dem IT-Betrieb (Operations). Das "Ops" in DevOps steht für Operations, also den Betrieb und die Verwaltung von IT-Systemen.

Bei DevOps arbeiten Entwickler und IT-Betriebsteams eng zusammen, statt wie früher in getrennten Abteilungen. Sie teilen sich die Verantwortung für Software über den gesamten Lebenszyklus - von der Entwicklung über Tests bis hin zum laufenden Betrieb.

Der IT-Betrieb kümmert sich dabei um Aufgaben wie die Überwachung von Servern und Netzwerken, die Wartung der Systeme, Updates und die Sicherstellung, dass alle IT-Dienste zuverlässig funktionieren. Durch DevOps werden diese Betriebsaufgaben mit der Entwicklung verzahnt, sodass Software schneller und stabiler ausgeliefert werden kann.

LLMOps

LLMOps steht für „Large Language Model Operations" und bezeichnet ein spezialisiertes Arbeitsgebiet innerhalb der künstlichen Intelligenz. Es umfasst alle Methoden, Werkzeuge und Prozesse, die notwendig sind, um große Sprachmodelle wie GPT, Claude oder Gemini zuverlässig in produktiven Anwendungen zu betreiben.

Im Mittelpunkt von LLMOps steht das Ziel, den Einsatz solcher Modelle effizient, sicher und wirtschaftlich zu gestalten. Zu den typischen Aufgaben gehören:

die Optimierung von Eingabeaufforderungen (Prompts),
die Überwachung der Modellleistung,
die Kontrolle von Betriebskosten,
sowie die Umsetzung von Sicherheits- und Compliance-Maßnahmen.

LLMOps ist entstanden, weil große Sprachmodelle sich grundlegend anders verhalten als klassische Software oder konventionelle maschinelle Lernsysteme. Sie sind oft nicht deterministisch, reagieren empfindlich auf Eingaben und bringen neue Herausforderungen im Hinblick auf Skalierbarkeit und Qualitätssicherung mit sich. Daher erfordert ihr produktiver Einsatz spezielle Strategien und Werkzeuge.

Als Teilgebiet von MLOps (Machine Learning Operations) hat sich LLMOps insbesondere seit Ende 2022 rasant entwickelt – beschleunigt durch die Veröffentlichung von ChatGPT im Dezember 2022 und der darauf folgenden breiten Integration von Sprachmodellen in Unternehmensanwendungen. Heute umfasst LLMOps auch weiterführende Praktiken wie Retrieval-Augmented Generation (RAG), Reinforcement Learning from Human Feedback (RLHF) und das Management von Prompt-Versionen.

LLMOps hilft Unternehmen dabei, KI-basierte Anwendungen stabil zu betreiben und dabei gleichzeitig Skalierbarkeit, Sicherheit und geschäftlichen Mehrwert zu gewährleisten.

MLOps

MLOps steht für „Machine Learning Operations“ und bezeichnet eine Reihe von Praktiken und Technologien, die darauf abzielen, Modelle des maschinellen Lernens effizient, zuverlässig und reproduzierbar in Produktionsumgebungen zu betreiben. Der Begriff kombiniert „maschinelles Lernen“ (ML) mit Prinzipien aus dem DevOps-Ansatz der Softwareentwicklung.

MLOps automatisiert und strukturiert Arbeitsabläufe rund um die Entwicklung, das Training, die Bereitstellung und die kontinuierliche Überwachung von ML-Modellen. Ziel ist es, den gesamten Lebenszyklus eines Modells – von der Konzeption bis zur produktiven Nutzung – nahtlos und skalierbar zu gestalten.

Diese Disziplin fördert die enge Zusammenarbeit zwischen Datenwissenschaftler:innen, Softwareentwickler:innen und IT-Betriebsteams. Zu den zentralen Prinzipien von MLOps gehören:

Automatisierung: z. B. bei Training, Tests und Deployment
Versionierung: von Daten, Modellen und Code
Reproduzierbarkeit: für verlässliche Ergebnisse in verschiedenen Umgebungen
Monitoring: zur Überwachung der Modellleistung in Echtzeit

Die Vorteile von MLOps liegen in einer gesteigerten Effizienz, besseren Skalierbarkeit und der Reduzierung operativer Risiken. Unternehmen können Machine-Learning-Modelle damit schneller produktiv einsetzen und langfristig stabil betreiben.

KI-Infrastruktur

Die Infrastruktur ist von entscheidender Bedeutung für KI, da sie die Grundlage für das Training, die Bereitstellung und den Betrieb komplexer Modelle bildet. Hochleistungsfähige Hardware wie GPUs, skalierbare Cloud-Dienste und optimierte Datenpipelines ermöglichen es, die enormen Rechenanforderungen und Datenmengen moderner KI-Anwendungen effizient zu bewältigen. Ohne eine robuste und skalierbare Infrastruktur wäre die Entwicklung und Nutzung leistungsfähiger KI-Modelle in großem Maßstab nicht möglich.

Prozessor-Typen

Unified Memory

Unified Memory bezeichnet eine Speicherarchitektur, bei der sich CPU und GPU einen gemeinsamen Arbeitsspeicher teilen, anstatt separate Speicherbereiche zu verwenden. Diese gemeinsame Nutzung eliminiert die Notwendigkeit, Daten zwischen CPU- und GPU-Speicher zu kopieren, was zu deutlich schnelleren Verarbeitungszeiten und einer effizienteren Speichernutzung führt. Das Konzept wurde besonders durch Apple's M1/M2/M3-Chips populär, die diese Architektur erfolgreich einsetzen, ist aber auch in anderen modernen Systemen wie Gaming-Konsolen zu finden. Die gemeinsame Speichernutzung ermöglicht es dem System, die verfügbare Speicherbandbreite dynamisch zwischen CPU und GPU aufzuteilen, wodurch die Gesamtleistung des Systems optimiert wird.

Tensor Processing Unit (TPU)

TPUs (Tensor Processing Units) sind spezialisierte KI-Beschleuniger, die von Google entwickelt wurden. Sie sind darauf ausgelegt, die bei KI-Modellen häufig vorkommenden Tensoroperationen besonders effizient auszuführen. TPUs gibt es in zwei Hauptvarianten: Einige sind für das rechenintensive Training von KI-Modellen optimiert, während andere speziell für Inference - also das Ausführen bereits trainierter Modelle - designed sind. Die Inference-optimierten TPUs können als eine Art von Inference-Chips betrachtet werden, auch wenn sie sich von klassischen Inference-Chips durch ihre spezielle Architektur unterscheiden. Im Gegensatz zu reinen Inference-Chips, die ausschließlich für die Modellausführung gedacht sind, bieten TPUs also mehr Flexibilität. Sie werden hauptsächlich in Googles Cloud-Infrastruktur eingesetzt, wo sie je nach Version und Konfiguration sowohl für Training als auch für Inference genutzt werden können. Diese Vielseitigkeit macht sie zu einem besonderen Typ von KI-Beschleunigern.

Inference-Chip

Inference-Chips sind spezialisierte Prozessoren, die für die effiziente Ausführung (Inference) von bereits trainierten KI-Modellen optimiert sind. Diese AI Accelerators unterscheiden sich von klassischen GPUs und CPUs dadurch, dass sie spezifisch für die bei KI-Inference benötigten Berechnungen designed sind und dabei besonders energie- und kosteneffizient arbeiten.

Language Processing Unit (LPU)

Eine LPU (Language Processing Unit) ist eine spezialisierte Hardware-Komponente, die speziell für die effiziente Verarbeitung von Sprachmodellen und NLP-Aufgaben (Natural Language Processing) entwickelt wurde. Im Gegensatz zu GPUs und CPUs ist sie spezifisch für die Anforderungen von Transformer-Architekturen und Attention-Mechanismen optimiert, was sie besonders effizient bei der Ausführung großer Sprachmodelle macht. Der Hauptzweck von LPUs liegt in der Reduzierung von Betriebskosten und Energieverbrauch bei der Ausführung von Sprachmodellen, während gleichzeitig die Geschwindigkeit der Inferenz verbessert wird. Als relativ neue Entwicklung in der KI-Hardware sind LPUs noch weniger verbreitet als GPUs oder CPUs, repräsentieren aber den wichtigen Trend hin zu spezialisierter Hardware für spezifische KI-Anwendungen.

HyperAccel

HyperAccel ist ein südkoreanisches Technologieunternehmen, das sich auf die Entwicklung von Hardwarelösungen für Künstliche Intelligenz (KI) spezialisiert hat und derzeit eine Language Processing Unit (LPU) entwickelt. Diese LPU ist darauf ausgelegt, die Verarbeitung großer Sprachmodelle effizienter und schneller zu gestalten, um speziell die Anforderungen transformerbasierter KI-Modelle zu erfüllen. In Zusammenarbeit mit SEMIFIVE arbeitet HyperAccel am KI-Chip „Bertha“, der auf der LPU-Technologie basiert und ab 2026 in die Massenproduktion gehen soll, um die Skalierbarkeit und Leistung von KI-Anwendungen zu verbessern.

Groq

Groq ist ein US-amerikanisches Technologieunternehmen, das 2016 gegründet wurde und sich auf die Entwicklung spezialisierter Hardware für Künstliche Intelligenz (KI) fokussiert. Mit ihrer Language Processing Unit (LPU) bietet Groq eine Lösung, die besonders für die effiziente Verarbeitung großer Sprachmodelle ausgelegt ist und hohe Geschwindigkeit sowie Energieeffizienz ermöglicht. Das Unternehmen setzt dabei auf innovative KI-Beschleunigertechnologien, die die Leistung und Skalierbarkeit für anspruchsvolle KI-Anwendungen optimieren.

Graphics Processing Unit (GPU)

Eine GPU (Graphics Processing Unit) ist ein spezieller Prozessor, der ursprünglich entwickelt wurde, um Grafiken und Bilder schnell zu rendern, indem er viele einfache Berechnungen parallel verarbeitet. Diese parallele Rechenkapazität macht GPUs auch ideal für KI- und maschinelles Lernen, insbesondere für das Training und die Ausführung großer neuronaler Netzwerke, die Millionen von Berechnungen parallel ausführen. Im KI-Bereich beschleunigen GPUs die Verarbeitungsgeschwindigkeit erheblich, was entscheidend ist, um große Datenmengen in kürzerer Zeit zu verarbeiten und komplexe Modelle effizient zu trainieren. Dadurch sind GPUs ein wichtiger Bestandteil der Hardware-Infrastruktur für moderne KI-Modelle und unerlässlich für Deep Learning und andere rechenintensive Anwendungen.

Central Processing Unit (CPU)

Eine CPU (Central Processing Unit) ist der Hauptprozessor eines Computers und führt allgemeine Berechnungen und Steuerungsaufgaben durch. Im Kontext von KI ist die CPU für viele grundlegende Aufgaben wie Datenvorbereitung, Modellverwaltung und das Ausführen kleinerer KI-Modelle zuständig. Sie verarbeitet komplexe Anweisungen sequentiell, was sie für Aufgaben, die keine massive Parallelverarbeitung erfordern, geeignet macht. Während CPUs nicht die gleiche parallele Rechenleistung wie GPUs bieten, spielen sie dennoch eine wichtige Rolle in KI-Anwendungen, insbesondere bei Vor- und Nachbearbeitungsschritten und beim Inference-Einsatz von kleineren Modellen oder Modellen, die auf Effizienz optimiert sind. In vielen KI-Workflows arbeiten CPUs und GPUs zusammen, wobei die CPU organisatorische Aufgaben übernimmt und die GPU rechenintensive Aufgaben beschleunigt. Die CPUs werden zunehmend mit spezialisierten KI-Beschleunigern oder Neural Processing Units ausgestattet, um KI-Workloads effizienter verarbeiten zu können. Der Trend geht dabei zu hybriden Architekturen, die klassische CPU-Kerne mit spezialisierter KI-Hardware kombinieren.

Cloud Computing

Cloud Computing ist für KI-Infrastruktur von zentraler Bedeutung, da es den flexiblen Zugang zu skalierbarer Rechenleistung, Speicher und spezialisierten KI-Hardwareressourcen (wie GPUs) ermöglicht, ohne dass Unternehmen diese kostenintensive Infrastruktur selbst aufbauen und betreiben müssen. Dies demokratisiert den Zugang zu KI-Technologien, da auch kleinere Unternehmen und Entwickler über Cloud-Dienste auf leistungsfähige KI-Ressourcen zugreifen können, wobei die großen Cloud-Anbieter (wie AWS, Google Cloud, Azure) zusätzlich optimierte KI-Dienste und Entwicklungstools bereitstellen.

Hyperscaler

Ein Hyperscaler ist ein Technologieunternehmen, das Cloud-Computing-Dienste in globalem Maßstab anbietet und über ein weltweites Netzwerk von Rechenzentren verfügt. Diese Unternehmen zeichnen sich durch eine hochautomatisierte Infrastruktur mit hunderttausenden Servern aus. Sie bieten eine breite Palette an IT-Diensten an, von Rechenleistung über Speicher bis hin zu KI-Services. Ihre wichtigste Eigenschaft ist die Fähigkeit, Ressourcen nahezu unbegrenzt und in Sekundenschnelle zu skalieren.

Rechenzentren

Rechenzentren sind das Rückgrat der KI-Infrastruktur, da sie die massive Rechenleistung und Speicherkapazität bereitstellen, die für das Training und den Betrieb großer KI-Modelle benötigt wird. Diese spezialisierten Einrichtungen müssen nicht nur mit leistungsfähiger Hardware wie GPUs und Hochleistungsnetzwerken ausgestattet sein, sondern auch enorme Energiemengen bereitstellen und spezielle Kühlsysteme betreiben, wobei das Training großer Sprachmodelle so viel Energie verbrauchen kann wie ein kleines Rechenzentrum in einem ganzen Jahr. Besonders herausfordernd ist dabei der stetig wachsende Energiebedarf, der durch die zunehmende Größe der Modelle weiter steigt, zusätzliche Anforderungen an Kühlsysteme stellt und zunehmend auch unter Nachhaltigkeitsaspekten kritisch betrachtet wird.

Ausblick/Zukunft der KI

Hypothesen

Singularität

Die technologische Singularität beschreibt einen hypothetischen zukünftigen Punkt, an dem künstliche Intelligenz die menschliche Intelligenz übertrifft und durch kontinuierliche Selbstverbesserung eine explosionsartige Weiterentwicklung erfährt, die jenseits menschlicher Vorhersage- und Verständnisfähigkeit liegt. Diese Idee basiert auf der Annahme, dass eine superintelligente KI (ASI) in der Lage wäre, sich selbst immer weiter zu verbessern, was zu einem exponentiellen Wissenszuwachs führen würde, dessen Konsequenzen für die menschliche Zivilisation kaum abschätzbar wären.

Intelligence/AI Explosion

Der Begriff "Intelligence Explosion" (oft auch als "AI Explosion" bezeichnet) wurde ursprünglich von I.J. Good im Jahr 1965 geprägt. Er beschreibt einen hypothetischen Prozess, bei dem eine künstliche Intelligenz die Fähigkeit erlangt, sich selbst zu verbessern, was zu einer sich selbst verstärkenden Spirale führt: Jede Verbesserung ermöglicht weitere, noch schnellere Verbesserungen, wodurch die Intelligenz exponentiell zunimmt und schließlich eine Superintelligenz entsteht. Dieser Gedanke ist eng mit dem Konzept der technologischen Singularität verbunden und wurde später von Autoren wie Ray Kurzweil und Nick Bostrom weiterentwickelt.

Artifical Super Intelligence (ASI)

Eine Artificial Super Intelligence (ASI) beschreibt eine hypothetische Form der künstlichen Intelligenz, die die menschliche Intelligenz in praktisch allen Bereichen bei weitem übertrifft. Eine ASI würde nicht nur über die Fähigkeiten einer AGI (menschenähnliche Intelligenz) verfügen, sondern diese um ein Vielfaches übersteigen, wodurch ihre kognitiven Fähigkeiten, Entscheidungsprozesse und möglichen Handlungen jenseits des menschlichen Verständnishorizonts liegen könnten.

Artifical General Intelligence (AGI)

Artificial General Intelligence (AGI) beschreibt eine hypothetische Form der künstlichen Intelligenz, die menschenähnliche kognitive Fähigkeiten besitzt. Im Gegensatz zu heutigen KI-Systemen, die als schwache KI oder Artificial Narrow Intelligence (ANI) gelten, soll AGI in der Lage sein, flexibel und unabhängig eine Vielzahl von Aufgaben zu bewältigen, ohne auf spezifische Trainingsdaten angewiesen zu sein. AGI würde kontextübergreifendes Verständnis, Lernen und Anpassungsfähigkeit demonstrieren, ähnlich wie ein Mensch. Die Entwicklung einer echten AGI stellt jedoch noch große Herausforderungen dar. Grundlegende Aspekte wie Bewusstsein, Vernunft und echte Generalisierung bleiben ungelöst. Prognosen zur Realisierung von AGI variieren stark: Optimisten wie Sam Altman sehen die Möglichkeit einer AGI bereits in wenigen Jahren, basierend auf dem exponentiellen Fortschritt in Rechenleistung und KI-Technologien. Skeptiker wie Gary Marcus argumentieren hingegen, dass fundamentale Probleme wie Kausalität und echtes Verständnis AGI zu einem langfristigen Ziel machen, das möglicherweise erst im späteren 21. Jahrhundert erreicht wird. Neben den technischen Herausforderungen stehen auch ethische und existenzielle Risiken im Fokus der AGI-Diskussion. Viele Experten plädieren daher für eine vorsichtige und regulierte Entwicklung, um potenzielle Gefahren zu minimieren und die Vorteile dieser Technologie verantwortungsvoll zu nutzen.

Memory

Long Term Memory (LTM)

Extended Long Short-Term Memory (xLSTM)

xLSTM (Extended Long Short-Term Memory) ist eine innovative KI-Architektur, die von Sepp Hochreiter und seinem Team entwickelt wurde. Sie erweitert das traditionelle LSTM-Konzept durch die Einführung von Innovationen wie exponentiellem Gating und optimierten Speicherstrukturen. xLSTM zielt darauf ab, die Effizienz und Leistungsfähigkeit bei der Verarbeitung langer Textsequenzen und komplexer Aufgaben zu steigern, indem es Elemente verschiedener KI-Ansätze kombiniert. Diese Technologie könnte weitreichende Konsequenzen für die KI-Landschaft haben. xLSTM verspricht, effizienter, schneller und genauer zu arbeiten als bisherige Large Language Models (LLMs). Dies könnte zu einer neuen Generation von KI-Systemen führen, die komplexe Texte besser verstehen und generieren können. Insbesondere könnte xLSTM industrielle Anwendungen ermöglichen, für die Transformer-Modelle bisher zu langsam waren. Die gesteigerte Effizienz könnte auch den Energieverbrauch und die Kosten für KI-Anwendungen reduzieren, was wiederum zu einer breiteren Adoption von KI-Technologien in verschiedenen Branchen führen könnte.

Architekturen

Neurosymbolic AI

Neurosymbolic AI ist ein Ansatz in der künstlichen Intelligenz, der zwei verschiedene Verarbeitungsweisen miteinander verbindet. Auf der einen Seite nutzt es neuronale Netzwerke - Computerprogramme, die Muster in großen Datenmengen erkennen können, ähnlich wie das menschliche Gehirn Informationen verarbeitet. Auf der anderen Seite verwendet es symbolische Verarbeitung - ein System, das mit klaren Regeln und logischen Schlussfolgerungen arbeitet, wie ein Computerprogramm, das "wenn-dann"-Anweisungen befolgt. Die Kombination dieser beiden Methoden soll die Vorteile beider Ansätze nutzen: die Mustererkennung neuronaler Netzwerke und die nachvollziehbare Logik symbolischer Systeme.

Neurosymbolic AI findet Anwendung in Bereichen wie medizinischer Diagnose, wo sowohl Datenanalyse als auch nachprüfbare Entscheidungswege wichtig sind. Das System kann komplexe Zusammenhänge erkennen und gleichzeitig erklären, wie es zu seinen Schlussfolgerungen gelangt ist.

Diese Transparenz unterscheidet den Ansatz von rein neuronalen Systemen, deren Entscheidungsprozesse oft nicht nachvollziehbar sind.

Neurosymbolic AI gilt als wichtiger Baustein für die Entwicklung vertrauenswürdiger KI-Systeme in kritischen Anwendungsbereichen.

Google Titan

Die Google-Titan-Architektur ist eine Weiterentwicklung der Transformer-Modelle, die durch die Integration eines Langzeitgedächtnisses eine effizientere Verarbeitung großer Datenkontexte ermöglicht. Sie kombiniert kurzfristige und langfristige Speichermodule, um Informationen über längere Zeiträume hinweg zu speichern und während der Inferenz zu lernen. Diese Architektur könnte die nächste Generation von KI-Modellen prägen, befindet sich aber derzeit noch in der Forschungsphase und ist nicht öffentlich verfügbar.

Wichtige Veröffentlichungen

Standford AI Index Report

Der Stanford AI Index Report analysiert jährlich den aktuellen Stand der Künstlichen Intelligenz (KI) weltweit und bietet umfassende Einblicke in technologische Fortschritte, wirtschaftliche Trends und gesellschaftliche Auswirkungen. Der Bericht betrachtet Bereiche wie Forschung, Investitionen, Anwendungen und die Entwicklung ethischer Standards in der KI. Er zeigt, welche Länder und Organisationen führend in der KI-Entwicklung sind, mit besonderem Fokus auf den USA, China und Europa. Zusätzlich bietet er detaillierte Daten zu den Kosten von KI-Training, Fortschritten in der Wissenschaft und den Einflüssen auf globale Märkte. Der Report dient als unverzichtbare Orientierungshilfe für Entscheidungsträger in Politik, Wirtschaft und Wissenschaft, um die Auswirkungen von KI fundiert zu bewerten. Seine Bedeutung liegt in der Förderung eines tieferen Verständnisses der globalen KI-Landschaft und ihrer Potenziale.

Attention Is All You Need

Das Paper "Attention is All You Need", veröffentlicht im Jahr 2017 von einem Team bei Google, hat die Grundlagen der modernen Künstlichen Intelligenz revolutioniert, indem es die Transformer-Architektur einführte. Diese Architektur nutzt einen Aufmerksamkeitsmechanismus, der es ermöglicht, Eingabesequenzen parallel zu verarbeiten, was die Effizienz und Leistung bei Aufgaben wie maschineller Übersetzung erheblich verbessert. Der Transformer hat sich als grundlegendes Modell für viele große Sprachmodelle etabliert, und hat die Entwicklung generativer KI vorangetrieben. Die Arbeit zeigt auf, dass der Fokus auf Aufmerksamkeit allein ausreicht, um komplexe Sprachverarbeitungsaufgaben zu bewältigen, was zu einer breiten Anwendung in verschiedenen Bereichen wie Textgenerierung, Bildverarbeitung und multimodaler KI geführt hat. Das Paper selbst ist für Einsteiger ohne Vorkenntnisse herausfordernd. Mit begleitenden Ressourcen und etwas Vorarbeit in den Grundlagen von ML und NLP können jedoch die Kernideen und die Bedeutung des Transformers zugänglicher gemacht werden.

The Age of AI

Das Buch "The Age of AI", verfasst von Henry Kissinger, Eric Schmidt und Daniel Huttenlocher, untersucht die tiefgreifenden Auswirkungen der Künstlichen Intelligenz auf die menschliche Identität, Gesellschaft und das Wissen. Die Autoren argumentieren, dass KI das humanistische Weltbild in Frage stellt, indem sie Aufgaben übernimmt, die traditionell dem menschlichen Verstand vorbehalten waren, wie Schreiben und Komponieren. Sie warnen vor den potenziellen Risiken und Herausforderungen, die mit der zunehmenden Automatisierung und den algorithmischen Entscheidungen einhergehen, und diskutieren die Notwendigkeit einer ethischen Auseinandersetzung mit diesen Technologien. Das Buch bietet eine umfassende Analyse darüber, wie KI unsere Realität verändert und welche Fragen sich hinsichtlich der menschlichen Autonomie und Würde stellen. Letztlich wird betont, dass die Zukunft der Menschheit im Kontext von KI nicht nur technologische, sondern auch tiefgreifende menschliche Entscheidungen erfordert.

KI-Initiativen

Amerika

Stargate

Die amerikanische Stargate-KI-Initiative ist ein im Januar 2025 angekündigtes Gemeinschaftsprojekt von OpenAI, SoftBank, Oracle und MGX, das darauf abzielt, innerhalb von vier Jahren 500 Milliarden US-Dollar in die KI-Infrastruktur der USA zu investieren. Unter der Leitung von Masayoshi Son, dem CEO von SoftBank, plant das Projekt den Bau von Rechenzentren, beginnend in Texas, und die Schaffung von über 100.000 Arbeitsplätzen, um die amerikanische Führungsrolle im Bereich der Künstlichen Intelligenz zu stärken.

Deutschland

KI.NRW

KI.NRW ist die zentrale Kompetenzplattform für Künstliche Intelligenz in Nordrhein-Westfalen, die das Bundesland zu einem führenden Standort für angewandte KI ausbauen soll. Sie vernetzt Akteure aus Forschung, Wirtschaft und Gesellschaft, um den Wissenstransfer zu beschleunigen, KI-Kompetenzen zu bündeln und den Einsatz von KI besonders in kleinen und mittleren Unternehmen voranzutreiben. Unter der Leitung des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS bietet KI.NRW verschiedene Unterstützungsangebote wie Beratungen, Veranstaltungen und Leuchtturmprojekte, um die Entwicklung und Anwendung von KI-Technologien in NRW zu fördern.

KI Bundesverband

Der KI Bundesverband ist das größte Netzwerk für Künstliche Intelligenz in Deutschland mit mehr als 400 innovativen KI-Unternehmen, KMUs, Start-ups und Experten als Mitglieder. Er setzt sich dafür ein, dass KI-Technologien im Sinne europäischer und demokratischer Werte entwickelt und eingesetzt werden, und arbeitet daran, Deutschland und die EU zu einem attraktiven Standort für KI-Unternehmer zu machen. Der Verband vernetzt KI- und Deep-Tech-Unternehmen mit der etablierten Wirtschaft und Politik, fördert Innovationen und fungiert als Sprachrohr in die Politik.

"AI made in Germany"

"AI made in Germany" ist eine Initiative der deutschen Bundesregierung, die darauf abzielt, Deutschland als führenden Standort für Künstliche Intelligenz (KI) zu etablieren und die Entwicklung vertrauenswürdiger KI-Technologien zu fördern. Mit Investitionen von mehreren Milliarden Euro bis 2025 soll die Wettbewerbsfähigkeit Deutschlands im Bereich KI gestärkt und ein Ökosystem für Forschung, Entwicklung und Anwendung von KI geschaffen werden. Ziel ist es, "AI made in Germany" zu einem weltweit anerkannten Gütesiegel für schnelle, sichere und skalierbare KI-Lösungen zu machen, die auf transparenten Qualitäts- und Prüfstandards basieren.

Frankreich

Emmanuel Macron kündigte am 9. Februar 2025 eine massive KI-Initiative für Frankreich an, die Investitionen in Höhe von 109 Milliarden Euro "in den kommenden Jahren" vorsieht1. Der Plan umfasst den Bau von Rechenzentren, internationale Partnerschaften wie ein Abkommen mit den Vereinigten Arabischen Emiraten, und ein ehrgeiziges Bildungsziel, jährlich 100.000 Jugendliche in KI-Technologien auszubilden13. Diese Initiative zielt darauf ab, Frankreichs Position im globalen KI-Wettbewerb zu stärken und die technologische Unabhängigkeit Europas zu fördern, wobei Macron betonte, dass Investitionen der Schlüssel zum Erfolg in diesem Sektor sind

InvestAI

Die "InvestAI"-Initiative wurde am 11. Februar 2025 von EU-Kommissionspräsidentin Ursula von der Leyen auf dem AI Action Summit in Paris vorgestellt und soll 200 Milliarden Euro für KI-Investitionen in Europa mobilisieren. Sie umfasst einen neuen europäischen Fonds von 20 Milliarden Euro für KI-Gigafabriken, die sich auf das Training komplexer, sehr großer KI-Modelle spezialisieren werden. InvestAI zielt darauf ab, die größte öffentlich-private Partnerschaft der Welt für die Entwicklung vertrauenswürdiger KI zu schaffen und allen Unternehmen Zugang zu Großrechnerkapazitäten zu ermöglichen.

EU AI Champions Initiative

Die "EU AI Champions Initiative", am 10. Februar 2025 gestartet, vereint über 60 führende europäische Unternehmen mit dem Ziel, Europa als globalen Vorreiter in der KI-Entwicklung zu etablieren. Sie mobilisiert 150 Milliarden Euro für KI-bezogene Investitionen in Europa über die nächsten fünf Jahre und strebt eine vereinfachte KI-Regulierung sowie verstärkte Investitionen in Infrastruktur an. Die Initiative zielt darauf ab, die KI-Adoption in kritischen Sektoren wie Fertigung, Energie, Gesundheitswesen und Verteidigung zu beschleunigen und Europas Wettbewerbsfähigkeit zu stärken.

Gaia-X

Gaia-X ist eine europäische Initiative zur Entwicklung eines digitalen Ökosystems, das auf Open-Source-Technologie basiert und eine vernetzte Dateninfrastruktur bereitstellt. Das Projekt hat das Ziel, einen Datenaustausch zu ermöglichen, bei dem die Dateninhaber die Kontrolle über ihre Daten behalten und selbst festlegen können, wie diese genutzt werden. Gaia-X definiert gemeinsame Regeln, Standards und interoperable Schnittstellen, um den Austausch von Daten und Diensten zwischen verschiedenen Akteuren zu erleichtern und eine eigenständige Dateninfrastruktur in Europa zu etablieren.

Anwendungsgebiete

Generative Künstliche Intelligenz (GenAI) findet Anwendung in vielfältigen Bereichen wie der Erstellung kreativer Inhalte (Bilder, Musik, Texte) sowie in der Medizin, etwa bei der Entwicklung neuer Medikamente oder der Verbesserung medizinischer Bildgebung. In der Wirtschaft wird sie zur Marktanalyse, Produktdesign und Prozessoptimierung genutzt, während sie in der Robotik Bewegungsplanung und Umgebungsinteraktion ermöglicht. GenAI unterstützt die Bildung durch personalisierte Lernmaterialien und Simulationen und spielt eine zentrale Rolle in der Unterhaltung bei der Generierung von Charakteren, Levels oder visuellen Effekten. Weitere Anwendungen umfassen die Automatisierung von Rechtsdokumenten, die Simulation von Umweltmodellen und die Erstellung von Werbe- und Marketingkampagnen. Durch ihre Vielseitigkeit hat GenAI sowohl aktuelle als auch zukünftige Potenziale in nahezu allen Branchen.

Eine Fallstudien-Übersicht: https://www.zenml.io/llmops-database

Die LLMOps-Datenbank von ZenML bietet eine umfassende Sammlung von über 300 Fallstudien und technischen Notizen zu realen Implementierungen generativer KI. Beispiele reichen von der Automatisierung der Dokumentenverarbeitung im Finanzwesen, über die Unterstützung von Datenexploration im Energiesektor, bis hin zur Verbesserung von Kommunikationsplattformen durch KI-basierte Anwendungen.

Ranking, Evaluation und
Benchmarking von KI-Modellen

Benchmarks

GSM-Symbolic

GSM-Symbolic ist ein von Apple-Forschern entwickeltes Testverfahren zur Überprüfung der mathematischen Fähigkeiten großer Sprachmodelle. Der Benchmark basiert auf GSM8K, einem 2021 von Cobbe et al. (OpenAI-Researchteam) veröffentlichten Datensatz mit 8.500 Grundschul-Mathematikaufgaben, und erweitert diesen systematisch durch sogenannte symbolische Templates. Dabei werden in den ursprünglichen Aufgaben Zahlenwerte, Namen und andere Variablen verändert, während Struktur und logische Abfolge erhalten bleiben. So kann etwa aus einer Aufgabe mit fünf Äpfeln automatisch eine Variante mit drei oder zwölf Äpfeln entstehen – die zugrunde liegende Rechenlogik bleibt identisch.

Dieses Verfahren prüft, ob Sprachmodelle die mathematische Struktur einer Aufgabe wirklich verstanden haben oder lediglich Muster aus bekannten Trainingsbeispielen reproduzieren. Die im Oktober 2024 veröffentlichte Studie evaluierte 25 verschiedene Modelle, darunter sowohl offene als auch proprietäre Systeme unterschiedlicher Anbieter. Die Ergebnisse zeigten deutliche Leistungsunterschiede zwischen mathematisch gleichwertigen Aufgabenvarianten. Besonders aufschlussreich war der Befund, dass das Hinzufügen irrelevanter, aber scheinbar bedeutungsvoller Zusatzinformationen die Genauigkeit einiger Modelle um bis zu 65 Prozent verringern konnte.

Die Forscher führten zusätzlich die Varianten GSM-Symbolic-P1 und GSM-Symbolic-P2 ein, in denen Aufgaben durch zusätzliche Rechenschritte komplexer gestaltet sind. Auch hier sank die Leistung der Modelle mit zunehmender Komplexität deutlich ab. Damit verdeutlicht der Benchmark eine Diskrepanz zwischen den in Standardtests gemessenen Resultaten und dem tatsächlichen mathematischen Verständnis aktueller Sprachmodelle.

GSM-Symbolic trägt damit zur laufenden Diskussion bei, wie die Leistungsbewertung von KI-Systemen realistischer gestaltet werden kann. Das Projekt hat in der Fachwelt eine breite Debatte über die Robustheit und Aussagekraft heutiger Evaluationsmethoden ausgelöst. Die zugehörigen Templates und Datensätze sind öffentlich auf GitHub und Hugging Face verfügbar, um weiterführende Forschung zu ermöglichen.

https://simple-bench.com/

SimpleBench ist ein Testverfahren zur Bewertung von Large Language Models, bei dem Fragen gestellt werden, die Menschen mit Grundbildung besser beantworten können als aktuelle Sprachmodelle.

Der Test umfasst über 200 Multiple-Choice-Fragen aus drei Bereichen: räumlich-zeitliches Denken, soziale Intelligenz und sprachliche Robustheit gegenüber Tricksituationen. Die Fragen sind so konstruiert, dass sie keine spezialisierten Fachkenntnisse erfordern, sondern grundlegendes Verständnis und gesunden Menschenverstand.

Menschen ohne spezialisierte Ausbildung erreichen in diesem Test eine Erfolgsquote von etwa 84 Prozent, während selbst fortgeschrittene Sprachmodelle deutlich schlechter abschneiden.

Das Testverfahren zeigt eine Diskrepanz zwischen dem auswendig gelernten Wissen der Modelle und ihrer Fähigkeit zu grundlegender Alltagslogik. SimpleBench dient Forschenden als Werkzeug, um Schwachstellen in der Funktionsweise aktueller Sprachmodelle zu identifizieren.

Die Ergebnisse legen nahe, dass das statistische Musterlernen der Modelle nicht ausreicht, um alle Arten menschlicher Denkprozesse nachzubilden. Der Benchmark ergänzt andere Testverfahren und liefert Hinweise darauf, welche Fähigkeiten in der KI-Entwicklung noch verbessert werden müssen.

HLE (Humanitys Last Examen)

Humanity's Last Exam (HLE) ist ein umfassender Test, der speziell entwickelt wurde, um die Fähigkeiten von hochentwickelten KI-Systemen zu bewerten. Der öffentlich zugängliche Datensatz wurde im Frühjahr 2025 auf 2.500 Fragen finalisiert und deckt über 100 verschiedene Fachgebiete ab. Der Test wurde von fast 1.000 Experten aus etwa 50 Ländern weltweit erstellt und umfasst Bereiche wie Mathematik, Physik, Biologie, Medizin, Geisteswissenschaften, Sozialwissenschaften, Informatik, Künstliche Intelligenz und Ingenieurwesen.

Dieser Test wurde als Antwort auf die Sättigung bestehender Benchmarks entwickelt, da moderne KI-Modelle bei Tests wie MMLU bereits über 90% Genauigkeit erreichen. HLE soll als ultimativer Maßstab dienen, um festzustellen, wie weit fortgeschritten die KI in verschiedenen Bereichen ist und ob sie in der Lage ist, menschenähnliche Intelligenz zu erreichen. Die Fragen sind bewusst so gestaltet, dass sie an der Grenze des menschlichen Wissens liegen und selbst für Experten herausfordernd sind.

Der Test wurde in Partnerschaft zwischen Scale AI und dem Center for AI Safety (CAIS) entwickelt. Die Entwicklung folgte einem strengen Verfahren: Von über 70.000 eingereichten Fragen wurden 13.000 für die Expertenbegutachtung ausgewählt und schließlich auf die finale Anzahl reduziert. Nach einem Bug-Bounty-Programm, das im März 2025 endete, wurden fehlerhafte Fragen und solche, die über Websuche leicht zu finden waren, entfernt.

Die Genauigkeit bei HLE bleibt selbst bei den fortschrittlichsten KI-Modellen deutlich niedriger als bei etablierten Benchmarks. Während führende Modelle bei MMLU über 90% erreichen, liegen die Ergebnisse bei HLE typischerweise unter 30%, was die erheblich höhere Schwierigkeit unterstreicht. Bei der Veröffentlichung im Januar 2025 erzielten die meisten Modelle Genauigkeitswerte unter 10%. Bis Mitte 2025 erreichten die besten Modelle etwa 25-26% ohne externe Hilfsmittel. Mit Zugang zu Werkzeugen wie Code-Ausführung oder Websuche können spezialisierte Versionen wie Grok 4 Heavy bis zu 44% erreichen, doch selbst diese Spitzenwerte bleiben weit unter menschlicher Expertenleistung von etwa 90%.

Der Benchmark umfasst sowohl reine Textfragen als auch multimodale Aufgaben, bei denen etwa 13% der Fragen das Verständnis von Diagrammen oder Bildern erfordern. Die Fragen sind als Multiple-Choice-Aufgaben (24%) oder als Kurzantworten mit exakter Übereinstimmung gestaltet, was eine automatische Bewertung ermöglicht. Ein wichtiges Merkmal ist, dass die Antworten nicht einfach durch Internetrecherche gefunden werden können, sondern echtes Verständnis und Problemlösungskompetenz erfordern.

Der Benchmark wird kontinuierlich weiterentwickelt und von der Forschungsgemeinschaft aktiv genutzt. Zusätzlich zu den öffentlichen Fragen wird ein privater Datensatz gepflegt, um Überanpassung und Manipulation zu verhindern. HLE gilt als einer der anspruchsvollsten öffentlich verfügbaren KI-Benchmarks und wird in den kommenden Jahren voraussichtlich ein wichtiger Maßstab für die Messung von Fortschritten in Richtung fortgeschrittener KI-Systeme bleiben.

https://crfm.stanford.edu/helm/

Die Holistic Evaluation of Language Models (HELM) ist eine offene Benchmarking-Plattform zur umfassenden und systematischen Bewertung von KI-Sprachmodellen. Sie wurde vom Center for Research on Foundation Models (CRFM) der Stanford University entwickelt und als Open-Source-Python-Framework unter der Apache-2.0-Lizenz veröffentlicht. Ziel von HELM ist es, eine einheitliche, transparente und wissenschaftlich fundierte Vergleichsbasis für verschiedene KI-Modelle zu schaffen

Das Framework prüft Sprachmodelle in einer Vielzahl von Anwendungsszenarien, die praxisnahe Aufgaben widerspiegeln. Dazu gehören unter anderem die Beantwortung von Fragen, das Abrufen und Zusammenfassen von Informationen, das Erkennen von Verzerrungen sowie die Bewertung von Sicherheit und Fairness. HELM verwendet dabei einen sogenannten Multi-Metrik-Ansatz, der sieben Bewertungskriterien umfasst: Genauigkeit, Kalibrierung, Robustheit, Fairness, Voreingenommenheit, Toxizität und Effizienz. Diese Herangehensweise ermöglicht eine ganzheitliche Einschätzung der Leistungsfähigkeit und der gesellschaftlichen Auswirkungen von KI-Modellen.

Ein wesentliches Merkmal der Plattform ist ihr Charakter als „Living Benchmark". HELM wird kontinuierlich weiterentwickelt und regelmäßig um neue Szenarien, Metriken und Modelle ergänzt. Seit der Erstveröffentlichung im Jahr 2022 wurde das Framework erheblich ausgebaut. Es unterstützt inzwischen nicht nur Sprachmodelle, sondern auch multimodale Systeme, die Text und Bilder verarbeiten können. Erweiterungen wie VHELM für Vision-Language-Modelle und HEIM für Text-zu-Bild-Generierung zeigen die Anpassungsfähigkeit des Projekts an neue Forschungsfelder. Für medizinische Anwendungen wurde MedHELM entwickelt, eine spezialisierte Evaluierung für Gesundheitsaufgaben, die in enger Zusammenarbeit mit Klinikern entstanden ist.

HELM basiert auf einem methodisch klar definierten Top-Down-Ansatz: Zunächst werden potenzielle Anwendungsszenarien und Bewertungsdimensionen systematisch kategorisiert, anschließend wird eine repräsentative Auswahl davon getestet. Diese Vorgehensweise schafft Transparenz darüber, welche Bereiche abgedeckt werden und wo noch Lücken bestehen. So adressiert HELM eine zentrale Herausforderung der KI-Forschung – die bislang oft unvollständige und uneinheitliche Bewertung von Sprachmodellen.

Alle Testbedingungen, verwendeten Prompts und Modellantworten werden offen dokumentiert und öffentlich zugänglich gemacht. Diese Transparenz erlaubt es Forschenden, die Ergebnisse unabhängig zu analysieren und Nachvollziehbarkeit sicherzustellen. Damit trägt HELM zur Verbesserung des wissenschaftlichen Verständnisses über die Fähigkeiten, Grenzen und gesellschaftlichen Auswirkungen großer KI-Modelle bei.

Im ursprünglichen HELM-Paper von 2022 wurden 30 verschiedene Modelle von Anbietern wie OpenAI, Google, Microsoft, Meta und Anthropic untersucht. Dabei zeigte sich, dass frühere Benchmarks im Durchschnitt nur 17,9 Prozent der Kernszenarien abdeckten, während HELM diese Abdeckung auf 96 Prozent unter standardisierten Bedingungen erhöhte. Seitdem wurde die Plattform kontinuierlich erweitert, unter anderem durch Projekte wie HELM Safety, das im November 2024 veröffentlicht wurde, und HELM Capabilities, das im März 2025 folgte. Diese Erweiterungen dienen der gezielten Bewertung von Modellfähigkeiten und Sicherheitsaspekten.

https://balrogai.com

BALROG ist ein Benchmark-System zur Bewertung der Leistungsfähigkeit großer Sprachmodelle und visueller Modelle bei komplexen, dynamischen Aufgaben wie Planung und Problemlösung. Das System ermöglicht die systematische Analyse von Stärken und Schwächen der Modelle in verschiedenen Szenarien durch speziell entwickelte Spielumgebungen. Diese standardisierte Testumgebung schafft eine verlässliche Vergleichsbasis, die die Weiterentwicklung solcher Modelle unterstützt.

Der Benchmark konzentriert sich gezielt auf Spiele als Testumgebung, da diese besonders gut geeignet sind, um die Fähigkeiten von KI-Systemen in Bezug auf räumliches Denken, komplexe Interaktionen und dynamische Entscheidungsfindung zu bewerten. BALROG steht für "Benchmarking Agentic LLM and VLM Reasoning On Games" und wurde entwickelt, um systematische Schwächen von KI-Systemen aufzudecken.

Die Forschungsergebnisse zeigen, dass selbst führende Modelle noch erhebliche Herausforderungen bei anspruchsvollen visuellen Aufgaben und komplexen Entscheidungsprozessen haben. Diese Testumgebung ist besonders wertvoll, da sie aufzeigt, dass große Sprachmodelle und visuelle Sprachmodelle trotz ihres umfangreichen Wissens und vielversprechender Schlussfolgerungsfähigkeiten immer noch Schwierigkeiten haben, in komplexen, dynamischen Umgebungen konsistent gut zu funktionieren.

BALROG stellt damit ein wichtiges Werkzeug für die Identifikation von Verbesserungspotenzialen in aktuellen KI-Modellen dar und trägt zur gezielten Weiterentwicklung dieser Technologien bei. Das System ist als Open-Source-Projekt verfügbar und ermöglicht Forschern die Evaluation sowohl neuer Modelle als auch innovativer Strategien zur Verbesserung der KI-Fähigkeiten.

MMLU-Pro

MMLU-Pro ist ein Testverfahren zur Bewertung von Sprachmodellen, das deren Fähigkeit misst, Wissensfragen aus verschiedenen Fachgebieten zu beantworten. Die Bezeichnung steht für "Massive Multitask Language Understanding Pro" und bezeichnet eine erweiterte, anspruchsvollere Version des ursprünglichen MMLU-Tests. Der Test enthält Multiple-Choice-Fragen aus Bereichen wie Mathematik, Naturwissenschaften, Geisteswissenschaften und Rechtswissenschaften.

Im Gegensatz zum ursprünglichen MMLU bietet MMLU-Pro zehn statt vier Antwortmöglichkeiten pro Frage und enthält anspruchsvollere Aufgaben. Die Entwickler haben falsche Antwortoptionen und zu einfache Fragen aus dem ursprünglichen Datensatz entfernt. Der Benchmark umfasst über 12.000 sorgfältig kuratierte Fragen aus 14 verschiedenen Domänen, darunter Biologie, Chemie, Informatik, Wirtschaft, Ingenieurwesen, Recht, Mathematik, Physik und Psychologie.

Das Verfahren dient Forschenden und Entwicklern dazu, die Leistungsfähigkeit verschiedener KI-Systeme zu vergleichen und Fortschritte zu dokumentieren. MMLU-Pro gilt als strengerer Maßstab als das Original, da selbst leistungsstarke Modelle deutlich niedrigere Erfolgsraten erzielen. Die experimentellen Ergebnisse zeigen einen signifikanten Rückgang der Genauigkeit um 16 Prozent bis 33 Prozent im Vergleich zum ursprünglichen MMLU.

Eine bemerkenswerte Eigenschaft von MMLU-Pro ist, dass Modelle, die Chain-of-Thought-Reasoning verwenden und ihre Denkschritte explizit darlegen, deutlich besser abschneiden als bei direkter Antwortgenerierung. Dies steht im Gegensatz zum ursprünglichen MMLU und zeigt, dass MMLU-Pro tatsächlich komplexere Denkprozesse und tieferes Verständnis erfordert. Der Benchmark hat sich als Standardwerkzeug zur Qualitätsbewertung von Sprachmodellen in der Forschungsgemeinschaft etabliert und wurde bei der NeurIPS 2024 Konferenz vorgestellt.

MMLU (Massive Multitask
Language Understanding)

MMLU (Massive Multitask Language Understanding) ist ein wichtiger Benchmark-Test zur Bewertung der Fähigkeiten von KI-Modellen, der aus Multiple-Choice-Fragen aus 57 verschiedenen Bereichen wie Mathematik, Geschichte, Recht, Medizin und Ethik besteht. Die Besonderheit von MMLU liegt darin, dass er gezielt Hochschulwissen und fortgeschrittenes Expertenwissen abfragt, wodurch er als zuverlässiger Indikator für die tatsächlichen Verständnis- und Reasoning-Fähigkeiten von KI-Systemen gilt. Der 2021 veröffentlichte Test hat sich seither als einer der wichtigsten Standards etabliert, um die Leistungsfähigkeit verschiedener KI-Modelle objektiv zu vergleichen, wobei ein Ergebnis von über 90% als sehr gut gilt.

SuperGLUE

SuperGLUE ist der Nachfolger des GLUE-Benchmarks und wurde 2019 eingeführt, um anspruchsvollere Aufgaben für die Bewertung von KI-Sprachmodellen bereitzustellen. Der Benchmark besteht aus acht verschiedenen Aufgaben, die komplexere Fähigkeiten wie kausales Reasoning, Wortsinnerklärungen und Entscheidungsfindung testen. Die Aufgaben wurden so gewählt, dass sie näher an menschlichen Sprachverständnisfähigkeiten liegen.

SuperGLUE entstand als direkte Reaktion auf die rasanten Fortschritte im Bereich der Sprachmodelle. Zu diesem Zeitpunkt hatten neue Modelle und Methoden für Pretraining und Transfer Learning bereits zu beeindruckenden Leistungsverbesserungen geführt. Die besten KI-Modelle erreichten beim ursprünglichen GLUE-Benchmark bereits menschenähnliche Leistungen, weshalb eine höhere Messlatte für die Bewertung fortgeschrittener Sprachmodelle erforderlich wurde.

Der neue Benchmark wurde als bewusste Evolution des GLUE-Benchmarks konzipiert, um dessen Limitierungen zu adressieren und eine umfassendere Evaluierung zu ermöglichen. SuperGLUE stellt dabei schwierigere Sprachverständnisaufgaben zur Verfügung und bietet verbesserte Ressourcen sowie eine öffentliche Rangliste.

Die acht Hauptaufgaben von SuperGLUE wurden aus über 30 eingereichten Vorschlägen ausgewählt und nach ihrer Schwierigkeit für damalige KI-Ansätze bewertet. Zusätzlich zu den Hauptaufgaben enthält SuperGLUE zwei diagnostische Datensätze, die eine detailliertere Analyse der Modellleistung ermöglichen.

Seit der Einführung haben KI-Modelle kontinuierliche Fortschritte gemacht. Während SuperGLUE anfangs eine erhebliche Herausforderung darstellte, haben moderne Sprachmodelle mittlerweile auch diese Benchmark gemeistert und übertroffen.

GLUE (General Language
Understanding Evaluation)

GLUE (General Language Understanding Evaluation) ist ein Benchmark-System zur Bewertung von KI-Sprachmodellen, das aus neun verschiedenen Aufgaben besteht, darunter Textklassifikation, Sentiment-Analyse und Frage-Antwort-Aufgaben. Die Besonderheit von GLUE liegt darin, dass es die Fähigkeit der Modelle testet, natürliche Sprache in verschiedenen Kontexten zu verstehen und zu verarbeiten, wobei die Aufgaben bewusst unterschiedliche Aspekte des Sprachverständnisses abdecken.

Der 2018 eingeführte Benchmark hat sich als wichtiger Maßstab für die Bewertung der Sprachverarbeitungsfähigkeiten von KI-Systemen etabliert und wurde als Multitask-Benchmark sowie Analyse-Plattform konzipiert, um die Generalität von NLU-Modellen zu testen. Die Modelle sollen dabei nicht nur auf spezifische Aufgaben zugeschnitten sein, sondern allgemeines Sprachverständnis demonstrieren.

Aufgrund der rasanten Entwicklung im Bereich der Sprachmodelle, die auf GLUE inzwischen sehr hohe Werte erreichen, wurde 2019 mit SuperGLUE ein anspruchsvollerer Nachfolge-Benchmark eingeführt, der noch komplexere Aufgaben zur Bewertung modernster KI-Systeme bereitstellt.

Ranking und Evaluation

https://lmarena.ai/?leaderboard

Die Website lmarena.ai ist die offizielle Plattform von LMArena (ehemals Chatbot Arena), einer offenen und gemeinschaftsgetriebenen Evaluationsplattform für große Sprachmodelle (Large Language Models, LLMs). Die Plattform entstand 2023 als Forschungsprojekt der LMSYS Organisation an der UC Berkeley und erhielt im September 2024 eine eigene Website. Im April 2025 erfolgte die Umbenennung zu LMArena und die Gründung der Firma Arena Intelligence Inc., um die langfristige Weiterentwicklung zu sichern.

Nutzer können hier verschiedene KI-Modelle in anonymisierten Paarvergleichen testen und bewerten, um deren Leistungsfähigkeit in realen Anwendungsfällen zu beurteilen. Das Prinzip ist einfach: Zwei anonyme Modelle erhalten denselben Prompt und liefern Antworten. Die Nutzer wählen die bessere Antwort, bevor die Identität der Modelle offengelegt wird. Die gesammelten Bewertungen fließen in eine regelmäßig aktualisierte Rangliste ein, die auf einem Elo-Rating-System basiert und einen Überblick über die aktuellen Spitzenmodelle bietet. Ergänzend nutzt die Plattform das Bradley-Terry-Modell für präzisere statistische Auswertungen.

Die Plattform fördert die Transparenz und das Verständnis von LLMs, indem sie der Community ermöglicht, direkt an der Bewertung und Weiterentwicklung dieser Modelle mitzuwirken. Mit über 3,5 Millionen gesammelten Stimmen und mehr als einer Million monatlicher Besucher hat sich LMArena als wichtige Referenz in der KI-Industrie etabliert. Große Unternehmen wie OpenAI, Google, Anthropic und Meta nutzen die Plattform, um ihre Modelle zu testen und die Rankings für ihre Kommunikation zu verwenden.

Allerdings sollte beachtet werden, dass aktuelle wissenschaftliche Studien auf mögliche systematische Verzerrungen im Bewertungssystem hinweisen. Die im April 2025 veröffentlichte Studie "The Leaderboard Illusion" zeigt, dass größere Anbieter durch ungleiche Sampling-Raten und Zugang zu privaten Testing-Sessions gegenüber kleineren Open-Source-Entwicklern bevorzugt werden könnten. Diese Datenasymmetrien führen dazu, dass proprietäre Modelle deutlich mehr Bewertungen erhalten als Open-Source-Alternativen. LMArena hat diese Vorwürfe zurückgewiesen und betont weiterhin sein Engagement für Neutralität und wissenschaftliche Integrität. Die Diskussion verdeutlicht jedoch die Notwendigkeit, Benchmark-Ergebnisse kritisch zu betrachten und verschiedene Evaluierungsquellen zu berücksichtigen.

https://artificialanalysis.ai/leaderboards/models

Die Website artificialanalysis.ai/leaderboards/models bietet eine umfassende Vergleichsplattform für große Sprachmodelle (LLMs). Die Plattform vergleicht aktiv über 30 führende KI-Modelle in ihrem Hauptleaderboard, wobei die Gesamtdatenbank deutlich mehr Modellvarianten umfasst.

Zu den verglichenen Modellen gehören die neuesten Generationen wie GPT-5 (veröffentlicht August 2025), Llama 4 (Scout und Maverick, veröffentlicht April 2025), Claude Sonnet 4.5 (September 2025), Gemini 2.5 Pro sowie Modelle von DeepSeek, Mistral und weiteren Anbietern.

Die Plattform bewertet diese Modelle anhand von Schlüsselmetriken wie Qualität, Ausgabegeschwindigkeit (gemessen in Tokens pro Sekunde), Latenz (Time to First Token, die Zeit bis zur ersten Antwort), Kontextfenstergröße und Leistung. Sie ermöglicht einen direkten Vergleich der verschiedenen KI-Modelle und hilft Nutzern bei der Auswahl des passenden Modells für ihre spezifischen Anwendungsfälle.

Neben der reinen Modellbewertung bietet Artificial Analysis auch einen Vergleich von über 500 API-Endpunkten verschiedener Anbieter, wodurch nicht nur die Modelle selbst, sondern auch deren praktische Implementierung durch verschiedene Provider verglichen werden können.

Die Plattform testet jeden Endpunkt mehrmals täglich und verwendet Medianwerte der letzten zwei Wochen, um verlässliche und aktuelle Vergleichsdaten bereitzustellen.

KI-Assistenten/-Agenten

Die Grenzen zwischen KI‑Assistenten und KI‑Agenten verschwimmen zunehmend, auch wenn grundlegende Unterschiede bestehen bleiben. Während klassische Assistenten primär auf Nutzer‑Eingaben reagieren, entwickeln sich moderne Systeme zu hybriden Lösungen, die sowohl reaktive als auch autonome Funktionen kombinieren.

Ein anschauliches Beispiel ist der ChatGPT Agent von OpenAI, der am 17. Juli 2025 eingeführt wurde. Er vereint klassische Chatbot‑Funktionen mit der Fähigkeit, eigenständig Aktionen auf einem virtuellen Computer auszuführen und komplexe Aufgaben zu erledigen, während Nutzer jederzeit eingreifen können.

Auch Anthropic treibt diesen Ansatz weiter voran – mit Claude Code, einem agentischen Kodier‑Assistenztool, das direkt im Terminal arbeitet und Entwicklern erlaubt, Aufgaben eigenständig durchführen zu lassen, etwa Funktionen zu implementieren, Bugs zu beheben oder Commit‑Aktionen auszuführen.

Die grundlegende Unterscheidung bleibt klar: Assistenten reagieren primär auf definierte Nutzereingaben und unterstützen bei klar umrissenen Aufgaben, während Agenten proaktiv handeln und eigenständig Entscheidungen und Aktionen übernehmen können.

Dem Branchentrend zufolge wird erwartet, dass bis 2028 etwa 15 % der täglichen Arbeitsentscheidungen von autonomen KI‑Systemen übernommen werden.

Generalistische KI-Agenten

Nova Act

Nova Act ist ein KI-Agent von Amazon, der im März 2025 als Research Preview veröffentlicht wurde. Das System baut auf Amazons hauseigenen Nova-Modellen auf, die bereits im Dezember 2024 vorgestellt worden waren, und ermöglicht es Entwicklern, Anwendungen zu erstellen, die komplexe Aufgaben im Internet autonom ausführen. Mit einem Software Development Kit, das seit Ende März 2025 als Forschungsvorschau für US-Kunden verfügbar ist, können verschiedene Befehle in kleinere, handhabbare Schritte unterteilt werden.

Nova Act wurde von Amazons AGI Lab in San Francisco entwickelt, das von den ehemaligen OpenAI-Forschern David Luan und Pieter Abbeel geleitet wird. Der Agent kann Webbrowser selbstständig steuern und ist darauf trainiert, Aktionen autonom innerhalb eines Webbrowsers auszuführen. Damit bewegt sich die Technologie von reaktiven Assistenten zu proaktiven, autonomen Systemen.

In internen Benchmarks zeigt Nova Act beachtliche Leistungen. Bei Tests wie ScreenSpot Web Text erreichte der Agent eine Genauigkeit von 94 Prozent und übertraf damit vergleichbare Lösungen anderer Anbieter. Allerdings hat Amazon bislang auf Tests mit weitverbreiteten Benchmarks wie WebVoyager verzichtet, sodass die Ergebnisse mit Vorsicht zu interpretieren sind.

Nova Act ist ein zentraler Baustein für das kommende Alexa+ Upgrade und wird wichtige Features des erweiterten Sprachassistenten antreiben. Das System ermöglicht Alexa+, das Internet selbstgesteuert zu navigieren und Aufgaben im Namen der Nutzer zu erledigen, wenn integrierte Dienste nicht alle notwendigen Programmierschnittstellen bereitstellen können. Während Nova Act primär als allgemeiner KI-Agent für Entwickler konzipiert ist, bietet es vielseitige Automatisierungsmöglichkeiten für verschiedene Anwendungen.

Die Plattform richtet sich hauptsächlich an Entwickler, die innovative Lösungen mit künstlicher Intelligenz erarbeiten möchten. Mit Nova Act positioniert sich Amazon in einem stark umkämpften Markt, in dem bereits andere Technologieunternehmen ähnliche Ansätze verfolgen. Anthropic stellte bereits im Oktober 2024 sein "Computer Use" Tool vor, OpenAI folgte im Januar 2025 mit "Operator". Amazon betritt diesen Markt als weiterer bedeutender Akteur mit einem eigenen Ansatz zur Browser-Automatisierung.

Seit September 2025 steht zusätzlich eine Nova Act Extension für Entwicklungsumgebungen wie Visual Studio Code, Kiro und Cursor zur Verfügung. Diese Erweiterung ermöglicht es Entwicklern, KI-Agenten direkt in ihrer gewohnten Arbeitsumgebung zu erstellen und zu testen, ohne zwischen verschiedenen Werkzeugen wechseln zu müssen.

Manus

Manus ist ein KI-Agent, der von dem chinesischen Startup Monica entwickelt wurde und als vollständig autonomer KI-Assistent beschrieben wird. Der Agent soll in der Lage sein, komplexe Aufgaben wie Webseitenerstellung, Reiseplanung, Aktienanalyse und Datenvisualisierung mit minimaler menschlicher Eingabe selbstständig auszuführen.

Seit seiner Veröffentlichung im März 2025 hat Manus sowohl Interesse als auch Diskussionen in der Tech-Community ausgelöst, wobei seine tatsächlichen Fähigkeiten und praktische Anwendbarkeit noch genauer untersucht werden.

Manus basiert auf einer fortschrittlichen Multi-Agent-Architektur, bei der mehrere spezialisierte KI-Agenten in unabhängigen, virtuellen Maschinen parallel arbeiten, was die Verarbeitungskapazität optimiert und die gleichzeitige Bearbeitung komplexer Aufgaben ermöglicht. Das System nutzt eine Kombination aus bestehenden und feinabgestimmten KI-Modellen, darunter Anthropics Claude und Alibabas Qwen, sowie verschiedene weitere Tools und Open-Source-Technologien, um Webseiten für KI-Agenten zugänglich zu machen.

Als Chinas Antwort auf westliche KI-Entwicklungen positioniert, stellt Manus eine Alternative zu etablierten Tools dar, wobei der Fokus besonders auf der autonomen Handlungsfähigkeit liegt.

Unter der Leitung von Mitgründer und leitendem Wissenschaftler Yichao "Peak" Ji entwickelt Monica mit Manus eine Technologie, die über herkömmliche Chatbots hinausgeht und direkt Aktionen ausführen kann.

ChatGPT Agent

OpenAI hat im Januar 2025 den ChatGPT Agent vorgestellt – ein neues KI-System, das über die bisherigen Funktionen von ChatGPT hinausgeht.

Der Agent kann eigenständig denken und handeln, indem er aus einer Toolbox verschiedener Fähigkeiten wählt, um Aufgaben für Nutzer zu erledigen. Der ChatGPT Agent kann eigenständig komplexe Aufgaben übernehmen, darunter: Navigation in Kalendern, Erstellung editierbarer Präsentationen, Slideshows und Tabellen, Ausführen von Code, Interaktion mit Webseiten.

Nutzer können dem Agent in natürlicher Sprache Aufträge erteilen, die er eigenständig umsetzt. Dabei nutzt er einen eigenen Computer und wechselt zwischen Analyse und Aktion, um Arbeitsabläufe von Anfang bis Ende zu erledigen. Der Nutzer behält stets die volle Kontrolle: Der Agent kann jederzeit unterbrochen werden und fragt bei sensiblen oder folgenschweren Aktionen um Erlaubnis.

Aus Sicherheitsgründen speichert der Agent keine Sitzungsdaten im Memory und verfügt über Schutzmaßnahmen gegen Prompt-Injection. Die Nutzungslimits für den ChatGPT Agent sind gestaffelt: Pro-Nutzer erhalten erweiterten Zugang, während andere bezahlte Nutzer eingeschränkteren Zugriff haben, mit zusätzlicher Nutzung über flexible kreditbasierte Optionen.

Tests zeigen, dass der Agent in vielen Bereichen nützlich ist, jedoch bestimmte Szenarien – etwa Online-Shopping mit Logins oder komplexe Checkout-Prozesse – derzeit noch Einschränkungen aufweisen. Während einige Nutzer den Agent als deutlich nützlicher empfinden als ursprünglich erwartet, merken andere an, dass er für wichtige Aufgaben noch nicht zuverlässig genug ist.

Die Einführung des ChatGPT Agent stellt eine bedeutende Weiterentwicklung in der KI-gestützten Aufgabenautomatisierung dar, bei der Nutzer die Kontrolle behalten, während die KI selbstständig komplexe Arbeitsabläufe ausführt.

Google: Project Mariner

Project Mariner ist ein experimenteller KI-Agent von Google, der von Google DeepMind entwickelt wurde. Der Agent funktioniert als Browser-Assistent und kann Webseiten nicht nur verstehen, sondern auch eigenständig mit ihnen interagieren. Angetrieben durch Googles Gemini 2.0 Sprachmodell, kann Mariner alltägliche Webaktivitäten automatisieren und effizienter gestalten.

Der KI-Agent kann autonom im Browser navigieren, Links anklicken, durch Seiten scrollen und Formulare ausfüllen. Dabei beobachtet Mariner, was im Browser angezeigt wird, versteht verschiedene Arten von Inhalten wie Text, Bilder, Code und Formulare, und setzt dann die Anweisungen des Nutzers in konkrete Aktionen um. Komplexe Aufgaben wie Online-Recherchen, das Zusammenstellen von Einkaufslisten oder das Ausfüllen von Warenkörben führt der Agent dabei selbstständig durch. Aus Sicherheitsgründen kann Mariner jedoch keine Käufe abschließen oder Zahlungsinformationen eingeben.

Ein zentrales Merkmal von Project Mariner ist die Transparenz. Nutzer können den gesamten Prozess in Echtzeit verfolgen und sehen genau, welche Schritte der Agent unternimmt. Jederzeit besteht die Möglichkeit einzugreifen, den Agenten zu stoppen oder selbst die Kontrolle zu übernehmen. Diese Design-Entscheidung soll sicherstellen, dass Nutzer stets wissen, was die KI in ihrem Namen tut.

Seit der Erstankündigung im Dezember 2024 hat Project Mariner bedeutende Weiterentwicklungen erfahren. Bei der Google I/O Entwicklerkonferenz im Mai 2025 stellte das Unternehmen technische Verbesserungen vor. Der Agent läuft nun auf cloudbasierten virtuellen Maschinen, was einen entscheidenden Vorteil bringt: Nutzer müssen nicht mehr untätig zusehen, während Mariner arbeitet, sondern können parallel andere Aufgaben am Computer erledigen. Zudem kann der Agent mittlerweile bis zu zehn Aufgaben gleichzeitig bearbeiten. Eine Funktion namens "Teach & Repeat" ermöglicht es dem System, aus einmal demonstrierten Arbeitsabläufen zu lernen und diese bei ähnlichen zukünftigen Aufgaben selbstständig anzuwenden.

Die Verfügbarkeit von Project Mariner hat sich erweitert. War der Agent anfangs nur einer kleinen Gruppe von Testern zugänglich, wird er seit Mai 2025 schrittweise einem breiteren Nutzerkreis in den USA zur Verfügung gestellt. Google plant, die Verfügbarkeit schrittweise auf weitere Länder auszuweiten.

Für Entwickler öffnet Google ebenfalls neue Möglichkeiten. Die Funktionen von Project Mariner werden in die Gemini API und Vertex AI integriert, wodurch Entwickler die browserbasierten Fähigkeiten des Agenten in eigenen Anwendungen nutzen können. Erste Unternehmen wie Automation Anywhere, Browserbase und Cartwheel experimentieren bereits mit der Technologie.

Die Integration in Googles Produktpalette schreitet voran. Das Unternehmen kündigte an, Mariner-Funktionen in den AI Mode der Google-Suche sowie in den Agent Mode der Gemini-App zu integrieren. In der Google-Suche wird der Agent beispielsweise beim Buchen von Event-Tickets, Restaurantreservierungen oder lokalen Terminen unterstützen. In der Gemini-App entsteht ein Agent Mode, in dem Nutzer einfach ihr Ziel formulieren können und Gemini dann intelligent die notwendigen Schritte orchestriert, um dieses Ziel zu erreichen.

Project Mariner ist Teil von Googles Initiative, in das Zeitalter der KI-Agenten einzutreten. Google CEO Sundar Pichai bezeichnet Gemini 2.0 als Modell für die "agentic era" – eine Ära, in der KI nicht nur Informationen verarbeitet, sondern aktiv Aufgaben für Nutzer übernimmt. Zusammen mit den Schwesterprojekten Project Astra, einem universellen KI-Assistenten, und Jules, einem Coding-Agenten für Entwickler, formt Mariner Googles Vision einer Zukunft, in der KI-Assistenten nahtlos in den digitalen Alltag integriert sind. Während Project Mariner noch als experimentell gilt und weiterhin Feedback von Nutzern sammelt, zeigt es bereits heute, wie KI-Agenten die Interaktion mit dem Internet verändern könnten.

Wissensmanagement

NotebookLM

NotebookLM ist ein KI-gestützter Notiz- und Rechercheassistent von Google, der es Nutzern ermöglicht, ihre eigenen Dokumente und Informationen zu organisieren, zu analysieren und damit zu interagieren. Das Tool kann in der kostenlosen Version bis zu 50 Inhalte in ein Notebook importieren, wobei verschiedene Dateiformate unterstützt werden: Google Docs, PDFs, Textdateien, Webseiten und seit Kurzem auch YouTube-Videos und Audio-Dateien. Für Nutzer mit höheren Anforderungen gibt es NotebookLM Plus als Teil des Google One AI Premium-Abonnements, das erweiterte Funktionen bietet.

NotebookLM bietet KI-gestützte Zusammenfassungen und kann Informationen in verschiedene nützliche Formate umwandeln, darunter FAQs, Glossare und Studienführer. Eine besonders innovative Funktion ist die Audio-Podcast-Generierung, die mit einem Klick eine gesprochene Zusammenfassung der importierten Inhalte erstellt. Alle Antworten sind dabei in den vom Nutzer bereitgestellten Quellen verankert, um Genauigkeit und Relevanz zu gewährleisten.

Das Tool wird von Google als experimentelles Projekt kontinuierlich weiterentwickelt und erhält regelmäßig neue Funktionen. Die genauen technischen Kapazitätsgrenzen bezüglich der maximalen Wortanzahl werden von Google nicht öffentlich spezifiziert, das System ist jedoch für die Verarbeitung umfangreicher Dokumentensammlungen ausgelegt.

Produktivität

Ein KI-gestützter Produktivitätsassistent ist eine Software-Anwendung, die auf einem Foundation Model oder spezialisierten KI-Modell basiert und darauf ausgerichtet ist, Menschen bei ihrer täglichen Arbeit zu unterstützen, indem sie Aufgaben automatisiert, Vorschläge macht, Inhalte generiert oder verarbeitet und sich dabei nahtlos in bestehende Arbeitsabläufe und Software-Tools integriert.

STORM

Die Stanford University hat mit STORM ein KI-System entwickelt, das Wikipedia-ähnliche Artikel zu beliebigen Themen erstellt und dabei eine Qualität erreichen soll, die etablierten Enzyklopädie-Artikeln entspricht.

STORM steht für "Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking" und unterscheidet sich von herkömmlichen Schreibsystemen durch die Nachbildung des natürlichen Forschungs- und Schreibprozesses in zwei getrennten Hauptphasen: Recherche und Artikelerstellung.

In der ersten Phase analysiert STORM bestehende Wikipedia-Artikel zu verwandten Themen und identifiziert verschiedene Blickwinkel. Der zentrale Mechanismus basiert auf simulierten Expertenkonversationen, bei denen verschiedene Wikipedia-Autoren Fragen an einen Themenexperten stellen, dessen Antworten auf aktuellen Internetquellen basieren. Das System kann dabei mit verschiedenen Suchmaschinen arbeiten, darunter Bing Search, die aktuell als Standardoption dient.

Diese iterative Informationssammlung ermöglicht eine schrittweise Vertiefung durch Folgefragen und führt zu einer strukturierten Gliederung. In der zweiten Phase nutzt das System diese Gliederung zur abschnittsweisen Artikelerstellung mit entsprechenden Quellenangaben.

Das System zeichnet sich durch multiperspektivische Recherche, aktuelle Internetquellen statt internes Sprachmodellwissen und systematische Organisation aus. Bereits seit Anfang 2024 steht STORM öffentlich zur Verfügung. Im September 2024 wurde es durch "Co-STORM" ergänzt, das kollaborative Mensch-KI-Zusammenarbeit ermöglicht und mittlerweile mehr als 70.000 Nutzer erreicht hat.

Evaluationen mit Wikipedia-Editoren zeigen, dass 70 Prozent das System als nützlich bewerten. STORM-generierte Artikel sind nach Expertenbewertung um 25 Prozent besser organisiert und weisen 10 Prozent breitere thematische Abdeckung auf als Artikel herkömmlicher KI-Systeme.

Das System weist jedoch Einschränkungen auf: Quellenverzerrungen können übertragen werden und unabhängige Fakten werden gelegentlich missverständlich verknüpft. Die Stanford-Forscher positionieren STORM daher als Unterstützung für eine Vorbereitungsphase, die nachfolgend menschliche Überarbeitung erfordert.

Coding

Coding (auch Programmieren genannt) ist der Prozess des Schreibens und Strukturierens von Anweisungen in einer bestimmten Programmiersprache, die ein Computer ausführen kann, um Aufgaben zu lösen oder Anwendungen und Software zu entwickeln. Es umfasst das Erstellen von Code, der Algorithmen und Logik beschreibt, um gewünschte Funktionen und Ergebnisse zu erzielen, und ist die Grundlage für die Entwicklung von Software, Webseiten, Apps und Systemen.

Gorilla LLM

Gorilla LLM ist ein spezialisiertes Sprachmodell, das an der University of California Berkeley entwickelt wurde, mit Beteiligung von Microsoft Research. Es wurde auf die präzise Nutzung von Programmierschnittstellen (APIs) trainiert und basiert auf einem feinabgestimmten LLaMA-7B-Modell. Das Ziel von Gorilla ist es, natürlichsprachliche Anfragen in syntaktisch und semantisch korrekte API-Aufrufe umzuwandeln. Dadurch kann das System als Schnittstelle zwischen Sprache und Softwarewerkzeugen dienen und unterstützt Anwendungen, die automatisiert mit externen Diensten interagieren.

Das Training des Modells erfolgte auf Grundlage des APIBench-Datasets, das API-Dokumentationen aus Plattformen wie Hugging Face, TorchHub und TensorFlow Hub enthält. Dabei kam eine Methode namens Retriever-Aware Training (RAT) zum Einsatz. Diese Technik ermöglicht die enge Zusammenarbeit zwischen dem Modell und einem Dokumenten-Retriever, sodass Gorilla sich an Veränderungen in API-Dokumentationen anpassen und die jeweils gültigen Parameter, Formate und Versionen berücksichtigen kann.

Gorilla kann aus natürlichsprachlichen Eingaben direkt funktionierende API-Aufrufe erzeugen. Das Modell erkennt Unterschiede zwischen ähnlichen Schnittstellen und wählt die jeweils passende Variante aus, auch wenn APIs überlappende Funktionen anbieten. Durch die Kombination mit einem Retriever und die Nutzung von Abstract Syntax Tree-basierten (AST) Metriken reduziert Gorilla typische Fehler wie sogenannte „API-Halluzinationen" deutlich. In Tests zeigte das Modell eine höhere Genauigkeit bei der Generierung von API-Befehlen als GPT-4 in den vom Forschungsteam definierten Benchmarks.

Ein besonderes Merkmal von Gorilla ist die Fähigkeit, auch bei veränderten oder aktualisierten API-Dokumenten zuverlässig zu arbeiten. Die Retriever-Aware-Training-Methode sorgt dafür, dass das Modell zur Laufzeit aktuelle Dokumentationen einbeziehen kann und so weniger anfällig für veraltete Schnittstellen bleibt.

Das Gorilla-Projekt steht unter Apache 2.0-Lizenz und ist damit auch für kommerzielle Nutzung frei verfügbar. Es wurde so konzipiert, dass es sich als modulare Komponente in größere Systeme integrieren lässt. Der Ansatz, spezialisierte Sprachmodelle für konkrete technische Aufgaben zu entwickeln, spiegelt einen allgemeinen Trend in der KI-Forschung wider: Während universelle Modelle ein breites Spektrum abdecken, bieten spezialisierte Systeme wie Gorilla in ihrem Anwendungsgebiet präzisere und zuverlässigere Ergebnisse.

Seit der ersten Veröffentlichung im Mai 2023 wird Gorilla kontinuierlich weiterentwickelt. Unter dem Projektnamen OpenFunctions erschienen mehrere Versionen, die Unterstützung für verschiedene Programmiersprachen wie Python, Java, JavaScript und REST-APIs bieten. Im Februar 2024 folgte das Berkeley Function Calling Leaderboard (BFCL), das den Vergleich von Modellen hinsichtlich ihrer Function-Calling-Leistung ermöglicht. Im April 2024 wurde mit GoEx eine Laufzeitumgebung vorgestellt, die die sichere Ausführung von LLM-generierten Aktionen mit Validierungs- und Wiederherstellungsfunktionen erlaubt. Das Projekt wird laufend erweitert und ist Gegenstand aktueller Forschung zur sicheren und adaptiven Nutzung großer Sprachmodelle in realen Softwareumgebungen.

Der "Vibe Coding"-Ansatz

"Vibe Coding" bezeichnet einen modernen Programmieransatz, bei dem Entwickler vollständig auf KI-Tools vertrauen und Code durch natürlichsprachliche Beschreibungen erstellen lassen. Der Begriff wurde im Februar 2025 von Andrej Karpathy, Mitbegründer von OpenAI, geprägt und beschreibt eine Arbeitsweise, bei der man "den Vibes vollständig nachgibt" und "vergisst, dass Code überhaupt existiert".

Bei dieser Methode formulieren Programmierer ihre Wünsche in gewöhnlicher Sprache, während fortgeschrittene Sprachmodelle wie Cursor Composer oder ChatGPT den entsprechenden Code automatisch generieren. Das charakteristische Merkmal von Vibe Coding ist das bewusste Verzichten auf die Überprüfung des erzeugten Codes - Entwickler akzeptieren KI-Vorschläge ohne kritische Analyse und vertrauen darauf, dass die Künstliche Intelligenz eigene Fehler korrigieren kann.

Der Ansatz ermöglicht extrem schnelle Prototypenerstellung und macht Softwareentwicklung auch für Personen ohne traditionelle Programmierkenntnisse zugänglich. Gleichzeitig birgt er Risiken bezüglich Code-Qualität, Sicherheit und langfristiger Wartbarkeit. Vibe Coding eignet sich nach aktuellen Erkenntnissen besonders für experimentelle Projekte, Wochenend-Prototypen und kreative Anwendungen, weniger jedoch für professionelle Softwareentwicklung mit hohen Qualitäts- und Sicherheitsanforderungen.

Die Methode steht im Gegensatz zur traditionellen KI-gestützten Programmierung, bei der Entwickler generierten Code gründlich prüfen und verstehen müssen. Vibe Coding verdeutlicht den Wandel von manueller Codeerstellung hin zur Delegation der Programmierarbeit an Künstliche Intelligenz und zeigt neue Möglichkeiten der Mensch-KI-Zusammenarbeit in der Softwareentwicklung auf.

Codex

Codex ist ein autonomer Software-Engineering-Agent von OpenAI, der natürliche Sprachanweisungen in funktionierenden Code umsetzt und eigenständig komplexe Entwicklungsaufgaben ausführt. Das System wird vom Modell codex-1 angetrieben, einer spezialisierten Version von OpenAI o3, die mit Reinforcement Learning gezielt auf reale Software-Engineering-Aufgaben trainiert wurde. Seit September 2025 steht zusätzlich GPT-5-Codex zur Verfügung, eine für agentisches Coding optimierte Variante von GPT-5.

Codex analysiert Anfragen in natürlicher Sprache und führt daraus selbstständig Entwicklungsaufgaben durch. Das System navigiert durch Repositories, bearbeitet Dateien, führt Kommandos aus und testet den generierten Code. Codex kann Features entwickeln, Bugs beheben, Fragen zur Codebasis beantworten und Pull Requests zur Überprüfung erstellen. Jede Aufgabe läuft in einer isolierten Cloud-Sandbox-Umgebung, die mit dem Repository vorgeladen ist.

Das System beherrscht eine Vielzahl von Programmiersprachen, darunter Python, JavaScript, TypeScript, Go, Ruby, PHP und Swift. Codex arbeitet sowohl in kurzen, interaktiven Sitzungen mit Entwicklern als auch eigenständig an längeren, komplexen Aufgaben. Bei Tests zeigte sich, dass GPT-5-Codex über sieben Stunden autonom an umfangreichen Refactoring-Projekten arbeiten kann, dabei Implementierungen iteriert, Testfehler behebt und letztlich erfolgreiche Lösungen liefert.

Codex ist in verschiedenen Umgebungen verfügbar und lässt sich nahtlos in Entwicklungs-Workflows integrieren. Das System läuft im Terminal über Codex CLI, in Entwicklungsumgebungen wie VS Code, Cursor und Windsurf, als webbasierte Version und direkt in GitHub. Eine Slack-Integration ermöglicht es Teams, Codex aus Konversationen heraus Aufgaben zuzuweisen. Entwickler können mit dem Codex SDK den Agenten in eigene Workflows und Anwendungen einbetten.

Codex zeigt die Anwendbarkeit fortgeschrittener Sprachmodelle auf den spezialisierten Bereich der Softwareentwicklung. Das System verbindet Code-Verständnis mit der Fähigkeit, eigenständig Entwicklungsaufgaben durchzuführen, und repräsentiert damit einen Ansatz zur Automatisierung von Programmieraufgaben durch maschinelles Lernen.

Google Jules

Google Jules ist ein KI-gestützter Coding-Agent von Google, der speziell für die Softwareentwicklung entwickelt wurde. Der Agent nutzt das fortgeschrittene Large Language Model Gemini 2.5 Pro, um Entwicklern bei verschiedenen Programmieraufgaben zu helfen.

Jules kann Code-Repositories analysieren, Tests schreiben, Bugs beheben und neue Features implementieren. Das System arbeitet asynchron in einer sicheren Google Cloud-Umgebung und integriert sich nahtlos in bestehende GitHub-Workflows.

Jules unterscheidet sich von herkömmlichen Code-Assistenten durch seine Arbeitsweise als autonomer Agent. Während Tools wie GitHub Copilot in Echtzeit beim Schreiben von Code unterstützen, übernimmt Jules komplette Aufgaben selbstständig im Hintergrund. Entwickler können ihm spezifische Programmieraufgaben zuweisen und erhalten später einen detaillierten Plan sowie die fertigen Code-Änderungen zur Überprüfung.

Der Agent wurde im Dezember 2024 als Google Labs Projekt vorgestellt und ging im Mai 2025 in die öffentliche Beta-Phase. Seit August 2025 ist Jules offiziell aus der Beta heraus und für alle Nutzer verfügbar. Das Tool richtet sich hauptsächlich an Softwareentwickler, sowohl an KI-Enthusiasten als auch an professionelle Entwickler in Unternehmen.

Jules arbeitet in einer isolierten Google Cloud Virtual Machine und gewährleistet dabei Datenschutz - private Code-Repositories werden nicht für das Training der KI-Modelle verwendet. Der Agent bietet zusätzliche Funktionen wie Audio-Zusammenfassungen von Code-Änderungen und die automatische Erstellung von Pull Requests.

Jules repräsentiert einen wichtigen Schritt in Richtung einer neuen Ära der Softwareentwicklung, in der KI-Agenten Entwickler bei zeitaufwändigen Routineaufgaben entlasten und ihnen mehr Freiraum für kreative und komplexere Programmierherausforderungen verschaffen.

Lovable

Lovable ist eine webbasierte Entwicklungsplattform, die künstliche Intelligenz nutzt, um Softwareanwendungen durch natürliche Spracheingaben zu erstellen. Nutzer können beschreiben, welche Funktionen oder Designs sie wünschen, und die Plattform generiert daraufhin automatisch funktionsfähige Webanwendungen. Dadurch lassen sich ohne klassisches Programmieren komplette Projekte umsetzen.

Das System kann sowohl das Frontend – also die sichtbare Benutzeroberfläche – als auch die Backend-Logik und Datenverarbeitung erzeugen. Anwendungen lassen sich in Echtzeit anpassen und testen, indem die Nutzer über Prompts neue Anweisungen geben oder bestehende Komponenten verändern.

Lovable richtet sich an Personen ohne Programmierkenntnisse ebenso wie an erfahrene Entwickler, die Entwicklungsprozesse beschleunigen möchten. Die Plattform bietet eine interaktive, KI-gestützte Benutzeroberfläche, in der Projekte durch Beschreibungen iterativ weiterentwickelt werden können. Ob Solo-Entwickler, die ein MVP validieren, Produktteams, die schneller liefern möchten, oder IT-Manager, die nach effizienteren Wegen für interne Tools suchen – Lovable bietet einen innovativen, KI-gesteuerten Ansatz für die Anwendungsentwicklung.

Das Unternehmen wurde 2023 in Stockholm von Anton Osika und Fabian Hedin gegründet. Die Plattform startete ursprünglich als Open-Source-Projekt GPT Engineer und hat sich seitdem kontinuierlich weiterentwickelt. Osika entwickelte die erste Version an wenigen Wochenenden, nachdem er die Idee hatte, große Sprachmodelle für die Softwareentwicklung einzusetzen.

Ende 2024 wurde die kommerzielle Version offiziell in Lovable umbenannt. Der neue Name sollte verdeutlichen, dass es nicht mehr nur um ein Code-Generierungs-Tool geht, sondern um eine umfassende Plattform zur Erstellung von Software, die Menschen lieben.

Mit der im September 2025 eingeführten "Lovable Cloud & AI" können Nutzer nun auch Apps mit komplexen KI- und Backend-Funktionalitäten erstellen, allein durch natürlichsprachliche Eingaben. Die Cloud-Komponente bietet ein integriertes Backend mit Benutzerauthentifizierung, Datenbanken und Datei-Uploads, ohne dass manuelle Konfiguration erforderlich ist.

Die AI-Komponente, die von Google Gemini-Modellen unterstützt wird, ermöglicht es Nutzern, KI-Funktionen in ihre Anwendungen zu integrieren, ohne API-Schlüssel verwalten oder separate Abrechnungen einrichten zu müssen. Die Plattform ist mittlerweile vollständig agentisch, was bedeutet, dass sie eigenständig Probleme durchdenken, Pläne erstellen und proaktiv handeln kann – ähnlich wie ein echter Entwickler.

Windsurf

Windsurf ist ein KI-gestützter Code-Editor, der künstliche Intelligenz direkt in die Programmierumgebung integriert und Entwicklern ermöglicht, mit einem KI-Assistenten zu interagieren, während sie Code schreiben, ohne zwischen verschiedenen Anwendungen wechseln zu müssen.

Als KI-native IDE basiert Windsurf auf einem Fork von Visual Studio Code, unterscheidet sich jedoch durch seinen agentenbasierten Ansatz erheblich von traditionellen Code-Editoren. Das Herzstück bildet die Cascade-Funktion, die Multi-Step-Code-Bearbeitungen über mehrere Dateien hinweg ermöglicht. Cascade arbeitet in verschiedenen Modi: Der Write-Modus nimmt direkte Änderungen am Code vor, der Chat-Modus bietet kontextbezogene Hilfe ohne Code-Änderungen, und der Turbo-Modus ermöglicht vollständig autonome Aufgabenausführung.

Die KI kann dabei helfen, Code zu schreiben, Fehler zu finden, Funktionen zu erklären oder bestehenden Code zu verbessern. Cascade erkennt und behebt automatisch Lint-Fehler, versteht den Kontext der gesamten Codebasis und kann sogar Terminal-Befehle ausführen. Entwickler können Fragen in natürlicher Sprache stellen und erhalten Code-Vorschläge oder Erklärungen als Antwort.

Windsurf unterstützt zahlreiche Programmiersprachen und Entwicklungsumgebungen. Die Integration erfolgt nahtlos in die gewohnte Arbeitsumgebung, wobei Funktionen wie Supercomplete für intelligente Code-Vervollständigung und Inline-Befehle für direkte Code-Bearbeitung zur Verfügung stehen. Das Tool zielt darauf ab, den Programmierworkflow zu beschleunigen und Entwicklern bei komplexen Aufgaben zu assistieren, während sie im Entwicklungsfluss bleiben.

Im Juli 2025 durchlief Windsurf eine bedeutende Umstrukturierung: Nachdem Übernahmegespräche mit OpenAI gescheitert waren und die ursprünglichen Gründer das Unternehmen verließen, wurde Windsurf von Cognition übernommen, dem Unternehmen hinter dem autonomen KI-Coding-Agenten Devin. Cognition plant, Windsurfs IDE-Technologie mit Devins autonomen Fähigkeiten zu verbinden, um Entwicklern eine integrierte Umgebung zu bieten, in der sie Aufgaben planen, an KI-Agenten delegieren und Ergebnisse überprüfen können.

Amazon Q Developer

Amazon Q Developer ist ein KI-gestütztes Werkzeug von Amazon Web Services (AWS), das Softwareentwickler bei der Programmierung unterstützt. Das System analysiert den bestehenden Code und schlägt automatisch passende Ergänzungen, Funktionen oder ganze Codeblöcke vor. Diese Vorschläge basieren auf umfangreichen Trainingsdaten mit Millionen von Codebeispielen und werden kontextsensitiv erstellt – angepasst an die verwendete Programmiersprache und den Stil des jeweiligen Projekts.

Entwicklerinnen und Entwickler können Amazon Q Developer direkt in ihrer bevorzugten Entwicklungsumgebung nutzen, ohne zwischen Anwendungen wechseln zu müssen. Unterstützt werden unter anderem Visual Studio Code, JetBrains IDEs (wie IntelliJ IDEA, PyCharm, GoLand und weitere), Eclipse und Visual Studio. Das Tool erkennt die Projektstruktur und liefert entsprechend abgestimmte Vorschläge.

Neben der Code-Vervollständigung bietet Amazon Q Developer Funktionen zur Fehlererkennung, Code-Überprüfung, Sicherheitsanalyse sowie zur automatischen Generierung von Unit-Tests. Die zugrunde liegende Technologie basiert auf großen Sprachmodellen, die speziell für das Verstehen und Erzeugen von Programmiercode trainiert wurden. Für die erweiterten Funktionen nutzt das System verschiedene Modelle von Anthropic über Amazon Bedrock, darunter Claude Sonnet 4, Claude Sonnet 4.5 und Claude Opus 4.1.

Am 20. Mai 2025 führte Amazon Q Developer eine neue agentische Coding-Erfahrung zunächst für Visual Studio Code ein. Diese wurde im Juni 2025 auf JetBrains IDEs und Visual Studio erweitert. Im gleichen Monat verließ auch die Eclipse-Unterstützung den Vorschaustatus und wurde allgemein verfügbar. Entwickler können komplexe Aufgaben in natürlicher Sprache formulieren, woraufhin die KI nicht nur den passenden Code generiert, sondern auch den Lösungsweg und die dahinterliegende Logik verständlich erläutert.

Die agentische Erfahrung ermöglicht es dem System, über einfache Code-Vorschläge hinauszugehen und Aktionen wie das Bearbeiten von Dateien, das Generieren von Code-Unterschieden und das Ausführen von Befehlen basierend auf natürlichsprachlichen Anweisungen durchzuführen. Amazon Q Developer kann Projektdateien analysieren, den notwendigen Kontext aufbauen und während der Arbeit kontinuierlich Statusupdates bereitstellen, wobei Änderungen und Rückmeldungen sofort umgesetzt werden.

Claude Code

Claude Code ist ein befehlszeilenbasiertes Werkzeug von Anthropic, das Entwicklern ermöglicht, Programmieraufgaben direkt aus dem Terminal an Claude zu delegieren. Das System funktioniert als autonomer Agent, der komplexe Coding-Projekte selbstständig bearbeiten kann, ohne dass Nutzer jeden Schritt manuell steuern müssen.

Entwickler können Claude Code Aufträge wie "Erstelle eine Webanwendung" oder "Behebe die Bugs in diesem Projekt" geben, woraufhin das System eigenständig Code schreibt, testet und iteriert. Das Werkzeug unterscheidet sich von herkömmlichen Chatbots dadurch, dass es aktiv mit dem Dateisystem interagiert und mehrere Dateien gleichzeitig bearbeiten kann.

Claude Code kann große Codebasen durchsuchen und Änderungen implementieren, wobei das Marketing-Material mit der Fähigkeit wirbt, "million-line codebases" zu durchsuchen.

Das System kann verschiedene Programmiersprachen verstehen und nutzen, von Python über JavaScript bis hin zu komplexeren Frameworks. Das System versteht die gesamte Codebasis und hilft Entwicklern, schneller zu programmieren, indem es Routineaufgaben ausführt, komplexen Code erklärt und Git-Workflows verwaltet - alles durch natürlichsprachliche Befehle.

Im September 2025 wurden wichtige Upgrades eingeführt, darunter eine native VS Code Extension (Beta), Terminal-UX-Updates und Checkpoints für autonome Entwicklung. Die GitHub-Integration ist bereits verfügbar und ermöglicht es Entwicklern, KI-gestützte Coding-Prompts auszuführen und Repositories über GitHub Actions zu verwalten.

Nach aktuellen Berichten vom Oktober 2025 bereitet Anthropic zudem vor, Claude Code auf mobile Geräte zu bringen, diese Funktion ist jedoch noch nicht offiziell verfügbar. Claude Code stellt eine Weiterentwicklung traditioneller Programmierhilfen dar, indem es proaktiv und kontextbewusst arbeitet. Es kann direkt in IDEs wie VS Code, Cursor und JetBrains integriert werden und bietet fortgeschrittene Funktionen für die autonome Softwareentwicklung.

Cursor

Cursor ist ein KI-gestützter Code-Editor, der auf Visual Studio Code basiert. Er kombiniert die vertraute Entwicklungsumgebung von VS Code mit einer Reihe leistungsstarker KI-Funktionen zur Unterstützung bei Programmieraufgaben.

Der Editor unterstützt verschiedene fortschrittliche Sprachmodelle, darunter Varianten von OpenAI (wie GPT-4.1), Anthropic (Claude), Google (Gemini) und xAI, wobei Nutzer auch eigene API-Schlüssel integrieren können. Cursor ermöglicht es, zwischen diesen Modellen zu wechseln, um je nach Aufgabe das passende Modell zu nutzen.

Zu den Hauptfunktionen gehören:

Intelligente Codevervollständigung (u. a. Tab Completion), die ganze Codeblöcke vorschlagen kann
Kontextbewusste Chat-Funktion, die Fragen im Projektkontext beantwortet
Codebearbeitung über mehrere Dateien hinweg
Ein integrierter Bug-Finder, der Code automatisch analysiert und auf mögliche Fehler hinweist

Eine zentrale Neuerung ist der sogenannte Agent Mode: KI-Agenten, die eigenständig relevante Kontexte identifizieren, Terminal-Befehle ausführen, auf Fehlermeldungen reagieren und Lösungsansätze generieren können. Sie sind in der Lage, auf Basis einfacher Anweisungen komplette Anwendungen zu erstellen – inklusive Projektstruktur und Webserver-Konfiguration. Seit 2025 können Agenten auch im Hintergrund laufen, was parallele Aufgabenbearbeitung ermöglicht.

Cursor bietet zudem:

Eine semantische Suche und Empfehlungsfunktionen, die relevante Dateien und Inhalte im Projektkontext schnell auffindbar machen
Einen Chat-basierten Composer, mit dem sich Projekte interaktiv verwalren lassen und der Änderungen im Code direkt visualisiert
Import aller VS Code-Erweiterungen, Themes und Tastenkombinationen
Multi-Root Workspace-Unterstützung für die Arbeit an mehreren Projekten gleichzeitig

Für Unternehmen bietet Cursor einen Privacy Mode, bei dem Code nur mit ausdrücklicher Zustimmung remote gespeichert wird. Zudem ist die Software SOC 2 Type II-zertifiziert, was sie auch für sicherheitskritische Anwendungen im Unternehmensumfeld qualifiziert.

GitHub Copilot

GitHub Copilot ist ein KI-gestützter Programmierassistent, der gemeinsam von GitHub (einem Unternehmen von Microsoft) und OpenAI entwickelt wurde. Die erste Version erschien 2021 und basierte auf OpenAI Codex, einem auf GPT-3 spezialisierten Modell für Codegenerierung.

Heute nutzt GitHub Copilot eine Multimodell-Architektur und unterstützt mehrere führende KI-Modelle. Das aktuelle Standardmodell ist GPT-4.1 von OpenAI, das sich durch schnellere Antwortzeiten und höhere Effizienz auszeichnet.

Zusätzlich stehen Entwicklern je nach Abonnement zahlreiche weitere Modelle zur Verfügung, darunter Claude Sonnet 4.5 und Claude Opus 4 von Anthropic, GPT-5 und GPT-5-Codex von OpenAI sowie Gemini 2.0 Flash und Gemini 2.5 Pro von Google. Diese Vielfalt ermöglicht es Entwicklern, je nach Aufgabe und Arbeitsstil das passende Modell zu wählen – von alltäglichen Codieraufgaben bis hin zu komplexen Szenarien wie Refactoring, Debugging oder agentischen Workflows.

Copilot wurde speziell für Softwareentwickler konzipiert und auf öffentlich verfügbaren Codequellen trainiert, vor allem aus GitHub-Repositories. Die KI kann in Echtzeit Codevorschläge machen, ganze Funktionen generieren, Kommentare in Code umwandeln und bei der technischen Dokumentation unterstützen.

Der Assistent integriert sich nahtlos in gängige Entwicklungsumgebungen wie Visual Studio Code, Visual Studio, JetBrains-IDEs, Neovim, Eclipse, Azure Data Studio und Xcode. Er fungiert dabei wie ein digitaler Pair-Programming-Partner, der den Entwicklungsprozess beschleunigt und sowohl bei Routineaufgaben als auch bei komplexen Projekten unterstützt.

GitHub erweitert Copilot kontinuierlich um neue Funktionen. Dazu gehören fortschrittliche agentische Werkzeuge für automatisierte Entwicklungsaufgaben. Der im Februar 2025 eingeführte Agent Mode ermöglicht eine autonomere Arbeitsweise, bei der Copilot eigenständig Befehle ausführt und mehrschrittige Programmieraufgaben bewältigt.

Mit dem im Mai 2025 angekündigten Coding Agent können Entwickler Issues direkt an Copilot zuweisen, der dann eigenständig in einer Cloud-Umgebung arbeitet, Code schreibt, Tests durchführt und Pull Requests zur Überprüfung bereitstellt. Weitere Integrationen umfassen GitHub Mobile, um schnelle Code-Änderungen auch unterwegs vorzunehmen, sowie erweiterte Funktionen für Code-Reviews und Sicherheitsanalysen.

Diese Entwicklungen unterstreichen die langfristige Vision von GitHub, Copilot zu einem umfassenden intelligenten Entwicklungsassistenten auszubauen.

Microsoft-Ökosystem

Das Microsoft Ökosystem ist eine miteinander verknüpfte Sammlung von Hard- und Software-Produkten, Services und Cloud-Diensten von Microsoft. Es umfasst das Windows Betriebssystem, die Microsoft 365 Suite (früher Office) mit Programmen wie Word, Excel, PowerPoint und Teams, den Edge Browser, die Azure Cloud-Plattform, sowie verschiedene Entwicklertools und Enterprise-Lösungen. Das Besondere ist die enge Integration aller Komponenten, sodass Daten und Funktionen nahtlos zwischen den verschiedenen Anwendungen ausgetauscht werden können.

Microsoft Copilot

Microsoft Copilot (früher Bing Chat) ist ein KI-Assistent, der auf GPT-4 basiert und speziell für die Integration in Microsoft-Produkte optimiert wurde. Er unterscheidet sich von anderen KI-Assistenten hauptsächlich durch zwei Merkmale: Erstens seine tiefe Integration in das Microsoft-Ökosystem (Windows, Office, Teams, Edge etc.), wo er kontextbezogene Hilfe und Automatisierung anbietet, und zweitens seine Fähigkeit, in Echtzeit auf aktuelle Internetinhalte zuzugreifen.

Deep Research

Deep Research bezeichnet die Fähigkeit von KI-Chatbots, komplexe Suchanfragen zu verstehen, in mehrere Rechercheaufgaben zu unterteilen und eigenständig im Internet zu recherchieren (Damit dürfte es im Hintergrund faktisch immer um einen KI-Agenten handeln). Diese Technologie ermöglicht es den KI-Systemen, Hunderte von Online-Quellen zu analysieren, relevante Informationen zu extrahieren und deren Bedeutung im Kontext der Anfrage zu interpretieren. Anstatt nur Links aufzulisten, synthetisieren die Systeme die gefundenen Informationen und präsentieren die Ergebnisse in Form eines klar gegliederten, umfassenden Berichts. Der Prozess läuft typischerweise in vier Schritten ab: Planung der Recherche, Informationssuche, Analyse der gesammelten Daten sowie Strukturierung und Aufbereitung der Ergebnisse.

xAI Grok Deep Search

Grok Deep Search integriert Echtzeitdaten über die Plattform X (ehemals Twitter), was für Recherchen zu aktuellen Ereignissen und Trends besonders wertvoll sein kann. Der Dienst verfügt über einen einstellbaren "Reasoning Slider", der es Nutzern ermöglicht, die Intensität der KI-Analyse je nach Aufgabenanforderung zu steuern. Grok Deep Search wurde mit einer breiteren Perspektive und weniger Filterung konzipiert, was zu einer umfassenderen Abdeckung verschiedener Ansichten führen kann. Der Dienst ist besonders in technischen Bereichen stark, wobei laut xAI die Leistung in den Bereichen Programmierung und Mathematik in eigenen Benchmarks gut abschneidet.

you.com ARI

You.com ARI kann laut Herstellerangaben Hunderte von Quellen gleichzeitig analysieren, was im Vergleich zu sequentiellen Verarbeitungen anderer Tools eine umfassendere Recherche ermöglichen soll. Der Dienst erstellt laut Herstellerangaben umfassende Berichte mit Visualisierungen, einschließlich interaktiver Grafiken und Diagramme in einem formatierten PDF-Format. You.com ARI ermöglicht laut Herstellerangaben die Integration von Unternehmensdaten, wodurch gleichzeitig öffentliche und private Datenquellen analysiert werden können. Der Dienst verfügt laut Herstellerangaben über ein Echtzeit-Verifizierungssystem, bei dem jede Behauptung und jeder Datenpunkt überprüft wird.

Perplexity.ai Deep Research

Perplexity.ai Deep Research zeichnet sich durch seine Geschwindigkeit aus, mit einer typischen Bearbeitungszeit von unter drei Minuten pro Anfrage für detaillierte Analysen. Der Dienst bietet eine hohe Kosteneffizienz mit einer kostenlosen Version (begrenzte Anfragen) sowie einer erschwinglichen Pro-Version. Die Auswahl verschiedener KI-Modelle (in der Pro-Version Zugang zu Modellen wie GPT-4o und DeepSeek R1) bietet Flexibilität bei der Anpassung an spezifische Rechercheaufgaben. Die von Perplexity generierten Berichte sind in der Regel gut strukturiert und prägnant, was den Nutzern das schnelle Erfassen der wichtigsten Informationen erleichtert.

Gemini Deep Research

Gemini Deep Research demonstriert fortschrittliche Reasoning-Fähigkeiten, besonders bei der Bearbeitung komplexer, mehrstufiger Probleme. Die nahtlose Integration in das Google-Ökosystem (Google Docs, Sheets) verbessert die Produktivität und ermöglicht eine einfache Datenvisualisierung. Der Dienst bietet die Möglichkeit, mehrere Rechercheaufgaben gleichzeitig auszuführen, was bei umfangreichen Projekten die Effizienz steigern kann. Gemini Deep Research ist als Teil eines Abonnements für fortgeschrittene Nutzer konzipiert, die regelmäßig auf komplexe Recherchefunktionen angewiesen sind.

GPT 4.5 Research

GPT-4.5 Research bietet eine reduzierte Halluzinationsrate und höhere faktische Genauigkeit, wobei der Dienst laut OpenAI eine Genauigkeit von 62,5% auf dem SimpleQA-Benchmark erreicht. Der Dienst zeichnet sich durch verbesserte Konversationsfähigkeiten mit natürlicheren Dialogen und prägnanten Antworten aus. GPT-4.5 Research zeigt besondere Stärken im Schreiben und bei realen Programmieraufgaben, was es für textbasierte Analysen besonders wertvoll macht. Die Integration in das ChatGPT-Ökosystem mit Unterstützung für alle ChatGPT-Tools sowie API-Funktionen erhöht die Flexibilität für professionelle Nutzer.

Claude Research

Anthropic hat im April 2025 die Research-Funktion für Claude eingeführt. Diese ermöglicht es dem KI-Assistenten, umfassende Recherchen durchzuführen, indem er sowohl das Internet als auch verknüpfte interne Dokumente durchsucht. Die Funktion arbeitet selbstständig und führt mehrere aufeinander aufbauende Suchen durch, wobei sie eigenständig entscheidet, welche Informationen als nächstes untersucht werden sollen.

Seit Mai 2025 gibt es zusätzlich eine erweiterte Version namens "Advanced Research", die für besonders umfangreiche Recherchen gedacht ist. Diese kann Hunderte von Quellen durchsuchen und benötigt dafür zwischen 5 und 45 Minuten.

Die Research-Funktion ist derzeit für Nutzer der kostenpflichtigen Max-, Team- und Enterprise-Abonnements in den USA, Japan und Brasilien verfügbar. Eine Ausweitung auf weitere Regionen und Abonnement-Stufen ist geplant.

Internetsuchen

Ein KI-gestützter Suchassistent ist ein System, das traditionelle Websuchergebnisse mit KI-Fähigkeiten kombiniert, um natürlichsprachliche Anfragen zu verstehen und kontextbezogene, zusammengefasste Antworten zu liefern. Anders als klassische Suchmaschinen, die nur Links und Snippets anzeigen, kann ein KI-Suchassistent Informationen aus verschiedenen Quellen analysieren, verstehen und in einer kohärenten, konversationellen Form präsentieren, wobei er oft auch Quellenangaben macht und aktuelle Internetinhalte in Echtzeit durchsuchen kann. Mittlerweile bieten viele KI-Chatbots eine Websuche auch als optionales Feature direkt im Chatfenster an.

ChatGPT Search

ChatGPT Search ist eine von OpenAI entwickelte Suchfunktion, die seit Ende Oktober 2024 in ChatGPT integriert ist. Die Funktion kombiniert die GPT-Technologie mit einem direkten Zugriff auf aktuelle Internetquellen und ergänzt die Antworten durch nachvollziehbare Quellenangaben.

Zunächst stand ChatGPT Search nur zahlenden ChatGPT Plus- und Team-Nutzern zur Verfügung, basierend auf Erfahrungen mit dem Prototyp „SearchGPT". Mitte Dezember 2024 kündigte OpenAI an, dass die Suchfunktion schrittweise auch für alle angemeldeten kostenlosen Nutzer ausgerollt wird – ein Prozess, der über mehrere Monate geplant ist und im September 2025 noch nicht vollständig abgeschlossen ist.

Die technische Grundlage bildet ein speziell angepasstes Modell aus der GPT-4o-Familie, das mit einer Suchinfrastruktur kombiniert wird. Damit können Nutzer aktuelle Informationen nahtlos in ihre ChatGPT-Unterhaltungen einbeziehen. OpenAI positioniert sich mit diesem Ansatz klar als Wettbewerber zu klassischen Suchmaschinen wie Google, wobei die Plattform auf ein chatbasiertes Nutzererlebnis statt auf klassische Ergebnislisten setzt.

you.com

You.com wurde 2020 als KI-gestützte Plattform gegründet, die zunächst als personalisierte Suchmaschine startete und sich seitdem zu einem vielseitigen KI-Assistenten weiterentwickelt hat. Die Plattform bietet Funktionen wie Informationssuche, Textgenerierung, Codeerstellung und Bildgenerierung – unterstützt durch Echtzeit-Internetzugriff für aktuelle und zitierte Antworten. Nutzer können You.com an ihre persönlichen Präferenzen anpassen, wobei Datenschutz und Transparenz im Mittelpunkt stehen.

Nach der Gründung im Jahr 2020 startete You.com seine öffentliche Beta im November 2021. Die erste Finanzierungsrunde in Höhe von 20 Millionen US-Dollar wurde von Marc Benioff über Time Ventures angeführt.

You.com war ein Vorreiter bei der Integration von KI-Technologien in die Websuche. Im Dezember 2022 wurde es die erste Suchmaschine, die ein Large Language Model mit Echtzeit-Zugriff auf Internetquellen und Zitatfunktion für Endnutzer bereitstellte. Im Februar 2023 folgte die Einführung multimodaler KI-Chatfunktionen.

Die Plattform bietet spezialisierte KI-Agenten: Der Smart Agent liefert schnelle Antworten, der Genius Agent hilft bei komplexen Problemen und Datenvisualisierung, der Research Agent unterstützt bei vertiefter Recherche und der Create Agent ermöglicht die Erstellung digitaler Kunst. Nutzer können auch eigene Assistenten erstellen, die auf individuelle Bedürfnisse zugeschnitten sind.

You.com legt besonderen Wert auf den Schutz der Privatsphäre. Die Plattform verspricht, keine persönlichen Daten zu verkaufen oder Nutzeraktivitäten im Web zu verfolgen. Ein spezieller privater Modus ermöglicht es, Konversationen zu führen, ohne dass diese in der Historie gespeichert werden.

perplexity.ai

Perplexity.ai ist ein KI-gestützter Assistent, der als sogenannte „Antwortmaschine" konzipiert wurde. Die Plattform verarbeitet in natürlicher Sprache gestellte Fragen, kombiniert große Sprachmodelle mit Echtzeit-Internetzugriff und präsentiert die Ergebnisse in Form von strukturiertem Fließtext mit transparenten Quellenangaben. Auf diese Weise sollen Nutzerinnen und Nutzer aktuelle und nachvollziehbare Informationen erhalten.

Das Unternehmen wurde im August 2022 von Aravind Srinivas, Denis Yarats, Johnny Ho und Andy Konwinski gegründet und hat seinen Sitz in San Francisco. CEO ist Mitgründer Aravind Srinivas.

Perplexity bietet ein Freemium-Modell an: Neben einer kostenlosen Basisversion existiert eine kostenpflichtige Pro-Version mit erweiterten Funktionen. Die Plattform vereint Merkmale einer KI-Suchmaschine mit denen eines KI-Textgenerators und wird von Analysten zunehmend als mögliche Konkurrenz zu etablierten Suchdiensten wie Google betrachtet.

Die Anwendung wird als harmonische Mischung aus ChatGPT und Google beschrieben. Gleichzeitig gibt es auch Kritikpunkte, etwa hinsichtlich der Methoden der Informationsbeschaffung, möglicher Urheberrechtsverletzungen und der Verwendung externer Inhalte.

Perplexity hat seit seiner Gründung mehrere Finanzierungsrunden durchlaufen und gehört inzwischen zu den höher bewerteten Start-ups im Bereich generativer KI. Neben der Kernfunktion wurden zusätzliche Features entwickelt, wie ein erweiterter Browsermodus („Comet") und mobile Anwendungen für iOS und Android. Die App synchronisiert sich über verschiedene Geräte hinweg und nutzt die Leistung führender KI-Modelle von OpenAI, Anthropic, Meta und weiteren Anbietern.

Die Plattform bietet außerdem praktische Funktionen wie sofortige Seitenzusammenfassungen und hat eine wachsende Präsenz in sozialen Medien mit über 515.000 Followern auf Instagram. Kürzlich hat Perplexity eine Search API eingeführt, die Entwicklern Echtzeit-Zugriff auf einen umfangreichen Web-Index für fortgeschrittene KI-Anwendungen ermöglicht.

Comet

Comet ist ein Webbrowser des Unternehmens Perplexity AI, der im Juli 2025 zunächst für Premium-Abonnenten eingeführt und im Oktober 2025 kostenlos für alle Nutzer weltweit verfügbar gemacht wurde. Der Browser integriert künstliche Intelligenz direkt in die Browsing-Erfahrung, sodass Nutzer Fragen stellen und Aufgaben direkt während des Surfens erledigen können, ohne zwischen verschiedenen Programmen wechseln zu müssen.

Comet kann als persönlicher Assistent verschiedene Aufgaben automatisieren, darunter Web-Recherchen durchführen, E-Mails organisieren, Einkäufe tätigen oder Termine planen. Der Browser analysiert den Kontext der besuchten Webseiten und kann auf Anfrage Informationen zusammenfassen, vergleichen oder weiterverarbeiten. Das System kann mit Erlaubnis des Nutzers auf Google-Dienste zugreifen und lernt aus dem Nutzungsverhalten, um personalisierte Unterstützung zu bieten.

Eine Funktion namens Background Assistants ermöglicht es, mehrere Aufgaben gleichzeitig und asynchron im Hintergrund bearbeiten zu lassen. Diese Funktion steht Nutzern der Premium-Abonnementstufe zur Verfügung und arbeitet wie ein Team von Assistenten, das vom Nutzer über ein zentrales Dashboard verwaltet werden kann.

Comet konkurriert mit anderen KI-gestützten Browsern und Browser-Erweiterungen von Unternehmen wie OpenAI und Anthropic. Anthropic stellte im August 2025 mit Claude for Chrome eine Browser-Erweiterung vor, die als KI-Agent fungiert, und OpenAI präsentierte im Januar 2025 mit Operator einen Agenten, der einen Browser zur Aufgabenerledigung nutzt. Das Produkt basiert auf der Technologie von Perplexity AI, einem Unternehmen, das für seine KI-gestützte Suchmaschine bekannt ist, die Antworten mit Quellenangaben liefert.

Der Browser steht für Desktop-Systeme zur Verfügung. Mobile Versionen für Smartphones sind bereits in fortgeschrittenen Entwicklungsstadien, wobei die Android-Version bereits für Pre-Registrierung im Google Play Store verfügbar gemacht wurde.

Meeting Assistenten

KI-gestützte Meeting-Assistenten bieten umfassende Protokollierung und Transkription von Gesprächen in Echtzeit, sodass kein wichtiges Detail verloren geht. Sie können automatisch Aufgaben und Verpflichtungen aus dem Gesprächsverlauf erkennen und den verantwortlichen Personen zuordnen. Durch intelligente Zusammenfassungen werden lange Meetings auf ihre Kernpunkte reduziert, was Zeit bei der Nachbereitung spart. Zudem ermöglichen sie mehrsprachige Übersetzungen und können Informationen aus früheren Meetings bei Bedarf kontextuell einbinden. Die Integration in gängige Meetingsysteme wie Microsoft Teams, Zoom oder Google Meet erfolgt meist nahtlos über Plugins oder APIs. Diese Lösungen lassen sich in der Regel auch mit bestehenden Projektmanagement- und Kollaborationstools verbinden. Moderne KI-Meeting-Assistenten führen präzise Stimmungsanalysen durch, die Emotionen und Engagement der Teilnehmer erfassen und so Rückschlüsse auf die allgemeine Meetingqualität ermöglichen. Sie können Gesprächsdynamiken wie Redezeiten, Unterbrechungen und Beteiligungsmuster transparent machen und liefern wertvolle Einblicke zur Optimierung der Teamkommunikation. Einige fortschrittliche Systeme bieten sogar Echtzeit-Coaching für Moderatoren, indem sie Vorschläge zur Verbesserung der Gesprächsführung einblenden.

SpeechMind

Speechmind ist eine KI-gestützte Software zur automatischen Protokollierung von Gesprächen. Sie erstellt aus Audioaufnahmen strukturierte Sitzungsprotokolle, die entweder als kompakte Ergebnisprotokolle mit den wichtigsten Punkten oder als ausführliche Verlaufsprotokolle verfügbar sind. Dabei werden Aufgaben und Beschlüsse automatisch erkannt und hervorgehoben.

Die Anwendung ist für den Einsatz in Unternehmen, Gremien und öffentlichen Verwaltungen im deutschsprachigen Raum konzipiert. Sie funktioniert sowohl bei Online-Meetings als auch bei Präsenzveranstaltungen und kann mit verschiedenen Videokonferenz-Plattformen kombiniert werden.

Das Besondere an Speechmind ist, dass die Verarbeitung unabhängig vom Meeting-Format erfolgt - Nutzer können ihre Meetings wie gewohnt abhalten, während die Software sich um die Protokollierung kümmert.

Speechmind ist als Web-Anwendung verfügbar. Für Präsenzbesprechungen wird in den Quellen eine entsprechende App-Lösung erwähnt, wobei die genaue Verfügbarkeit einer eigenständigen mobilen Anwendung aus den vorliegenden Informationen nicht eindeutig hervorgeht. Die Verarbeitung der Daten erfolgt nach den geltenden Datenschutzstandards.

Die Protokollierung wird als DSGVO-konform beschrieben, wobei die Aufzeichnung allen Teilnehmenden angezeigt wird und sich jederzeit unterbrechen lässt, wenn private Gespräche geführt werden oder bestimmte Informationen nicht geteilt werden sollen.

Die Software bietet die Möglichkeit, Protokolle direkt per E-Mail zu versenden. Zudem werden die Kundendaten nicht für das Training der KI-Modelle verwendet. Ergebnisse können in unterschiedlichen Protokollformaten exportiert und in bestehende Systeme eingebunden werden.

Die Software wird als Alternative zu anderen KI-Assistenzsystemen wie Microsoft Copilot und ChatGPT positioniert und hat sich besonders auf die Bedürfnisse von Kommunen und deren Sitzungsdienst spezialisiert.

sally

otter.ai

read.ai

fireflies.ai

Meeting-Assistenten
und der EU AI Act

Meeting-Assistenten, die Emotionen und Verhalten während Besprechungen analysieren, können gemäß dem EU AI Act als Hochrisiko-KI-Systeme eingestuft werden, insbesondere wenn sie zur Bewertung oder zum Treffen von Entscheidungen über Mitarbeiter verwendet werden. Diese Einstufung erfolgt, weil solche Systeme das Potenzial haben, in Arbeitsbeziehungen und berufliche Entwicklungsmöglichkeiten einzugreifen und damit grundlegende Rechte beeinflussen können.

Der EU AI Act, der als weltweit erste umfassende KI-Regulierung gilt und im August 2024 in Kraft getreten ist, etabliert einen rechtlichen Rahmen für verschiedene Risikoklassen von KI-Systemen.

Für als hochriskant eingestufte KI-Systeme gelten strenge Anforderungen an Transparenz, Dokumentation, menschliche Aufsicht und Risikomanagement, um mögliche negative Auswirkungen zu minimieren. Diese Maßnahmen sollen sicherstellen, dass KI-Systeme sicher und vertrauenswürdig eingesetzt werden.

Die endgültige Einstufung hängt jedoch von der spezifischen Funktionalität des jeweiligen Meeting-Assistenten ab. Während Systeme mit Emotionserkennung und Verhaltensanalyse, die beispielsweise zur Bewertung der Leistung von Vertriebsmitarbeitern in Kundengesprächen eingesetzt werden, unter die strengeren Regelungen fallen können, werden Systeme, die sich auf einfache Transkription und Aufgabenverfolgung beschränken, möglicherweise nicht als Hochrisiko-KI eingestuft.

Diese Differenzierung zeigt die nuancierte Herangehensweise des AI Act, der die Regulierung an die tatsächlichen Risiken und Anwendungsbereiche der jeweiligen KI-Systeme anpasst.

IT-Entwicklungswerkzeuge im Kontext von KI

Speziell für KI entwickelte Werkzeuge

Diese Kategorie umfasst Tools, die primär für die Entwicklung, Implementierung und Verwaltung von KI-Anwendungen konzipiert wurden. Sie bieten spezialisierte Funktionen, die direkt auf die Anforderungen von KI-basierten Systemen zugeschnitten sind.

KI-Agenten-Frameworks ermöglichen die Entwicklung autonomer Systeme, die komplexe Aufgaben durch Wahrnehmung, Entscheidungsfindung und zielgerichtete Aktionen bewältigen können. Sie bieten vorgefertigte Module und Strukturen für gängige Funktionen wie Aufgabenzerlegung, Werkzeugnutzung und Beobachtbarkeit, wodurch die Erstellung von spezialisierten KI-Agenten vereinfacht wird. Diese Frameworks unterstützen die Integration verschiedener KI-Technologien wie maschinelles Lernen, große Sprachmodelle und natürliche Sprachverarbeitung, um adaptive und skalierbare Lösungen für vielfältige Anwendungsbereiche zu schaffen. Anbei eine Liste mit derzeitig bekannten Frameworks.

Low Code/No Code für KI

LowCode/NoCode-Werkzeuge sind Entwicklungsplattformen, die es Nutzern ermöglichen, Anwendungen mit minimaler oder ohne manuelle Programmierung zu erstellen, indem sie visuelle Entwicklungsumgebungen und vorgefertigte Komponenten nutzen.

Im KI-Kontext spielen diese Tools eine wichtige Rolle bei der Demokratisierung der Technologie, da sie auch Nicht-Programmierern ermöglichen, KI-Funktionen wie Textanalyse, Bildverarbeitung oder Vorhersagemodelle durch einfache Konfiguration zu implementieren. Diese Werkzeuge sind besonders relevant für Unternehmen, die KI-Technologien schnell und kostengünstig einführen wollen, ohne spezialisierte Entwicklerteams aufbauen zu müssen. Sie ermöglichen schnelle Prototypenentwicklung, Prozessautomatisierung und die Integration von KI in bestehende Anwendungen durch visuelle Entwicklung statt komplexer Programmierung.

Voiceflow

Voiceflow ist eine No-Code-Plattform, die es Nutzern ermöglicht, Sprach- und Chatbot-Anwendungen zu erstellen und bereitzustellen. Die Plattform zeichnet sich durch ihre benutzerfreundliche Drag-and-Drop-Oberfläche aus, die es auch Menschen ohne Programmierkenntnisse ermöglicht, professionelle KI-Agenten zu entwickeln.

Durch Integrationen mit Large Language Models (LLMs) wie GPT-4 oder Claude können komplexe KI-Agenten ohne Programmierkenntnisse entwickelt werden. Diese Verbindung zu generativen KI-Modellen erweitert die Möglichkeiten der Plattform erheblich und erlaubt die Erstellung von Agenten mit fortgeschrittenen Konversationsfähigkeiten.

Die Plattform wird für die Erstellung von KI-Lösungen genutzt, die in verschiedenen Branchen Einsatz finden, insbesondere zur Gestaltung von interaktiven Dialogsystemen. Voiceflow unterstützt dabei verschiedene Einsatzgebiete wie Websites, Messenger-Dienste und Telefonie. Ein häufiger Anwendungsfall ist die Automatisierung von Routineaufgaben im Kundenservice, wodurch Geschäftsprozesse optimiert werden können.

Als All-in-One-Plattform für Conversational AI bietet Voiceflow zusätzliche Funktionen wie Live-Prototyping und die Möglichkeit, Projekte in Produktion ohne Unterbrechung zu aktualisieren. Die Plattform unterstützt verschiedene Sprachassistenten wie Alexa und Google Assistant, ermöglicht aber auch eigenes Hosting der erstellten Agenten.

KI-Plattformdienste

Cloud-basierte Dienste und Plattformen, die speziell für die Entwicklung, Bereitstellung und Verwaltung von KI-Anwendungen entwickelt wurden.

VertexAI Agent Builder

Vertex AI Agent Builder ist ein Cloud-Dienst von Google, der eine Plattform für die Erstellung und Bereitstellung von KI-Agenten bietet. Er vereinfacht die Entwicklung von KI-Anwendungen durch vorgefertigte Komponenten und integriert sich nahtlos in die Google Cloud-Infrastruktur.

Der Dienst unterstützt die Erstellung von Konversationsagenten und KI-gestützten Anwendungen, ohne dass tiefgreifende Machine-Learning-Expertise erforderlich ist. Eine besondere Stärke der Plattform liegt in der Unterstützung von Multi-Agent-Systemen, die es ermöglicht, komplexe Prozesse durch die Zusammenarbeit mehrerer spezialisierter Agenten zu automatisieren.

Der Dienst besteht aus mehreren spezifischen Komponenten. Dazu gehört der Agent Garden, eine Bibliothek mit vorgefertigten Beispielen, Tools und Agenten, die als Ausgangspunkt für eigene Entwicklungen dienen können.

Das Agent Development Kit (ADK) ist ein Framework auf Python-Basis, das die strukturierte Entwicklung von Agenten unterstützt und die Umsetzung vereinfacht. Entwickler können damit in relativ wenigen Zeilen Code Agenten erstellen. Die fertigen Anwendungen werden anschließend in der Vertex AI Agent Engine betrieben, einer spezialisierten Laufzeitumgebung, die für Skalierbarkeit, Performance und Verwaltung von Sessions und Speicherdaten optimiert ist.

Zusätzlich bietet Vertex AI Agent Builder eine Reihe von Agent Tools, die Agenten zur Verfügung stehen, darunter Zugriff auf Grounding-Mechanismen (z. B. Vertex AI Search oder Google Search), Codeausführung, Retrieval-Augmented Generation (RAG) sowie Integrationen mit APIs und Diensten wie Apigee. Die enge Integration in die Google-Cloud-Umgebung ermöglicht es, KI-Agenten direkt mit anderen Diensten wie BigQuery, Cloud Storage oder APIs zu verbinden.

Für Sicherheit und Governance stehen Funktionen wie Identitäts- und Zugriffsverwaltung (IAM), Inhalts- und Nutzungsrichtlinien sowie regionsspezifische Bereitstellungsmöglichkeiten zur Verfügung. Zusätzlich unterstützt die Plattform erweiterte Sicherheitsfeatures wie Customer-managed encryption keys (CMEK) und Data residency (DRZ). Der Vertex AI Agent Builder richtet sich bewusst an ein breites Spektrum von Entwicklern und Unternehmen.

Durch die bereitgestellten Tools, Vorlagen und die ausführliche Dokumentation können auch Teams ohne spezialisierte Machine-Learning-Erfahrung funktionsfähige KI-Agenten entwickeln. Google unterstützt dies durch Trainings- und Zertifizierungsangebote, die den Einstieg in die Plattform erleichtern. Praktische Codelabs führen Entwickler Schritt für Schritt durch den Prozess der Agentenerstellung und -bereitstellung.

Es ist wichtig zu beachten, dass die Plattform trotz ihrer Benutzerfreundlichkeit auch gewisse Einschränkungen aufweist. Sie bietet weniger Anpassungsmöglichkeiten als die Entwicklung von Agenten von Grund auf und kann bei hochkomplexen Anwendungen an Grenzen stoßen. Zudem besteht eine starke Abhängigkeit von Google Cloud-Diensten.

KI-Frameworks

Umfassende Entwicklungsframeworks, die speziell für die Erstellung von KI-Anwendungen konzipiert wurden und eine vollständige Struktur für die Entwicklung komplexer KI-Systeme bieten.

CAMEL-AI

CAMEL-AI (Communicative Agents for "Mind" Exploration of Large Language Model Society) ist ein Framework zur Entwicklung kommunizierender, autonom agierender KI-Agenten. Es ermöglicht die Erstellung von Agenten, die miteinander interagieren und kooperieren können, um komplexe Aufgaben zu bearbeiten, und bietet Werkzeuge zur Simulation von Multi-Agenten-Systemen.

Das Konzept wurde im März 2023 als wissenschaftliche Publikation auf arXiv veröffentlicht. Das Forscherteam bestand aus Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin und Bernard Ghanem von der King Abdullah University of Science and Technology (KAUST).

CAMEL untersucht eine zentrale Herausforderung der KI-Forschung: Chat-basierte Sprachmodelle sind in der Regel stark auf menschliche Eingaben angewiesen, um Konversationen in eine produktive Richtung zu lenken. Mit Methoden wie role-playing und inception prompting erforscht das Framework, wie KI-Agenten autonom miteinander interagieren können, sodass weniger menschliche Steuerung erforderlich ist.

Durch diesen Ansatz soll CAMEL verschiedene Herausforderungen wie Rollentausch, wiederholte Anweisungen, fehlerhafte Antworten und Endlosschleifen in der Kommunikation zwischen Agenten überwinden. Dadurch soll es möglich werden, komplexe Aufgabenstellungen durch die Zusammenarbeit mehrerer spezialisierter Agenten zu bearbeiten.

Das Projekt ist Open Source und auf GitHub verfügbar. Dort findet sich eine ausführliche Dokumentation sowie Beispiele zur praktischen Anwendung. Diese reichen von der Simulation kooperativer Diskussionen bis hin zur automatisierten Problemlösung durch mehrere Agenten.

KI-Entwicklungsbibliotheken

Spezialisierte Codebibliotheken, die entwickelt wurden, um die Erstellung von KI-basierten Anwendungen, insbesondere jenen, die auf großen Sprachmodellen (LLMs) basieren, zu vereinfachen. Diese Bibliotheken bieten vorgefertigte Komponenten für typische KI-spezifische Aufgaben.

crewAI

CrewAI ist eine Open-Source-Bibliothek zur Erstellung von Multi-Agenten-Systemen, bei denen mehrere KI-Agenten kooperativ zusammenarbeiten können.

Das Framework wurde entwickelt, um sogenannte „Crews" zu definieren – also Agententeams mit spezifischen Aufgaben, die gemeinsam komplexe Probleme bearbeiten können. Entwickler können für jeden Agenten Rollen, Ziele und Werkzeuge festlegen und so Zuständigkeiten klar strukturieren.

Über definierte Workflows („Flows") lassen sich die Arbeitsabläufe der Agenten koordinieren. Diese rollen- und aufgabenbasierte Organisation erleichtert die Verteilung komplexer Tätigkeiten innerhalb eines Teams und ermöglicht eine effizientere Zusammenarbeit.

CrewAI ist flexibel hinsichtlich der verwendeten Sprachmodelle. Es unterstützt die Integration verschiedener Large Language Models (LLMs) über anpassbare Schnittstellen. Dadurch können Entwickler wahlweise cloudbasierte Modelle wie GPT von OpenAI oder eigene Implementierungen einbinden.

Das Framework ist provider-neutral gestaltet und ermöglicht zusätzlich die Integration von Funktionen wie Vector Storage mit ChromaDB und Qdrant sowie die Einbindung von Tracing-Tools wie Langfuse und Phoenix.

Die Bibliothek eignet sich sowohl für einfache als auch für komplexe Multi-Agenten-Anwendungen und fördert die kollaborative Intelligenz. Durch die koordinierte Zusammenarbeit mehrerer spezialisierter Agenten lassen sich Aufgaben bewältigen, die für einzelne Modelle zu umfangreich oder vielschichtig wären.

AutoGen

AutoGen ist eine Open-Source-Entwicklungsbibliothek von Microsoft, die speziell für die Erstellung sogenannter „agentic AI"-Systeme konzipiert wurde. Sie ermöglicht die Entwicklung von Multi-Agent-Systemen, bei denen mehrere KI-Agenten miteinander kommunizieren und kooperieren können, um sowohl einfache als auch komplexe Aufgaben zu lösen.

Die Bibliothek stellt ein flexibles Framework bereit, das verschiedene Agenten-Typen wie Assistant Agents oder User Proxy Agents unterstützt. Diese können autonom agieren oder in Zusammenarbeit mit Menschen eingesetzt werden. Eine strukturierte Dialoglogik sorgt dabei für eine effiziente Kommunikation zwischen den Agenten.

Mit der Veröffentlichung von Version 0.4 wurde AutoGen grundlegend weiterentwickelt. Die neue Architektur bietet unter anderem asynchrone, ereignisgesteuerte Kommunikation zwischen Agenten, verbesserte Stabilität, mehr Skalierbarkeit und eine klarere Modularisierung. Dadurch eignet sich das Framework besonders für die Entwicklung von KI-Anwendungen der nächsten Generation.

Für die Installation und Nutzung wird Python benötigt. Die Installation erfolgt einfach über pip mit dem Befehl pip install -U "autogen-agentchat". Dank der modularen Architektur lässt sich AutoGen flexibel an unterschiedliche Szenarien anpassen.

Das Framework unterstützt durch seine Extensions API verschiedene LLM-Clients wie OpenAI und AzureOpenAI sowie Funktionen zur Code-Ausführung. Außerdem ist die Integration mit anderen Microsoft-Technologien wie Semantic Kernel möglich, was die Einbindung in bestehende Microsoft-Ökosysteme erleichtert.

Als zusätzliches Entwicklerwerkzeug steht AutoGen Studio zur Verfügung - eine Low-Code-Oberfläche, die das Erstellen von Multi-Agent-Workflows ohne umfangreiche Programmierkenntnisse ermöglicht.

AutoGen wird bereits von verschiedenen Microsoft-Teams wie Microsoft Fabric und ML.NET eingesetzt und zielt darauf ab, ein ebenso grundlegendes Framework für agentic AI zu werden, wie PyTorch es für Deep Learning ist.

LlamaIndex

LlamaIndex ist ein Framework und eine Schnittstellen-Bibliothek für LLM-Anwendungen, die sich auf die Verwaltung, Indizierung und den Abruf von Daten spezialisiert hat. Sie ermöglicht es, externe Datenquellen in Anwendungen mit großen Sprachmodellen einzubinden und bietet Werkzeuge für Retrieval-Augmented Generation (RAG). Dieses Verfahren verbessert die Genauigkeit und Relevanz von Antworten, indem Sprachmodellen während der Generierung Zugang zu zusätzlichen Informationen verschafft wird.

Die Bibliothek stellt Entwicklern eine einheitliche Schnittstelle zur Verfügung, um strukturierte und unstrukturierte Daten aus vielen unterschiedlichen Quellen wie Datenbanken, PDF-Dokumenten, APIs und Textdateien mit Sprachmodellen zu verbinden. LlamaIndex übernimmt dabei die Aufbereitung, indem es Informationen in durchsuchbare Indizes umwandelt, die von Sprachmodellen effizient genutzt werden können.

Nach aktuellen Angaben unterstützt das Framework über 160 Datenquellen und Datenformate, mit mehr als 300 verfügbaren Integrationspaketen.

Ein zentraler Bestandteil von LlamaIndex ist die Unterstützung für RAG-Verfahren. Diese Technik erweitert die Fähigkeiten von Sprachmodellen, indem aktuelle und spezifische Daten während der Antwortgenerierung herangezogen werden können. Auf diese Weise entstehen präzisere und faktenbasierte Ergebnisse, die über das ursprüngliche Trainingswissen der Modelle hinausgehen.

LlamaIndex bietet sowohl einfache APIs für Einsteiger als auch erweiterte Anpassungsmöglichkeiten für erfahrene Entwickler. Es lässt sich in bestehende Anwendungsframeworks integrieren und unterstützt unterschiedliche Speicherlösungen – von lokalen Systemen bis hin zu Cloud-Diensten. Zusätzlich steht mit LlamaCloud ein Managed-Service zur Verfügung, der Indexierung und Retrieval zentral bereitstellt.

Neben Python existieren auch vollständige Integrationen für TypeScript, die moderne JavaScript-Laufzeiten wie Node.js, Deno und Bun unterstützen.

LangChain

LangChain ist ein Open-Source-Framework, das speziell für die Entwicklung von Anwendungen auf Basis von Large Language Models (LLMs) entwickelt wurde. Es wurde im Oktober 2022 von Harrison Chase und Ankush Gola gemeinsam gegründet.

Das Framework bietet Komponenten für typische LLM-Anwendungsfälle wie die Arbeit mit Dokumenten, den Bau von Chatbots, die Orchestrierung von Agenten und weitere Anwendungsfelder. Ziel ist es, die Integration von LLMs mit externen Datenquellen, Tools und Schnittstellen zu vereinfachen und so die Entwicklung komplexer KI-Anwendungen vom Prototyp bis zur Produktion zu ermöglichen.

Als Framework geht LangChain über eine reine Bibliothek hinaus und stellt eine standardisierte Schnittstelle für die Entwicklung von KI-Anwendungen bereit. Entwickler können damit unterschiedliche Komponenten miteinander verbinden und komplexe Workflows erstellen. Besonders relevant ist die Möglichkeit, LLMs nahtlos mit Datenbanken, APIs oder Werkzeugen zusammenzuführen, was die Entwicklung von Multi-Tool-Agenten und spezialisierten Chatbots erleichtert.

Die Plattform ermöglicht es, KI-Agenten zu bauen und zu deployen, wobei verschiedene Komponenten wie Chat-Modelle, Vektor-Speicher und Provider-spezifische Integrationen zur Verfügung stehen.

Neben der Kernbibliothek existieren inzwischen zusätzliche Produkte. Mit LangSmith bietet LangChain ein Werkzeug zur Beobachtung, Evaluierung und Qualitätssicherung von LLM-basierten Anwendungen. LangGraph ermöglicht die Modellierung und Verwaltung zustandsbehafteter, lang laufender Agenten. Diese Erweiterungen unterstützen den Einsatz von LangChain auch in produktiven Umgebungen. Die verschiedenen LangChain-Produkte arbeiten nahtlos zusammen und bieten eine integrierte Lösung.

Das Framework ist in Python sowie JavaScript/TypeScript verfügbar und wird aktiv weiterentwickelt. Das Framework unterstützt eine Vielzahl von Anbietern und Integrationen, darunter Anthropic, OpenAI, Azure AI, Google Vertex AI, Mistral AI, Hugging Face und viele weitere.

Phidata

Phidata ist ein Framework für die KI-Anwendungsentwicklung, das darauf ausgerichtet ist, die Erstellung von KI-Agenten und intelligenten Workflows zu vereinfachen. Es bietet spezialisierte Werkzeuge für die Entwicklung von KI-Assistenten, die mit Gedächtnis (Memory), Wissensbasen (Knowledge) und externen Tools ausgestattet sind. Das Framework ermöglicht die Integration von KI-Funktionen in bestehende Systeme und macht besonders die lokale Entwicklung und den Betrieb von KI-Agenten zugänglicher.

Agenten werden in Phidata als autonome Programme definiert, die Aufgaben mithilfe von Sprachmodellen erledigen. Das Framework unterstützt dabei verschiedene Arten von Wissensbasen, einschließlich der Möglichkeit, lokale Dokumente zu laden und zu verarbeiten. Die DocumentKnowledgeBase kann beispielsweise lokale Dateien einlesen, diese in Vektor-Embeddings umwandeln und in einer Vektordatenbank speichern, was eine effiziente Informationsabfrage ermöglicht.

Phidata konzentriert sich dabei auf die Automatisierung intelligenter Arbeitsprozesse durch die Kombination verschiedener KI-Komponenten in einem einheitlichen System. Als multi-modales Framework ermöglicht es die Entwicklung von Agenten, die nicht nur auf Text, sondern auf verschiedene Datentypen und Eingabeformate reagieren können.

Semantic Kernel

Semantic Kernel ist eine von Microsoft entwickelte Open-Source-Bibliothek, die es Entwicklern ermöglicht, KI-Funktionen in ihre Anwendungen zu integrieren. Sie unterstützt die Orchestrierung verschiedener KI-Plugins und bietet ein Framework für die Integration von großen Sprachmodellen in traditionelle Programmiersprachen wie C#, Python und Java.

Das Framework fungiert als Middleware zwischen Anwendungen und Large Language Models (LLMs) und vereinfacht damit die Entwicklung KI-gestützter Anwendungen erheblich. Entwickler können vorhandenen Code als Plugins hinzufügen und diese über OpenAPI-Spezifikationen einbinden, was maximale Kompatibilität gewährleistet.

Semantic Kernel bietet zudem out-of-the-box Connectors für flexible KI-Integration und eignet sich besonders für die Entwicklung von KI-Agenten.

Ein besonderer Vorteil ist die Möglichkeit, KI-Prompts direkt mit traditionellem Code zu kombinieren. Dies ermöglicht es Entwicklern, die Leistungsfähigkeit großer Sprachmodelle nahtlos in bestehende Anwendungen zu integrieren, ohne die gewohnte Programmierumgebung verlassen zu müssen.

Das Framework kombiniert dabei maschinelles Lernen mit semantischer Verarbeitung zur Optimierung der natürlichen Sprachverarbeitung.

LiteLLM

LiteLLM ist eine Softwarebibliothek, die als einheitliche Schnittstelle für verschiedene Large Language Models fungiert. Die Bibliothek ermöglicht Entwicklern, mit einem einzigen Code-Format auf unterschiedliche Sprachmodelle wie GPT, Claude, oder Gemini zuzugreifen.

Anstatt für jedes Modell separate Programmiercode zu schreiben, können Entwickler durch LiteLLM alle Modelle mit identischen Befehlen ansprechen. Die Software übersetzt die einheitlichen Anfragen automatisch in die spezifischen Formate der jeweiligen Modellanbieter.

Die Bibliothek unterstützt derzeit über 100 verschiedene Sprachmodelle von mehr als 20 Anbietern. Entwickler können dadurch experimentieren, Kosten vergleichen und die Leistung verschiedener Modelle testen, ohne ihre Anwendungen umschreiben zu müssen.

LiteLLM reduziert den Programmieraufwand erheblich und beschleunigt die Entwicklung von Anwendungen, die auf verschiedene Sprachmodelle angewiesen sind.

Allgemeine Entwicklungswerkzeuge mit KI-Integrationsmöglichkeiten

Diese Kategorie umfasst Werkzeuge, die nicht primär für KI-Anwendungen entwickelt wurden, aber die Integration von KI-Funktionen unterstützen oder erleichtern.

App-Entwicklung

Flutter

Flutter ist ein Open-Source-Framework von Google, das die plattformübergreifende Entwicklung von Anwendungen für iOS, Android, Web und Desktop aus einer einzigen Codebasis ermöglicht. Es bietet dabei native Performance und eine einheitliche Benutzeroberfläche auf allen unterstützten Plattformen.

Das Framework unterstützt sogar zusätzliche Plattformen wie Linux, Windows und Embedded-Systeme.

Neben den Kernfunktionen zur App-Entwicklung lässt sich Flutter flexibel mit KI-Technologien kombinieren. Über Schnittstellen zu externen Diensten wie Google Cloud AI oder OpenAI können Anwendungen um Funktionen wie Sprachverarbeitung, Bilderkennung oder Chatbots erweitert werden.

Darüber hinaus erlaubt die Einbindung von LiteRT (früher TensorFlow Lite) das Ausführen vortrainierter KI-Modelle direkt auf dem Endgerät, sodass etwa Bilderkennung oder Sprachverarbeitung auch ohne Internetverbindung möglich sind.

Für Sprachfunktionen stehen bewährte Drittanbieter-Pakete wie flutter_tts (Text-to-Speech) und speech_to_text (Spracherkennung) bereit, die eine einfache Integration solcher Funktionen in mobile und Desktop-Apps ermöglichen. Weitere Pakete sowie Community-Lösungen unterstützen Entwicklerinnen und Entwickler bei der Umsetzung moderner KI-gestützter Funktionen.

React

React ist eine Open-Source-JavaScript-Bibliothek, die für den Aufbau von Benutzeroberflächen entwickelt wurde und sich besonders für dynamische, interaktive Anwendungen eignet. Sie wurde 2013 von Facebook (heute Meta) veröffentlicht und steht seit 2017 unter der MIT-Lizenz.

Heute wird React von einer großen weltweiten Entwicklergemeinschaft gepflegt und eingesetzt.

Im Bereich der künstlichen Intelligenz bietet React keine eigenen KI-Funktionen, ermöglicht aber die einfache Integration spezialisierter Bibliotheken wie TensorFlow.js oder ML5.js. Damit lassen sich maschinelle Lernmodelle direkt im Browser ausführen, ohne dass eine zusätzliche Server-Infrastruktur notwendig ist.

Auf diese Weise können verschiedene Anwendungen umgesetzt werden: Echtzeit-Sprachverarbeitung mit der Web Speech API, Bildklassifikation über die Gerätekamera oder datengetriebene Analysen direkt im Frontend. React dient dabei als flexible Benutzeroberflächen-Bibliothek, die leistungsfähige KI-Algorithmen mit nutzerfreundlichen und reaktionsschnellen Oberflächen verbindet.

Die komponentenbasierte Architektur von React erleichtert es, KI-Features modular in bestehende Anwendungen zu integrieren, ohne dass umfangreiche Änderungen am Gesamtsystem erforderlich sind. Mit den aktuellen Entwicklungen wie React 18 (veröffentlicht 2022) und React 19 (veröffentlicht Dezember 2024) bleibt die Bibliothek ein zentrales Werkzeug für die moderne Webentwicklung.

Low Code/No Code

Zapier

Zapier ist eine No-Code-Plattform, die es ermöglicht, verschiedene Webanwendungen miteinander zu verbinden und zu automatisieren. Im Kontext von KI ermöglicht Zapier die einfache Integration von KI-Diensten und -Modellen in bestehende Workflows, ohne dass Programmierkenntnisse erforderlich sind. So können beispielsweise KI-basierte Textanalysen, Bilderkennungen oder Chatbots in Unternehmensprozesse integriert werden, um diese zu automatisieren und zu optimieren.

make.com

Make.com (ehemals Integromat) ist eine cloudbasierte Automatisierungsplattform, mit der sich Anwendungen und Dienste ohne Programmierkenntnisse verbinden lassen.

Über eine visuelle Drag-and-Drop-Oberfläche können Nutzer komplexe Workflows erstellen, die Aufgaben automatisch auslösen und Daten nahtlos zwischen verschiedenen Systemen übertragen. Damit eignet sich Make für Geschäftsprozesse, Marketingkampagnen, Social Media und viele weitere Anwendungsfälle.

Die Plattform unterstützt inzwischen über 2.700 Integrationen und bietet mehr als 10.000 vorgefertigte Szenarien, die den Einstieg erleichtern. Die Umbenennung von Integromat zu Make erfolgte am 22. Februar 2022 und war mit einer umfassenden Weiterentwicklung der Plattform verbunden.

Im April 2025 erweiterte Make sein Angebot mit Make AI Agents – intelligenten Automatisierungen, die Entscheidungen selbstständig treffen und sich flexibel an veränderte Bedingungen anpassen. Heute nutzen über 350.000 Organisationen weltweit Make, von Start-ups bis hin zu global agierenden Unternehmen.

Für verschiedene Anforderungen bietet die Plattform unterschiedliche Preismodelle: vom kostenlosen Einstiegsplan bis hin zu Enterprise-Lösungen mit erweiterten Sicherheitsfunktionen, Single Sign-On, GDPR- und SOC 2 Type II-Compliance sowie prioritärem Support.

Im Jahr 2024 verzeichnete Make ein starkes Wachstum: Die Community wuchs auf über 3,1 Millionen Nutzer, die Zahl der verfügbaren Apps stieg auf 2.100+, und weltweit wurden bereits mehr als 5,6 Milliarden Szenarien ausgeführt.

Buildship

Buildship ist eine innovative Low-Code-Plattform, die es Anwendern ermöglicht, cloudbasierte APIs und automatisierte Arbeitsabläufe schnell und effizient zu entwickeln, ohne tiefgreifende Programmierkenntnisse zu benötigen. Die Plattform kombiniert die Einfachheit von No-Code-Werkzeugen mit der Flexibilität von Low-Code-Entwicklung und stellt eine visuelle Benutzeroberfläche zur Verfügung, mit der komplexe Geschäftsprozesse automatisiert werden können.

Das Herzstück von Buildship bildet eine intuitive Drag-and-Drop-Oberfläche, über die Nutzer aus einer umfangreichen Bibliothek vorgefertigter Bausteine, sogenannter Knoten, auswählen können. Diese Knoten repräsentieren verschiedene Funktionen wie Datenbankoperationen, E-Mail-Versand, KI-Integration oder API-Verbindungen. Nutzer können diese Bausteine einfach per Drag-and-Drop zu funktionsfähigen Backend-Lösungen zusammenfügen, ohne eine einzige Zeile Code schreiben zu müssen.

Besonders hervorzuheben ist die nahtlose Integration verschiedener KI-Modelle und Plattformen wie OpenAI (z. B. GPT-Modelle), Stable Diffusion, DALL-E 2, Hugging Face und Replicate sowie die Anbindung an populäre Dienste wie Firebase, Supabase, WhatsApp, Telegram oder Airtable. Sollte ein benötigter Baustein nicht verfügbar sein, kann die integrierte KI auf natürliche Sprache reagieren und maßgeschneiderte Knoten erstellen. Entwickler haben zudem die Möglichkeit, bei Bedarf eigenen JavaScript- oder TypeScript-Code hinzuzufügen und auf über eine Million NPM-Pakete zuzugreifen.

Die Infrastruktur basiert auf einzelnen GCP-Projekten (Google Cloud Platform), was eine skalierbare und sichere Umgebung gewährleistet. Erstellte Workflows lassen sich mit einem Klick bereitstellen und bei Bedarf als vollständiger Code exportieren, um Vendor-Lock-in zu vermeiden.

Buildship richtet sich sowohl an No-Code-Enthusiasten als auch an erfahrene Entwickler, die ihre Produktivität steigern möchten, ohne auf Flexibilität und Kontrolle zu verzichten.

n8n

n8n ist eine Fair-Code-lizenzierte Workflow-Automatisierungsplattform, die es ermöglicht, verschiedene Dienste und Anwendungen zu verbinden und Arbeitsabläufe zu automatisieren. Mit einer visuellen Benutzeroberfläche können Nutzer komplexe Automatisierungsszenarien erstellen und Daten zwischen über 400 verschiedenen Diensten übertragen.

Die Plattform nutzt eine Fair-Code-Lizenz namens "Sustainable Use License", die den Quellcode öffentlich zugänglich macht und kostenlose Nutzung für interne Geschäftszwecke und persönliche Anwendungen ermöglicht. Im Gegensatz zu klassischen Open-Source-Lizenzen bestehen jedoch Einschränkungen bei der kommerziellen Weiterverwendung, um die nachhaltige Entwicklung des Projekts zu gewährleisten.

n8n positioniert sich heute als AI-native Plattform, die speziell für die Integration von KI-Diensten und Large Language Models entwickelt wurde. Nutzer können AI-Agenten, LLM-Chains und verschiedene KI-Modelle direkt in ihre Workflows einbinden. Die Plattform unterstützt Dienste wie OpenAI, Google Gemini, DeepSeek und andere AI-Anbieter und ermöglicht die Erstellung intelligenter, adaptiver Automatisierungen.

Während grundlegende Automatisierungen durch die Drag-and-Drop-Oberfläche ohne Programmierkenntnisse erstellt werden können, bietet n8n technischen Teams zusätzlich die Flexibilität, bei Bedarf JavaScript oder Python-Code einzusetzen. Dies macht die Plattform sowohl für Einsteiger als auch für Entwickler attraktiv, die komplexe, maßgeschneiderte Lösungen benötigen.

Mit über 230.000 Benutzern und mehr als 134.000 GitHub-Stars hat sich n8n zu einem der führenden Tools für Workflow-Automatisierung entwickelt. Die Plattform kann sowohl selbst gehostet als auch über die n8n-Cloud genutzt werden und bietet Enterprise-Funktionen wie SSO, erweiterte Berechtigungen und luftdichte Deployments.

Programmiersprachen

Python

Python ist eine vielseitige Programmiersprache, die interpretiert ausgeführt wird und für ihre einfache, gut lesbare Syntax bekannt ist. Sie wurde von Guido van Rossum entwickelt und 1991 erstmals veröffentlicht, wobei die Arbeiten daran bereits Ende der 1980er Jahre begannen. Python unterstützt verschiedene Programmierstile, darunter objektorientierte, prozedurale und funktionale Ansätze.

Dank einer umfangreichen Standardbibliothek und ihrer Plattformunabhängigkeit wird Python in vielen Bereichen eingesetzt, etwa in der Webentwicklung, bei Automatisierungen, in der Datenanalyse und in Anwendungen der Künstlichen Intelligenz. Wichtige Bibliotheken wie NumPy, TensorFlow und das Webframework Django tragen entscheidend zur Verbreitung und Beliebtheit der Sprache bei.

Durch ihre Zugänglichkeit, die aktive Entwicklergemeinschaft und die große Auswahl an Bibliotheken gehört Python seit Jahren zu den am häufigsten genutzten Programmiersprachen weltweit. Laut dem TIOBE Index belegte Python im Jahr 2025 den ersten Platz unter allen Programmiersprachen.

Tools/Frameworks/Formate für KI-Modelle

Inferenzen

SGLang

SGLang ist eine Software zur Ausführung von Large Language Models – also Computerprogrammen, die auf Basis großer Textmengen Sprache verstehen und erzeugen können. Die Software dient dazu, Anfragen an solche Modelle deutlich schneller und ressourcenschonender zu verarbeiten. Wenn ein Nutzer eine Frage an ein Sprachmodell stellt, organisiert SGLang die Verarbeitung dieser Anfrage durch das Modell und gibt die Antwort zurück.

Die Software bündelt dabei mehrere Anfragen gleichzeitig durch eine Technik namens Continuous Batching und nutzt verfügbare Rechenkapazität optimal aus. SGLang reduziert die Wartezeit zwischen einzelnen Verarbeitungsschritten durch eine zentrale Innovation namens RadixAttention, die unnötige Wiederholungen von Berechnungen vermeidet. Diese Technik speichert bereits berechnete Zwischenergebnisse in einer baumartigen Datenstruktur und verwendet sie automatisch wieder, wenn verschiedene Anfragen gemeinsame Bestandteile haben. In praktischen Tests erreicht SGLang dadurch einen bis zu sechsfach höheren Durchsatz als andere moderne Systeme.

Das System eignet sich besonders für Anwendungen, bei denen viele Nutzer gleichzeitig mit einem Sprachmodell interagieren, etwa in Chatbots, Übersetzungsdiensten oder Programmierassistenten. Die Vorteile zeigen sich vor allem bei mehrteiligen Konversationen, wo das System gemeinsame Gesprächsverläufe effizient wiederverwendet. SGLang kann auch strukturierte Ausgaben wie JSON-Daten bis zu zehnmal schneller erzeugen als vergleichbare Systeme, was für automatisierte Datenverarbeitung wichtig ist.

Die Software arbeitet mit verschiedenen Modellarchitekturen zusammen, darunter reine Sprachmodelle wie Llama, Qwen, DeepSeek und Mistral, aber auch Vision-Language-Modelle, die sowohl Text als auch Bilder verarbeiten können. SGLang ist kompatibel mit den meisten Modellen aus der Hugging Face-Bibliothek und unterstützt OpenAI-kompatible Schnittstellen. Das System lässt sich auf unterschiedlichen Rechnersystemen einsetzen, von NVIDIA- und AMD-GPUs über Intel-Prozessoren bis zu Google-TPUs und anderen spezialisierten Beschleunigern.

SGLang gehört zu den etablierten Werkzeugen für den praktischen Einsatz von Sprachmodellen in Unternehmen und Forschungseinrichtungen. Die Software wird von zahlreichen Technologieunternehmen eingesetzt, darunter xAI zur Bereitstellung des Grok-Modells, Microsoft Azure für DeepSeek-Modelle auf AMD-Hardware, sowie LinkedIn, Cursor und viele Cloud-Anbieter.

Das System ist im März 2025 in das PyTorch-Ökosystem integriert worden und wird in größerem Umfang produktiv eingesetzt. In großen Produktionsumgebungen verarbeitet SGLang täglich mehrere Billionen Textbausteine und hat sich als Standardwerkzeug für die effiziente Bereitstellung von Sprachmodellen etabliert.

LightLLM

LightLLM ist eine spezialisierte Software zur effizienten Ausführung bereits trainierter großer Sprachmodelle. Das Framework optimiert den Inferenz-Prozess durch fortgeschrittene Speicherverwaltung und kontinuierliches Batching, wodurch Anfragen direkt in laufende Verarbeitungszyklen integriert werden können. Dies ermöglicht eine gleichmäßigere Auslastung und höhere Durchsatzraten im Vergleich zu herkömmlichen Inferenzlösungen.

Ein zentrales Merkmal von LightLLM ist ein eigenes Token-Level-Memory-Management, das den GPU-Speicher flexibel nutzt und sich damit von Verfahren wie PagedAttention unterscheidet. Darüber hinaus unterstützt die Software verschiedene Präzisionsmodi, darunter FP16, BF16 und INT8-Quantisierung, um den Speicherbedarf während der Inferenz zu reduzieren.

LightLLM ist für Multi-GPU-Betrieb ausgelegt und kann Modellgewichte auf mehrere Geräte verteilen. Damit lassen sich auch sehr große Modelle ausführen, die nicht in den Speicher einer einzelnen GPU passen. Der integrierte Inferenz-Server bietet standardisierte, OpenAI-kompatible Schnittstellen und ist für die Nutzung in produktiven Umgebungen optimiert.

Das Projekt wird aktiv weiterentwickelt. In Version 1.1.0 (September 2025) wurden zusätzliche Optimierungen für Scheduling und strukturiertes Decoding vorgestellt, die in wissenschaftlichen Publikationen (ASPLOS 2025, ACL 2025) beschrieben sind.

vLLM

vLLM ist eine Software für die Inferenz, also die Ausführung bereits trainierter Sprachmodelle zur Textgenerierung. Sie stellt eine Programmierschnittstelle (API) bereit, über die Anwendungen Texteingaben senden und Antworten empfangen können.

vLLM läuft dabei als Server, der Anfragen von verschiedenen Clients entgegennimmt. Entwickler können über HTTP-Requests, in einer OpenAI-kompatiblen API, mit dem vLLM-Server kommunizieren.

Das System verarbeitet eingehende Texte, führt die Berechnungen im Sprachmodell durch und liefert die generierten Antworten zurück. Dabei optimiert vLLM den Inferenzprozess durch effiziente Speicherverwaltung und kontinuierliche Batch-Verarbeitung. Neue Anfragen lassen sich während der laufenden Berechnungen in den Prozess einfügen, wodurch die Rechenressourcen gleichmäßig genutzt werden.

Die Architektur von vLLM abstrahiert die komplexe Modellausführung und macht sie für Anwendungsentwickler leichter nutzbar. Zu den Schlüsseltechnologien zählen PagedAttention zur effizienten Verwaltung des GPU-Speichers sowie optimierte CUDA-Kernels.

In offiziellen Benchmarks erreichte vLLM je nach Modell und Szenario eine bis zu 24-fache Steigerung des Durchsatzes im Vergleich zu herkömmlichen Inferenz-Ansätzen wie Hugging Face Transformers. Die tatsächlichen Leistungsgewinne variieren jedoch in Abhängigkeit von Modellgröße, Hardware und Nutzungskontext.

Ollama

Ollama ist ein Open-Source-Inferenz-Framework, das es Benutzern ermöglicht, große Sprachmodelle wie Llama, Mistral und Gemma direkt auf dem eigenen Computer auszuführen. Die Software gewährleistet vollständige Datenprivatsphäre, da alle Verarbeitungen lokal erfolgen und keine Informationen an externe Server übertragen werden.

Das Framework unterstützt alle gängigen Betriebssysteme - macOS, Windows und Linux - und bietet sowohl eine Befehlszeilenoberfläche als auch moderne grafische Anwendungen. Die Installation erfolgt über einfache Installationspakete, wobei Docker-Container als zusätzliche Bereitstellungsoption verfügbar sind.

Seit Juli 2025 verfügt Ollama über eine native Desktop-Anwendung für Windows und Mac mit vollständiger grafischer Benutzeroberfläche. Diese ersetzt die früher notwendige Kommandozeilennutzung durch eine intuitive Chat-Oberfläche, die der Bedienung bekannter Online-Chatbots entspricht. Die Anwendung unterstützt Drag-and-Drop-Funktionalität für verschiedene Dateiformate einschließlich PDFs, Textdokumente und Code-Dateien. Benutzer können Dokumente direkt in das Programmfenster ziehen und Fragen zum Inhalt stellen. Darüber hinaus verfügt die Software über multimodale Fähigkeiten und kann Bilder analysieren sowie Code-Dateien interpretieren.

Für die Verarbeitung umfangreicher Dokumente lässt sich die Kontextlänge in den Programmeinstellungen anpassen, was jedoch erhöhten Arbeitsspeicherbedarf zur Folge hat. Diese Flexibilität ermöglicht es, auch komplexe und längere Texte effektiv zu bearbeiten.

Ollama bietet Zugang zu einer umfassenden Bibliothek mit über 100 verschiedenen KI-Modellen unterschiedlicher Größe und Spezialisierung. Das Framework ermöglicht sowohl die Nutzung vorgefertigter Modelle als auch die Erstellung benutzerdefinierter Konfigurationen durch Modelfiles. Zusätzlich können GGUF-Modelle importiert und bestehende Modelle mit spezifischen Parametern angepasst werden.

Für Entwickler stellt Ollama eine REST-API unter localhost:11434 bereit, die eine nahtlose Integration in eigene Anwendungen ermöglicht.

Userinterface

msty.ai

Msty ist eine Softwareanwendung für den lokalen Betrieb von Large Language Models auf dem eigenen Computer. Die Anwendung funktioniert als grafische Benutzeroberfläche und ist sowohl als Desktop-Anwendung für Windows, macOS und Linux als auch als browserbasierte Plattform (Msty Studio) verfügbar. Sie ermöglicht es, verschiedene Sprachmodelle herunterzuladen und zu nutzen.

Ein wesentliches Merkmal von Msty ist die Flexibilität: Nutzer können zwischen lokalem und Online-Betrieb wählen. Im lokalen Modus läuft die Software vollständig offline, wodurch Daten den eigenen Computer nicht verlassen müssen. Alternativ lässt sich Msty auch mit cloudbasierten KI-Diensten über API-Keys verbinden, sodass je nach Anwendungsfall zwischen Privatsphäre und Leistungsfähigkeit gewählt werden kann.

Die Software unterstützt primär GGUF-Modellformate (GPT-

Generated Unified Format) von Ollama und Hugging Face. Nutzer haben Zugriff auf eine Vielzahl von Modellen wie Llama, Mistral, Gemma und DeepSeek, die für unterschiedliche Zwecke wie Textgenerierung oder Programmieraufgaben eingesetzt werden können. Msty ermöglicht die Anpassung von Parametern wie Temperatur oder Kontextlänge.

Eine besonders nützliche Funktion ist die Unterstützung von Retrieval-Augmented Generation (RAG), in Msty als "Knowledge Stacks" bezeichnet. Damit können Nutzer eigene Dokumente, Ordner oder sogar YouTube-Links hochladen und kontextbezogene Antworten erhalten, die auf diesen Informationen basieren. Weitere Features umfassen Web-Suche-Integration, Split Chats für parallele Modellvergleiche, verschiedene spezialisierte Modi für unterschiedliche Arbeitsweisen sowie die Möglichkeit, Personas zu erstellen – also KI-Assistenten mit individuell angepasstem Verhalten und Tonfall.

Die Anwendung richtet sich an Personen, die Kontrolle über ihre Daten behalten möchten oder in Umgebungen ohne zuverlässige Internetverbindung arbeiten. Der Privatsphäre-Fokus ist dabei zentral: Die Entwickler betonen, dass keine Nutzungsdaten erfasst, protokolliert oder analysiert werden. Es findet keine Telemetrie oder verstecktes Tracking statt. Chats, Einstellungen und Prompts werden ausschließlich auf dem eigenen Gerät gespeichert.

Msty ist proprietäre Software und kein Open-Source-Projekt. Die Entwickler haben zwar in der Vergangenheit erwähnt, eine Open-Source-Version in Betracht zu ziehen, jedoch ist dies bisher nicht umgesetzt worden. Die kostenlose Version bietet bereits umfangreiche Funktionen. Für erweiterte Features wie Live Contexts, Turnstiles (mehrstufige Workflows), Forge Mode oder erweiterte Analysen stehen kostenpflichtige Lizenzen zur Verfügung, die sich an professionelle Anwender und Organisationen richten. Seit September 2025 gibt es auch einen Enterprise-Plan für Organisationen mit Team-Management und erweiterten Sicherheitsfunktionen.

AnythingLLM

AnythingLLM ist eine Open-Source-Anwendung, die Benutzern ermöglicht, verschiedene Sprachmodelle wie GPT-4, Llama und Mistral sowohl lokal auf ihrem Computer als auch über Cloud-Dienste zu nutzen.

Die Software bietet eine einheitliche Oberfläche zum Verwalten und Analysieren von Dokumenten aus unterschiedlichen Dateiformaten wie PDFs, Word-Dokumenten, CSV-Dateien, Textdateien und sogar Codebases in separaten Arbeitsbereichen, wobei der Fokus auf Datenschutz und lokaler Datenverarbeitung liegt.

AnythingLLM organisiert Dokumente in sogenannten Workspaces - separate Arbeitsbereiche, die wie individuelle Gesprächsthreads funktionieren. Diese Workspaces können Dokumente untereinander teilen, kommunizieren aber nicht miteinander, wodurch der Kontext für jeden Arbeitsbereich sauber getrennt bleibt.

Die Anwendung kann sowohl lokale als auch externe KI-Modelle unterstützen und ermöglicht Nutzern eine flexible, datenschutzfreundliche Lösung für Dokumentenmanagement und KI-Interaktionen.

Die Software wurde von Mintplex Labs entwickelt und steht unter der MIT-Lizenz zur freien Verfügung. Sie ist als Desktop-Version für Windows, macOS und Linux erhältlich, die keine Anmeldung erfordert und vollständig offline funktioniert. Für Teams gibt es zusätzlich eine Docker-basierte Version mit Mehrbenutzer-Unterstützung.

AnythingLLM verfolgt einen "Privacy-First"-Ansatz, bei dem standardmäßig alle Daten lokal verarbeitet und gespeichert werden - nichts wird ohne ausdrückliche Erlaubnis des Benutzers geteilt.

Zu den neuesten Entwicklungen gehören eine mobile Android Beta-App, automatische OCR-Erkennung für Bilder und nicht-digitalisierte PDFs sowie erweiterte Agent-Funktionalitäten.

Open WebUI (vormals Ollama WebUI)

Open WebUI ist eine benutzerfreundliche Weboberfläche, die eine grafische Benutzeroberfläche für die Interaktion mit KI-Sprachmodellen bereitstellt. Die Plattform funktioniert sowohl mit lokal installierten Modellen über Ollama als auch mit externen Diensten über OpenAI-kompatible APIs.

Open WebUI erweitert die Funktionalität von Ollama um eine ChatGPT-ähnliche Oberfläche, umfangreiche Modellverwaltung und zahlreiche zusätzliche Features. Dazu gehören unter anderem die Integration von RAG (Retrieval Augmented Generation) für dokumentenbasierte Antworten, Web-Browsing-Fähigkeiten, Bildgenerierung, Multi-Modal-Support für die Analyse von Bildern und Videos sowie granulare Benutzerrechte mit rollenbasierter Zugriffskontrolle.

Die Plattform vereinfacht den Zugang zu KI-Modellen erheblich für Nutzer ohne technischen Hintergrund, indem sie komplexe Kommandozeilen-Eingaben durch eine intuitive Web-Oberfläche ersetzt. Als vollständig offline betreibbare, selbst-gehostete Lösung bietet Open WebUI Unternehmen und Privatpersonen die Möglichkeit, KI-Technologie zu nutzen, ohne sensible Daten an externe Anbieter weitergeben zu müssen.

Open WebUI hat sich von der ursprünglichen "Ollama WebUI" zu einer universellen AI-Plattform entwickelt, die weit über ein einfaches Interface hinausgeht und eine umfassende Lösung für die Verwaltung und Nutzung verschiedenster KI-Modelle darstellt.

LM Studio

LM Studio ist eine Desktop-Anwendung, mit der sich große Sprachmodelle (LLMs) direkt auf dem eigenen Computer ausführen lassen, ohne dass dafür eine Internetverbindung erforderlich ist. Die Software lädt vortrainierte Modelle herunter und bietet eine benutzerfreundliche Oberfläche, über die Nutzer mit diesen Modellen interagieren können. Dabei können Fragen gestellt, Texte generiert oder Dokumente analysiert werden – vergleichbar mit webbasierten KI-Assistenten, jedoch vollständig lokal und unabhängig von externen Servern.

Die Anwendung unterstützt verschiedene Modellformate, insbesondere GGUF-Dateien über llama.cpp sowie MLX-Modelle auf Apple-Silicon-Geräten. Sie ist kompatibel mit Modellen unterschiedlicher Größe: kleinere Modelle laufen schneller und benötigen weniger Speicher, während größere Modelle in der Regel bessere Ergebnisse liefern, aber deutlich mehr Ressourcen beanspruchen.

Ein zentraler Vorteil von LM Studio liegt in der lokalen Verarbeitung aller Daten. Chats, hochgeladene Dokumente und Modellabfragen bleiben ausschließlich auf dem eigenen Gerät, was den Datenschutz stärkt und volle Kontrolle über die Informationen gewährleistet.

LM Studio ist kostenlos für den persönlichen Gebrauch erhältlich und läuft auf macOS (inkl. Apple Silicon), Windows und Linux. Für eine flüssige Nutzung empfiehlt sich ein Rechner mit mindestens 16 GB Arbeitsspeicher, wobei leistungsstärkere Hardware für größere Modelle sinnvoll ist.

Zusätzlich bietet die Software erweiterte Funktionen wie eine lokale REST- und OpenAI-kompatible API, die Integration in eigene Anwendungen ermöglicht, sowie Unterstützung für das Model Context Protocol (MCP), das eine nahtlose Anbindung an andere Tools erleichtert. Damit dient LM Studio als Brücke zwischen komplexen KI-Modellen und praktischen Anwendungsmöglichkeiten – auch für Nutzer ohne tiefgehende technische Kenntnisse.

GPT4All

GPT4All ist eine Open-Source-Software, die es ermöglicht, verschiedene große Sprachmodelle lokal auf dem eigenen Computer auszuführen. Das Programm funktioniert als Benutzeroberfläche, über die Nutzer mit künstlichen Intelligenz-Modellen interagieren können, ohne eine Internetverbindung zu benötigen.

Die Software lädt vortrainierte Sprachmodelle herunter und speichert sie auf der Festplatte des Computers. Diese Modelle können dann Texte generieren, Fragen beantworten oder bei verschiedenen Schreibaufgaben unterstützen.

GPT4All wurde von Nomic AI entwickelt, um den Zugang zu fortgeschrittenen Sprachmodellen zu demokratisieren und Datenschutz zu gewährleisten. Die Anwendung läuft vollständig offline, wodurch persönliche Daten den Computer nicht verlassen. Standardmäßig wird keine Gesprächshistorie an externe Server übertragen - die Datenfreigabe ist optional und muss bewusst aktiviert werden.

Das Projekt richtet sich sowohl an Entwickler als auch an normale Nutzer, die KI-Technologie ohne Cloud-Dienste verwenden möchten. Die Software bietet eine benutzerfreundliche Desktop-Anwendung für alltägliche Nutzer sowie Python-APIs für technische Anwendungen. GPT4All stellt eine Alternative zu webbasierten KI-Diensten dar und ermöglicht die private Nutzung von Sprachmodellen auf handelsüblicher Hardware.

Die Modelle wurden speziell optimiert, um auf normalen Computern zu funktionieren. Sie benötigen zwischen 3 und 8 Gigabyte Speicherplatz und 4 bis 16 Gigabyte Arbeitsspeicher. Eine Grafikkarte ist nicht erforderlich, obwohl die Software auch GPU-Beschleunigung für NVIDIA und AMD-Karten unterstützt. Die Software funktioniert auf Windows, macOS und Linux-Systemen.

Zusätzlich bietet GPT4All eine LocalDocs-Funktion, mit der Nutzer ihre eigenen Dokumente in die KI-Unterhaltungen einbinden können. Diese Funktion ermöglicht es, mit persönlichen Dateien zu arbeiten, ohne dass diese Informationen den Computer verlassen. Das Projekt ist vollständig Open-Source und steht unter MIT-Lizenz zur Verfügung.

Die neueste Version 3.7.0 unterstützt moderne Modelle wie DeepSeek-R1 und bietet erweiterte Kompatibilität für verschiedene Computersysteme.

Formate

GGUF

GGUF ist ein binäres Dateiformat zur Speicherung und Nutzung großer Sprachmodelle (Large Language Models, LLMs). Es wurde entwickelt, um Modellparameter und Metadaten in strukturierter Form abzulegen und so eine effiziente Speicherung und schnelle Ladezeiten zu ermöglichen. Das Format ist Teil des llama.cpp-Projekts von Georgi Gerganov und hat sich im Open-Source-Bereich als wichtiges Austauschformat für lokal ausführbare Sprachmodelle etabliert.

Der Name „GGUF" steht offiziell für „GPT-Generated Unified Format" und ist als standardisierte Bezeichnung in der Fachwelt etabliert. Das Format wurde im August 2023 als Nachfolger des GGML-Formats eingeführt, um dessen Limitationen zu überwinden und eine bessere Rückwärtskompatibilität zu gewährleisten.

Die Architektur von GGUF umfasst neben Tensorinformationen auch umfangreiche Metadaten, etwa zur Modellarchitektur, zum Tokenizer oder zu Quantisierungsparametern. Durch den Einsatz von Memory-Mapping können Modelle direkt aus der Datei in den Arbeitsspeicher eingebunden werden, was Ressourcen spart und Ladezeiten verkürzt.

GGUF unterstützt verschiedene Quantisierungsverfahren mit Auflösungen von 2- bis 8-Bit sowie mehrere Floating-Point-Formate (z. B. FP16, BF16). Damit lassen sich Modelle stark verkleinern, wobei der Qualitätsverlust je nach Verfahren und Bit-Stufe unterschiedlich ausfallen kann. Insbesondere 4- bis 8-Bit-Quantisierungen liefern in der Praxis oft ein gutes Verhältnis von Speicherbedarf und Genauigkeit.

Das Format ist plattformunabhängig und funktioniert unter Windows, macOS und Linux. Es wird überwiegend für lokale Anwendungen genutzt, bei denen Modelle direkt auf eigener Hardware laufen, ohne dass ein externer Server oder Cloud-Dienst erforderlich ist. Damit eignet es sich besonders für Edge-Computing-Szenarien und für die Ausführung auf Consumer-Hardware.

Bibliotheken

HuggingFace

HuggingFace ist eine zentrale Plattform für die KI-Community, auf der Modelle, Datensätze und Anwendungen gemeinsam entwickelt und geteilt werden. Sie bietet Zugriff auf eine große Sammlung von vortrainierten Modellen, Datensätzen und Anwendungen, die von der Community erstellt wurden. Die Plattform ermöglicht es Entwicklern, ihre Arbeit mit der Welt zu teilen und ihr KI-Profil zu erstellen.

HuggingFace bietet auch kostenpflichtige Compute- und Unternehmenslösungen an, um die KI-Entwicklung zu beschleunigen. Darüber hinaus ist HuggingFace ein wichtiger Akteur in der Open-Source-Community und entwickelt die Grundlage für KI-Tools in Zusammenarbeit mit der Community.

KI-Modelle

Generative KI-Modelle lassen sich grob in zwei Kategorien einteilen: Unimodale Modelle, die auf eine bestimmte Art von Eingaben spezialisiert sind (wie reine Sprachmodelle für Text oder spezialisierte Bildgenerierungsmodelle), und multimodale Modelle, die mehrere Arten von Eingaben gleichzeitig verarbeiten können (Text, Bilder, Audio oder Video). Der Trend in der Entwicklung geht dabei stark in Richtung multimodaler Modelle, da diese vielseitiger einsetzbar sind und näher an der menschlichen Art der Informationsverarbeitung liegen, indem sie verschiedene Eingabeformen verstehen und miteinander in Beziehung setzen können. Mittlerweile ist das Angebot von KI-Modellen förmlich explodiert und unüberschaubar geworden. Deshalb werden hier nur die aus Sicht des Autors interessantesten Modelle aufgeführt.

Large World Models (LWM)

Large World Models (LWMs) sind fortschrittliche Computersysteme, die darauf abzielen, ein umfassendes Verständnis der physischen Welt und ihrer Gesetzmäßigkeiten zu erlernen. Anders als klassische Sprachmodelle, die vor allem mit Text arbeiten, verarbeiten diese Systeme eine Vielzahl an Datenquellen – darunter Bilder, Videos, Sensordaten und Beschreibungen in natürlicher Sprache.

Ziel ist es, ein konsistentes „Weltmodell“ aufzubauen, das Informationen über räumliche Beziehungen, physikalische Eigenschaften und zeitliche Abläufe integriert. Dadurch sind LWMs in der Lage, physikalische Ereignisse vorherzusagen, das Verhalten von Objekten zu simulieren und komplexe Umgebungen besser zu verstehen.

Typische Anwendungsbereiche sind:

* Robotik: Maschinen können ihre Umgebung erkennen, interpretieren und darauf reagieren.

* Autonome Fahrzeuge: Systeme lernen, sich sicher in realen Verkehrssituationen zu bewegen.

* Simulation und Spieleentwicklung: Physikalisch glaubwürdige Welten werden modelliert.

* Wissenschaftliche Modellierung: Prozesse aus Naturwissenschaft und Technik lassen sich simulieren.

Die Entwicklung solcher Modelle ist technisch aufwendig. Sie erfordert große Mengen multimodaler Trainingsdaten sowie erhebliche Rechenressourcen. Forschungseinrichtungen und Unternehmen wie NVIDIA, Google DeepMind, Meta und Start-ups wie World Labs arbeiten derzeit intensiv an Prototypen und Frameworks für solche Systeme.

Large World Models gelten als ein wichtiger Schritt hin zu künstlicher Intelligenz, die nicht nur Sprache versteht, sondern auch die physische Realität interpretieren und in ihr handeln kann. Sie könnten langfristig eine Grundlage für allgemeinere, „weltfähige“ KI-Systeme bilden.

V-JEPA 2

V-JEPA 2 ist ein World Model von Meta mit 1,2 Milliarden Parametern, das im Juni 2025 veröffentlicht wurde. Das System lernt, Bewegungen und Veränderungen in Videos vorherzusagen und entwickelt dabei ein Verständnis für die physikalischen Gesetze der dargestellten Welt, ohne dass Menschen diese Regeln explizit programmieren müssen.

V-JEPA steht für "Video Joint Embedding Predictive Architecture" und beschreibt die technische Struktur des Programms. Das System betrachtet einen Videoausschnitt und versucht vorherzusagen, was in den nächsten Frames passieren wird, basierend auf den beobachteten Bewegungsmustern. Diese Vorhersagefähigkeit ermöglicht es dem System, komplexe Zusammenhänge in Videomaterial zu verstehen, beispielsweise wie Objekte fallen oder wie sich Personen bewegen.

V-JEPA 2 stellt eine Weiterentwicklung der ersten Version dar und kann präzisere Vorhersagen über längere Zeiträume treffen. Das Verfahren gehört zum Bereich des selbstüberwachten Lernens, einer Unterkategorie des unüberwachten Lernens, bei dem das System selbstständig Muster erkennt, ohne dass Menschen jedes Detail vorgeben müssen.

Das Training erfolgt in zwei Phasen: In der ersten Phase lernt das Modell aus über einer Million Stunden unbeschrifteter Internet-Videos und einer Million Bildern die Grundlagen der Physik. In der zweiten Phase wird es mit etwa 62 Stunden Roboter-Kontrolldaten verfeinert, um aktionsbedingte Vorhersagen zu ermöglichen.

Meta hat V-JEPA 2 bereits erfolgreich in Labortests mit Robotern getestet, wo es Erfolgsraten von 65% bis 80% bei Pick-and-Place-Aufgaben in unbekannten Umgebungen erreichte. Die Technologie wird für Robotik, autonomes Fahren und die Analyse von Überwachungsvideos eingesetzt.

Das Modell ist als Open-Source-Software für kommerzielle und Forschungszwecke verfügbar.

NVIDIA Cosmos

Das NVIDIA Cosmos ist eine Plattform für sogenannte World Foundation Models, die speziell zur Entwicklung physikalischer KI-Systeme entworfen wurde. Diese Modelle können aus unterschiedlichen Eingaben wie Text, Bildern oder Videos physikbewusste Videos erzeugen und dabei grundlegende Gesetzmäßigkeiten der realen Welt berücksichtigen.

Das Training von Cosmos erfolgte auf etwa 20 Millionen Stunden Videodaten, die Szenarien wie menschliche Bewegungen, Objektinteraktionen, Navigation und Kamerabewegungen umfassen. Aus diesen Daten wurden schätzungsweise 9.000 Billionen Tokens generiert. Cosmos kombiniert dabei unterschiedliche Modellarchitekturen: autoregressive Modelle und Diffusionsmodelle. Neuere Varianten wie Cosmos-Reason1 sind in verschiedenen Größen mit 8 Milliarden und 56 Milliarden Parametern verfügbar.

Die Modelle können kontinuierliche Bewegungen vorhersagen, indem sie fehlende Videoframes zwischen einem gegebenen Start- und Endpunkt synthetisieren. Damit lassen sich realistische Bewegungsabläufe und Szenarien darstellen, die für das Training von KI-Systemen in Robotik und autonomen Fahrzeugen besonders wertvoll sind.

Die Hauptanwendungen von Cosmos liegen in der Entwicklung von Robotik, autonomen Fahrsystemen und Video-gestützten KI-Agenten, wo synthetische Daten benötigt werden, um Modelle effizient und sicher zu trainieren. Durch die Simulation verschiedener Szenarien ermöglicht Cosmos es Entwicklern, physikalische KI-Systeme zu testen und weiterzuentwickeln, ohne dass dafür reale Experimente erforderlich sind.

Cosmos ist unter der offenen NVIDIA Open Model License verfügbar, die kommerzielle Nutzung erlaubt. Die Modelle sind über Plattformen wie Hugging Face, NGC und GitHub frei zugänglich und stehen damit Unternehmen und Entwicklern jeder Größe zur Verfügung.

Aktuell wird Cosmos kontinuierlich erweitert: Neben den Reason1-Modellen erschienen 2025 auch Cosmos-Transfer1, das auf Transferlernen spezialisiert ist, sowie Cosmos-Drive-Dreams, das auf Fahrszenarien ausgerichtet ist.

„There's An AI For That"

„There's An AI For That" (TAAFT) ist eine Online-Plattform, die einen umfangreichen Überblick über KI-Tools bietet. Sie kategorisiert die gelisteten Werkzeuge nach Anwendungsfällen, Aufgaben und Berufen, was eine gezielte Suche nach passenden Lösungen ermöglicht.

Die Plattform enthält eine umfassende, laufend aktualisierte Datenbank mit nach aktuellen Angaben über 37.800 KI-Tools, die für 13.581 verschiedene Aufgaben und 4.998 Berufsfelder geeignet sind. Nutzer können über eine Suchfunktion oder durch thematische Kategorien auf die Werkzeuge zugreifen. Zu jedem Tool stellt die Plattform Informationen zu Funktionen, Einsatzbereichen und Preisstrukturen bereit.

TAAFT wird täglich aktualisiert, um neue Entwicklungen im Bereich der Künstlichen Intelligenz zeitnah abzubilden.

Zusätzlich bietet die Plattform einen „Job Impact Index", der den potenziellen Einfluss von KI auf verschiedene Berufsgruppen bewertet.

Die Plattform wurde von Andrei Nedelcu am 2. Dezember 2022 ins Leben gerufen. Sie wird heute von über 60 Millionen Menschen genutzt. TAAFT betreibt außerdem einen der größten KI-Newsletter weltweit mit aktuell über 1,7 Millionen Abonnenten, der regelmäßig über neue Tools und Entwicklungen informiert.

Präsentation und Visualisierung

KI-gestützte Präsentations- und Visualisierungstools sind Softwareanwendungen, die künstliche Intelligenz nutzen, um die Erstellung und Gestaltung von Präsentationen, Diagrammen und anderen visuellen Inhalten zu vereinfachen und zu beschleunigen. Sie automatisieren Aufgaben wie Design, Layout und Formatierung und bieten Funktionen wie intelligente Vorlagen, Designvorschläge und die automatische Generierung von Inhalten aus Text. Diese Tools ermöglichen es Nutzern, auch ohne Designkenntnisse professionelle und ansprechende visuelle Inhalte zu erstellen.

Beautiful.ai

Beautiful.ai ist eine cloudbasierte Präsentationssoftware, die mithilfe künstlicher Intelligenz die Erstellung professioneller Folien vereinfacht. Die Plattform bietet sogenannte „Smart Slides“ – intelligente Vorlagen, die sich automatisch an Inhalte anpassen und so auch ohne tiefgehende Designkenntnisse ansprechende Ergebnisse ermöglichen.

Zu den zentralen Funktionen gehören:

Automatisiertes Design: Inhalte werden in Echtzeit nach anerkannten Gestaltungsprinzipien formatiert
Teamzusammenarbeit: Mehrere Personen können gleichzeitig an einer Präsentation arbeiten, Bearbeitungsrechte vergeben und den Fortschritt über Funktionen wie „Slide Status“ und Versionshistorie verfolgen
Markenkonsistenz: Über ein Brand Guidelines Template lassen sich Designvorgaben wie Farbpaletten, Logos und Schriftarten zentral festlegen und automatisch auf neue und bestehende Präsentationen anwenden
Integration mit anderen Tools: Präsentationen können z. B. in Microsoft PowerPoint exportiert werden; außerdem bestehen Schnittstellen zu Plattformen wie Slack, monday.com und Salesforce
KI-gestützte Erstellung: Auf Wunsch können Folien oder ganze Präsentationen aus Textprompts generiert werden, inklusive Vorschlägen für Inhalte und Bildmaterial

Die Software wird regelmäßig um neue Funktionen erweitert. Zu den jüngsten Updates (2024–2025) zählen u. a. die Möglichkeit, Tabelleninhalte automatisch zu transponieren, der neue „Slide Status“-Indikator für bessere Teamkoordination sowie erweiterte Branding-Optionen.

Napkin

Napkin ist ein KI-gestütztes Tool, das Texte automatisch in visuelle Darstellungen wie Diagramme, Flusscharts und Infografiken umwandelt. Durch einfaches Einfügen von Text generiert Napkin.ai relevante Visualisierungen, die vollständig bearbeitet und an individuelle Bedürfnisse angepasst werden können. Dies erleichtert die Erstellung von Präsentationen, Blogbeiträgen und Social-Media-Inhalten erheblich.

Das Tool funktioniert ohne komplizierte Eingabeaufforderungen - Nutzer fügen einfach ihren Text ein oder schreiben direkt in der Plattform und klicken auf das Spark-Symbol. Die künstliche Intelligenz analysiert den Inhalt automatisch und erstellt innerhalb von Sekunden mehrere passende visuelle Optionen, darunter Mind Maps, Geschäftsprozess-Diagramme, Organigramme und Vergleichstabellen.

Alle generierten Visualisierungen lassen sich umfassend anpassen. Nutzer können Farben, Schriftarten, Icons aus einer umfangreichen Datenbank, Layouts und Verbindungselemente nach ihren Vorstellungen ändern. Die dynamischen Konnektoren passen sich automatisch an Änderungen an. Zusätzlich bietet Napkin Funktionen für die Teamzusammenarbeit mit Echtzeit-Bearbeitung, Kommentaren und Feedback-Tools.

Die fertigen Visualisierungen können in verschiedenen Formaten exportiert werden: als PNG, PDF, SVG oder bearbeitbare PowerPoint-Dateien (PPTX), die sich direkt in PowerPoint, Google Slides oder Canva öffnen lassen. Diese Flexibilität macht das Tool besonders wertvoll für Geschäftspräsentationen, Bildungsmaterialien und Content-Erstellung.

Nach aktuellen Erkenntnissen befindet sich Napkin noch in der Beta-Phase und bietet während dieser Zeit alle Pro-Funktionen kostenlos an. Der reguläre kostenlose Plan umfasst 500 AI-Credits pro Woche und unbegrenzte visuelle Bearbeitung. Wichtig zu beachten ist, dass die vollständige Funktionalität derzeit nur auf Desktop-Computern verfügbar ist - mobile Geräte unterstützen lediglich das Anzeigen bereits erstellter Visualisierungen.

Gamma

Gamma ist ein KI-gestütztes Tool, das die Erstellung von Präsentationen, Dokumenten und Webseiten vereinfacht. Es ermöglicht Nutzern, durch Eingabe von Textbeschreibungen automatisch ansprechende und professionell gestaltete Inhalte zu generieren, ohne dass Design- oder Programmierkenntnisse erforderlich sind. Die Plattform bietet Funktionen wie vorgefertigte Vorlagen, interaktive Elemente und die Möglichkeit, bestehende Dokumente zu importieren und zu bearbeiten.

Im Gegensatz zu herkömmlichen Präsentationstools wie PowerPoint verwendet Gamma ein innovatives "Karten"-System, bei dem Inhalte in scrollbaren, responsiven Formaten dargestellt werden, die sich automatisch an verschiedene Bildschirmgrößen anpassen. Nutzer können ihre Ideen in natürlicher Sprache eingeben, woraufhin die KI komplette Präsentationen, Websites oder Dokumente mit passenden Layouts, Texten und Bildvorschlägen erstellt.

Die Plattform unterstützt Echtzeit-Zusammenarbeit, ermöglicht den Export in gängige Formate wie PDF und PowerPoint und bietet Analysefunktionen zur Messung der Reichweite geteilter Inhalte.

Bild-/Videosegmentierung

Bild-/Videosegmentierung ist ein Prozess, bei dem ein KI-System einzelne Objekte oder Bereiche in Bildern oder Videos automatisch erkennt und voneinander trennt, indem es präzise Umrisse oder Masken um diese Elemente erstellt. Diese Technologie ermöglicht es, Objekte im Bild oder Video zu isolieren, zu markieren oder separat zu bearbeiten, was grundlegend für viele Anwendungen in der Bildverarbeitung, Objekterkennung und visuellen Analyse ist.

Segment Anything

Segment Anything ist ein Forschungsprojekt von Meta AI, das ein neues Modell und einen groß angelegten Datensatz für die Bildsegmentierung bereitstellt. Das Segment Anything Model (SAM) kann Objekte in Bildern anhand von Eingaben wie Punkten, Begrenzungsrahmen oder Masken segmentieren. Es wurde auf dem SA-1B-Datensatz trainiert, der über 1,1 Milliarden Masken in 11 Millionen Bildern enthält, und ist in der Lage, ohne zusätzliche Anpassungen auf bislang unbekannte Objekte und Bilder zu generalisieren (Zero-Shot-Fähigkeit).

Im Jahr 2024 stellte Meta mit SAM 2 eine erweiterte Version vor, die neben Bildern auch Videos segmentieren kann. SAM 2 nutzt eine Streaming-Memory-Architektur, die eine Echtzeitverarbeitung von Videos ermöglicht. Die Performance-Verbesserungen sind konkret dokumentiert: SAM 2 ist sechsmal schneller als das ursprüngliche SAM bei der Bildsegmentierung, benötigt dreimal weniger Interaktionen bei der Videosegmentierung und verarbeitet etwa 44 Frames pro Sekunde.

Das Modell unterstützt räumliche Prompts zur Objekterkennung (z. B. Punkte, Boxen) und zeigt starke Ergebnisse in Zero-Shot-Szenarien. Der zugrunde liegende SA-1B-Datensatz gilt als größter öffentlich verfügbarer Segmentierungsdatensatz seiner Art.

Die aktuellste Version SAM 2.1 (veröffentlicht im Herbst 2024) bietet weitere Verbesserungen, insbesondere beim Erkennen visuell ähnlicher Objekte, bei kleinen Objekten und in Situationen mit teilweiser Verdeckung (Occlusion).

Sowohl SAM als auch SAM 2 und SAM 2.1 stehen unter der Apache-2.0-Lizenz zur freien Nutzung in Forschung und kommerziellen Anwendungen bereit.

Video Editing

Video Editing, oder Videobearbeitung, bezeichnet den Prozess, bei dem Rohmaterial aus Videoaufnahmen bearbeitet und zusammengeschnitten wird, um eine kohärente und ansprechende Geschichte zu erzählen. Dies umfasst das Schneiden von Clips, das Hinzufügen von Effekten, Musik und Übergängen sowie die Anpassung von Bild und Ton, um die gewünschte Ästhetik und Emotion zu erzielen.

Opus Clip

Opus Clip ist ein KI-gestütztes Tool zur Videoaufbereitung, das lange Videos automatisch in kurze, virale Clips umwandelt. Es analysiert das Ausgangsmaterial, identifiziert die relevantesten Abschnitte und erstellt daraus ansprechende Kurzvideos, die sich ideal für Plattformen wie TikTok, YouTube Shorts und Instagram Reels eignen.

Das Tool nutzt fortschrittliche KI-Technologie, um visuelle, Audio- und Sentiment-Signale im gesamten Video zu verstehen und die besten Momente automatisch zu erkennen. Mit der neuesten Version OpusClip 3.0 kann die Plattform jede Art von Video verarbeiten - von Podcasts und Interviews über Gaming-Streams bis hin zu Sportereignissen und Videos mit wenig oder ohne Dialog.

Zu den Hauptfunktionen gehören die automatische Untertitelung mit laut Hersteller über 97% Genauigkeit, die intelligente Anpassung des Seitenverhältnisses für verschiedene Plattformen sowie die präzise Erkennung von Sprechern und bewegten Objekten. Das AI-Reframe-Feature passt Videos automatisch an unterschiedliche Formate an und hält dabei wichtige Elemente durch Object-Tracking zentriert.

Eine besondere Neuerung ist der AI B-Roll Generator, der automatisch kontextuell passende Zusatzaufnahmen aus hochwertigen Stockmaterial-Bibliotheken einfügt, um die Videos noch ansprechender zu gestalten.

Die ClipAnything-Funktion ermöglicht es Nutzern, durch einfache Texteingaben spezifische Szenen oder Momente zu finden und zu extrahieren.

Multimodale Foto-/Video-Generation

Multimodale Videogenerierung beschreibt KI-Modelle, die Videos aus verschiedenen Eingabeformen wie Text, Bildern oder einer Kombination dieser Modalitäten erzeugen können. Diese Systeme sind flexibler als reine Text-zu-Video oder Bild-zu-Video Modelle, da sie multiple Eingabeformate verarbeiten und deren jeweilige Stärken kombinieren können.

Im Gegensatz zu herkömmlichen KI-Modellen, die nur einen Datentyp verarbeiten, integrieren multimodale Systeme verschiedene Informationsquellen gleichzeitig. Ein Nutzer kann beispielsweise sowohl eine Textbeschreibung als auch ein Referenzbild eingeben, um ein Video zu erstellen, das beide Eingaben berücksichtigt. Diese Kombination führt zu natürlicheren und präziseren Ergebnissen.

Die Technologie basiert auf drei Hauptkomponenten: Eingabemodule verarbeiten verschiedene Datentypen wie Text oder Bilder separat, Fusionsmodule kombinieren diese Informationen intelligent, und Ausgabemodule erzeugen das finale Video.

Durch das Erkennen von Mustern über verschiedene Datentypen hinweg können diese Systeme Ergebnisse produzieren, die menschlicher und intuitiver wirken als unimodale Ansätze.

Die Vorteile multimodaler Videogenerierung liegen in der höheren Genauigkeit und Flexibilität. Wenn eine Eingabeart unzuverlässig ist, kann das System auf andere Modalitäten zurückgreifen. Dies macht die Technologie robuster und ermöglicht natürlichere Mensch-Computer-Interaktionen. Gleichzeitig eröffnet sie neue Möglichkeiten für Content-Erstellung, Marketing und Bildung.

nano Banana

Nano Banana ist der inoffizielle Spitzname für Googles KI-Modell "Gemini 2.5 Flash Image", das am 26. August 2025 offiziell vorgestellt wurde. Das Modell wurde von Google DeepMind entwickelt und dient der Bilderzeugung und Bildbearbeitung durch Texteingaben.

Nutzer können bestehende Fotos hochladen und durch geschriebene Anweisungen verändern lassen - beispielsweise Objekte entfernen, Farben ändern oder neue Elemente hinzufügen. Das System kann Schwarz-Weiß-Fotos kolorieren, Personen in neue Umgebungen versetzen oder mehrere Bilder zu einem zusammenfügen.

Das Modell zeichnet sich besonders durch seine Fähigkeit zur Wahrung der Charakterkonsistenz aus, wodurch Personen und Objekte über verschiedene Bearbeitungen hinweg identisch bleiben.

Vor der offiziellen Veröffentlichung wurde das System anonym unter dem Codenamen "nano-banana" auf der LMArena-Plattform getestet, wo es durch außergewöhnliche Leistungen bei der Bildbearbeitung Aufmerksamkeit erregte und die Spitzenposition in den Ranglisten erreichte.

Nutzer können mit dem Modell präzise lokale Bearbeitungen durch natürliche Spracheingaben vornehmen, ohne komplexe Bildbearbeitungssoftware beherrschen zu müssen.

Alle mit Gemini 2.5 Flash Image erstellten oder bearbeiteten Bilder enthalten sowohl sichtbare als auch unsichtbare SynthID-Wasserzeichen zur Kennzeichnung als KI-generierte Inhalte. Das Modell ist über die Gemini API, Google AI Studio und Vertex AI verfügbar.

Avatar Generation

Die Kategorie "Avatar Generation" bezieht sich auf Technologien und Tools, die es ermöglichen, digitale Avatare zu erstellen, die als visuelle Repräsentationen von Benutzern oder Charakteren dienen. Diese Avatare können aus verschiedenen Eingaben wie Fotos oder Text generiert werden und werden häufig in Anwendungen wie virtuellen Meetings, Videospielen, sozialen Medien und KI-gestützten Videoerstellungstools verwendet. Die Avatar-Generierung umfasst oft Funktionen wie Anpassung von Aussehen, Stimme und Bewegungen, um eine realistische Interaktion und Darstellung zu ermöglichen.

Synthesia

Synthesia ist eine führende KI-Plattform zur Videoerstellung, die es Nutzern ermöglicht, professionelle Videos mit KI-generierten Avataren und Voiceovers in über 140 Sprachen zu produzieren. Das Unternehmen mit Sitz in London bietet eine benutzerfreundliche Oberfläche mit zahlreichen Anpassungsoptionen, darunter über 230 vorgefertigte Avatare, mehr als 250 Videovorlagen und die Möglichkeit, eigene Stimmen zu klonen.

Die Plattform wandelt geschriebene Texte durch fortschrittliche KI-Algorithmen in Videos um, bei denen realistische digitale Avatare die Inhalte präsentieren. Nutzer können aus einer vielfältigen Bibliothek von Avataren verschiedener Ethnien und Altersgruppen wählen oder sogar personalisierte Avatare erstellen, die wie digitale Zwillinge aussehen und klingen.

Synthesia eignet sich besonders für Unternehmen, die Videos für Schulungen, Marketing und interne Kommunikation erstellen möchten, ohne auf traditionelle Produktionsmethoden mit Kameras, Schauspielern oder Studios zurückgreifen zu müssen. Die Technologie ermöglicht es, Videos in wenigen Minuten zu erstellen, was erhebliche Zeit- und Kosteneinsparungen gegenüber herkömmlichen Videoproduktionen bedeutet.

Die Plattform legt besonderen Wert auf Sicherheit und ethische Nutzung der KI-Technologie. Sie verfügt über umfassende Compliance-Zertifizierungen und Sicherheitsprotokolle, um den Anforderungen von Unternehmenskunden gerecht zu werden.

HeyGen

HeyGen ist ein KI-Tool zur Videoerstellung, das es Nutzern ermöglicht, hochwertige Videos mit KI-generierten Avataren und natürlich klingenden Voiceovers zu produzieren. Es bietet Funktionen wie die Erstellung personalisierter KI-Avatare, Text-to-Video-Generierung, Videoübersetzung mit präziser Lippensynchronisation sowie eine umfangreiche Bibliothek mit über 500 vorgefertigten Avataren verschiedener Ethnien und Stile.

Das 2025 von G2 als Fastest Growing Product (#1 in der Kategorie AI Video Generator) ausgezeichnete Tool verfügt über fortschrittliche Funktionen wie „Avatar IV“, mit denen lebensechte sprechende Avatare aus einem einzigen Foto erstellt werden können.

Die Videoübersetzungsfunktion unterstützt über 175 Sprachen und Dialekte, während die Voice-Cloning-Technologie individuelle Stimmen in ebenso vielen Sprachen ermöglicht. HeyGen eignet sich besonders für Marketing- und Vertriebsteams, die interaktive und personalisierte Inhalte erstellen möchten, um die Kundenbindung zu verbessern – ohne aufwendige Videoproduktionen.

Sora

Sora ist ein von OpenAI entwickeltes KI-Modell, das aus Text, Bildern oder bestehenden Videos kurze Videoclips erzeugen kann. Das Modell analysiert Eingaben, extrahiert Schlüsselinformationen und setzt diese in visuell realistische Szenen um – inklusive detaillierter Hintergründe, Charakterinteraktionen und Bewegungen.

Sora bietet folgende Möglichkeiten:

Text-zu-Video: Erstellen neuer Videos allein aus Textbeschreibungen
Bildanimation: Umwandeln von Einzelbildern in kurze Videosequenzen
Videobearbeitung: Anpassung bestehender Clips (Remix, Re-cut, Loop, Blend)
Storyboard-Modus: Erstellung längerer Sequenzen durch Szenenplanung
Zusatzfunktionen: Loop-Erstellung, Presets, Feinanpassungen

Sora basiert auf einem fortschrittlichen Transformer-Modell, das mit räumlich-zeitlichen Video-Patches und Diffusionsverfahren arbeitet. Dadurch kann es komplexe Szenen mit mehreren Figuren, präzisen Bewegungen und konsistenten Details erzeugen. Das Modell versteht sowohl den Inhalt der Nutzeranfragen als auch die physikalische und räumliche Logik der dargestellten Objekte.

Nach aktuellen Erkenntnissen hat Sora noch Schwächen bei:

Simulation komplexer physikalischer Abläufe
Längeren Handlungen über mehrere Sekunden
Räumlicher Konsistenz, z. B. Links-Rechts-Unterscheidung

OpenAI entwickelt das Modell kontinuierlich weiter, um diese Punkte zu verbessern.

Studien weisen auf mögliche Bias-Probleme hin, etwa bei geschlechtsspezifischen Darstellungen, rassistischen und ableistischen Verzerrungen.

Veo

Veo ist ein KI-gestütztes Videogenerierungsmodell von Google DeepMind, das seit seiner Erstveröffentlichung im Mai 2024 kontinuierlich weiterentwickelt wird. Das System ermöglicht die Erstellung hochauflösender, realistischer Videos in verschiedenen filmischen und visuellen Stilen auf Basis von Text- oder Bildvorgaben.

Die aktuelle Version, Veo 3, wurde im Mai 2025 veröffentlicht und bringt mehrere wesentliche Neuerungen: Neben der Unterstützung für 4K-Auflösung kann das Modell erstmals auch automatisch generierte Audiospuren erstellen – darunter passende Soundeffekte, Hintergrundmusik und synthetisch erzeugte Dialoge. Diese Audiogenerierung unterscheidet Veo 3 von anderen Modellen wie etwa OpenAIs Sora, die derzeit ausschließlich stumme Videoclips erzeugen.

Veo versteht natürliche Sprache sowie visuelle Semantik und kann filmische Begriffe wie „Zeitraffer“, „Luftaufnahme“ oder bestimmte Kameraeinstellungen interpretieren. Bewegungen und Objekte werden dabei konsistent dargestellt, was realitätsnahe Szenen ermöglicht.

Das Modell ist über mehrere Plattformen zugänglich:

Gemini-App: für einfache oder schnelle Videoprojekte
Flow: ein Tool für komplexere Produktionen mit erweiterter Szenensteuerung
Vertex AI: für professionelle oder unternehmensspezifische Anwendungen

Alle von Veo generierten Videos werden mit einem digitalen SynthID-Wasserzeichen versehen, um die Herkunft als KI-generiert kenntlich zu machen.

Die Entwicklung des Modells erfolgte in mehreren Etappen:

Veo (Mai 2024): Erste Version mit 1080p-Auflösung
Veo 2 (Dezember 2024): Einführung von 4K-Unterstützung und verbesserter Physiksimulation
Veo 3 (Mai 2025): Erweiterung um native Audiogenerierung

Runway Gen-4

Runway Gen-4 ist ein System zur automatischen Videoerzeugung, das im März 2025 von der amerikanischen Firma Runway veröffentlicht wurde. Die Software erstellt kurze, realistisch wirkende Videos mit einer Länge von etwa fünf bis zehn Sekunden – basierend auf Textbeschreibungen und optionalen Referenzbildern.

Eine zentrale Neuerung gegenüber früheren Versionen besteht in der verbesserten Konsistenz: Personen und Objekte bleiben über alle Einzelbilder hinweg visuell stabil. Benutzer können beispielsweise ein Foto einer Person hochladen, woraufhin das System realitätsnahe Videosequenzen generiert – etwa unter wechselnden Lichtverhältnissen oder aus verschiedenen Blickwinkeln.

Auch Bewegungsabläufe wirken natürlicher, da das Modell physikalisch plausible Dynamiken simulieren kann.

Gen-4 stellt die vierte Generation dieser Technologie dar. Frühere Modelle wie Gen-1, Gen-2 und Gen-3 Alpha zeigten noch Schwächen bei der Bildkonsistenz und Bewegungssimulation.

Finanziert wird das Unternehmen Runway unter anderem von großen Technologiekonzernen wie Google, Nvidia und Salesforce. Das System konkurriert mit vergleichbaren Entwicklungen, etwa OpenAI Sora oder Google Veo.

Mittlerweile findet Gen-4 Anwendung in professionellen Bereichen – darunter Musikvideos und Filmproduktionen –, was auf eine hohe visuelle Qualität der generierten Inhalte hinweist.

Text-to-Media

Text-to-Media beschreibt KI-Modelle, die Texteingaben in verschiedene digitale Medienformate umwandeln können. Dies umfasst die Generierung von Bildern, Videos, Audio, 3D-Modellen, Animationen und anderen Medienformaten, wobei spezialisierte KI-Modelle die textuellen Beschreibungen interpretieren und in das jeweilige Zielformat übersetzen. Die breite Palette möglicher Ausgabeformate macht diese Technologie zu einem vielseitigen Werkzeug für kreative und professionelle Anwendungen.

Text-to-Video

Text-to-Video Modelle generieren aus Textbeschreibungen automatisch Videosequenzen, indem sie Bewegung, zeitliche Abläufe und narrative Elemente in visuelle Form übersetzen.

Dabei bauen sie auf ähnlichen Technologien wie Text-to-Image Modelle auf, müssen aber zusätzlich die zeitliche Dimension und Bewegungsabläufe berücksichtigen.

Die derzeit großen bekannten Video-Generatoren sind keine reinen Text-to-Video Modelle mehr - sie können bereits Bilder und sogar Videos verarbeiten und sind daher als multimodal einzustufen.

Diese multimodalen Videogeneratoren haben sich seit 2025 erheblich weiterentwickelt. Führende Systeme wie OpenAIs Sora, Runway Gen-3 Alpha, Googles Veo 3 und Metas Movie Gen unterstützen verschiedene Eingabemethoden: Text-zu-Video, Bild-zu-Video und Video-zu-Video.

Text-to-Speech

Text-to-Speech (TTS) bezeichnet eine Technologie, die geschriebenen Text in natürliche, synthetische Sprache umwandelt. Sie wird genutzt, um Inhalte hörbar zu machen, und findet Anwendung in Sprachassistenten, Hörbüchern, Barrierefreiheit und der Lokalisierung von Medien.

Google Text-to-Speech

Google Text-to-Speech ist ein Cloud-basierter Dienst, der mithilfe von künstlicher Intelligenz geschriebenen Text in natürliche, lebensechte Sprache umwandelt. Er bietet eine große Auswahl an Stimmen in verschiedenen Sprachen und mit unterschiedlichen Stimmlagen, die über die Google Cloud Platform zugänglich sind. Google Text-to-Speech wird in vielen Google-Produkten wie Google Assistant, Google Maps und Google Übersetzer verwendet und kann auch von Entwicklern in ihre eigenen Anwendungen integriert werden.

Speechify

Speechify ist eine plattformübergreifende Text-zu-Sprache-Anwendung, die es ermöglicht, geschriebenen Text in gesprochene Sprache umzuwandeln. Die Software bietet über 1.000 natürlich klingende KI-Stimmen in mehr als 60 Sprachen und ist für Nutzerinnen und Nutzer in nahezu 200 Ländern verfügbar. Inhalte aus Websites, E-Mails, PDFs, Bildern und anderen Quellen lassen sich mithilfe integrierter Funktionen vorlesen.

Speechify unterstützt eine variable Wiedergabegeschwindigkeit von bis zu 4,5-facher Normalgeschwindigkeit und bietet eine Texthervorhebung während des Vorlesens. Audiodateien können zur Offline-Nutzung heruntergeladen werden, wobei das genaue Ausgabeformat (z. B. MP3 oder WAV) nicht näher spezifiziert ist.

Ein integriertes OCR-System (Optical Character Recognition) erlaubt das Erfassen und Vorlesen gedruckter Texte aus Fotos oder Scans. Die App ist als mobile Anwendung für iOS und Android verfügbar, ebenso als Web-App, Desktop-Version für macOS sowie als Browser-Erweiterung für Chrome und Edge.

Laut Anbieter zählt Speechify über 50 Millionen Nutzende weltweit und wurde über 500.000 Mal mit fünf Sternen bewertet. Im Juni 2025 erhielt die Anwendung den Apple Design Award in der Kategorie „Inklusivität“.

Neben klassischen KI-Stimmen stehen optional auch Prominenten-Stimmen zur Verfügung – darunter bekannte Namen wie Snoop Dogg, Gwyneth Paltrow und MrBeast.

Für professionelle Nutzer und Unternehmen bietet Speechify Studio zusätzliche Funktionen wie KI-Stimmengenerierung, Stimmklonen, automatisierte Synchronisation und Stimmenverzerrung.

Die Plattform unterstützt sowohl kostenlose als auch kostenpflichtige Premium-Modelle.

ElevenLabs

ElevenLabs ist ein Technologieunternehmen, das sich auf die Entwicklung fortschrittlicher KI-basierter Audiotechnologien spezialisiert hat. Das zentrale Produkt ist eine Text-to-Speech-Plattform, die realistische und kontextbezogene Sprachausgabe in über 70 Sprachen ermöglicht.

Mit dem aktuellen Modell Eleven v3 (Alpha), das im Juni 2025 veröffentlicht wurde, werden 74 Sprachen unterstützt. Darüber hinaus erlaubt das System eine erweiterte Steuerung von Emotionen, Sprechstil und Dialogstruktur.

Die Technologie kommt in verschiedenen Bereichen zum Einsatz, unter anderem bei der Erstellung von Hörbüchern, in der Vertonung von Videospielen, in Filmvorproduktionen sowie bei der Übersetzung und Lokalisierung von Medieninhalten.

Ein wesentliches Merkmal der Plattform ist das sogenannte Voice Cloning. Dabei bietet ElevenLabs zwei Verfahren an:

Instant Voice Cloning, bei dem bereits rund eine Minute Audiomaterial genügt, um eine neue Stimme zu erzeugen,
Professional Voice Cloning, das mit 30 Minuten bis zu drei Stunden Sprachmaterial arbeitet und hochwertigere Ergebnisse liefert. Die Bearbeitungszeit kann hier je nach Auslastung zwischen wenigen Tagen und mehreren Wochen liegen.

Eine weitere Funktion ist AI Dubbing, mit der Videos automatisch in andere Sprachen übersetzt und synchronisiert werden können. Dabei wird die ursprüngliche Stimme des Sprechers so weit wie möglich beibehalten, einschließlich Intonation und emotionalem Ausdruck.

Im Januar 2025 wurde ElevenLabs mit 3,3 Milliarden US-Dollar bewertet.

Die Plattform wird weltweit von einer großen Zahl an Kreativschaffenden, Entwicklerinnen und Entwicklern sowie Unternehmen genutzt. Zu den Anwendern zählen Verlage, Medienunternehmen und Produktionsfirmen.

Text-to-Image

Ein Text-to-Image-Modell wandelt natürlichsprachliche Textbeschreibungen (Prompts) in Bilder um, indem es aus einer großen Menge von Text-Bild-Paaren gelernt hat, welche visuellen Elemente zu bestimmten textuellen Beschreibungen gehören. Diese Modelle nutzen meist Diffusionstechnologien oder andere Deep-Learning-Architekturen, um schrittweise aus zufälligem Rauschen Bilder zu erzeugen, die der textuellen Eingabe entsprechen.

Stable Diffusion

Stable Diffusion ist ein Open-Source-Modell für die Text-zu-Image-Generierung, das sich durch seine Anpassungsfähigkeit und hohe Bildqualität auszeichnet. Es kann lokal betrieben oder in verschiedene Anwendungen integriert werden und ist besonders bei Entwicklern und Kreativen wegen seiner freien Verfügbarkeit beliebt. Stable Diffusion eignet sich für künstlerische und experimentelle Projekte ebenso wie für kommerzielle Anwendungen.

FLUX.1

Flux.1 ist ein deutsches KI-Bildmodell, das seit 2024 von dem Unternehmen Black Forest Labs entwickelt und angeboten wird. Das Unternehmen wurde von ehemaligen Mitarbeitern von Stability.AI gegründet und hat seinen operativen Sitz in Freiburg im Breisgau, ist jedoch rechtlich in Delaware, USA, registriert. Es ist auf die Generierung hochauflösender, detailreicher Bilder spezialisiert und unterstützt die Darstellung komplexer Szenen mit hoher Prompt-Treue.

Das Modell existiert in mehreren Varianten, die sich an unterschiedliche Nutzergruppen richten: Flux.1 pro (proprietäre API-Version) ist für professionelle Anwendungen konzipiert und liefert die höchste Bildqualität, Flux.1 dev (Open-Weight, nicht-kommerziell nutzbar) bietet Entwicklerzugang, Flux.1 schnell ist quelloffen unter der Apache-Lizenz und auf schnelle Generierung optimiert.

Seit Mai 2025 ist zudem die Variante Flux.1 Kontext verfügbar, die situations- und kontextsensitives Promptverständnis ermöglicht. Die Entwickler-Version wurde am 26. Juni 2025 als Open-Weight-Modell für Forschung und nicht-kommerzielle Nutzung freigegeben.

Ergänzend stehen Bearbeitungsfunktionen wie "Fill" und "Depth" zur Verfügung, mit denen gezielte Bildmodifikationen möglich sind. Eine Finetuning-API wurde im Januar 2025 eingeführt, die es ermöglicht, das Modell mit nur fünf Beispielbildern an spezifische Marken und Stile anzupassen.

Technisch basiert Flux.1 auf einem Hybridmodell mit 12 Milliarden Parametern und verwendet eine Kombination aus Transformer- und Parallel-Diffusionsarchitekturen. Die Modelle nutzen rectified flow transformer blocks und erweiterte Technologien wie rotierende Positionseinbettungen. Die hohe Flexibilität und Qualität machen es besonders für kreative und professionelle Einsatzfelder attraktiv.

MidJourney

MidJourney ist ein KI-gestütztes Tool zur Bildgenerierung, das für seinen künstlerischen, atmosphärischen Stil bekannt ist. Es ermöglicht Nutzern, aus kurzen Texteingaben (Prompts) beeindruckende visuelle Interpretationen zu erzeugen – oft inspiriert von Malerei, Fantasy, Konzeptkunst oder surrealistischen Motiven.

Die Nutzung erfolgt primär über den Chatdienst Discord, wo ein spezieller Bot mit dem Befehl /imagine angesprochen wird. Eine wachsende Weboberfläche bietet ergänzende Funktionen wie den Bildeditor und eine benutzerfreundlichere Erfahrung.

MidJourney ist besonders bei Designern, Künstlern und Kreativschaffenden beliebt, da es ästhetisch ansprechende und inspirierende Bilder erzeugt, die sich beispielsweise für Moodboards, Prototyping oder visuelle Ideenfindung eignen.

Seit der Veröffentlichung der Version 7 im April 2025 bietet MidJourney noch realistischere Bildkompositionen und erweiterte kreative Kontrolle. Im Juni 2025 wurde zusätzlich die Videogenerierung eingeführt – ein Bild-zu-Video-Modell, das aus hochgeladenen Bildern vier fünfsekündige Videos erstellt. Weitere geplante Funktionen umfassen Bearbeitungsoptionen und kollaborative Werkzeuge.

Neben einer aktiven Community auf Discord, in der Nutzer ihre Ergebnisse teilen und sich austauschen, legt MidJourney besonderen Wert auf kreative Vielfalt und visuelle Ausdrucksstärke. Die Plattform hat sich als eines der führenden KI-Bildgenerierungstools etabliert und wird täglich von Millionen von Nutzern verwendet.

DALL-E

DALL·E ist ein KI-Bildgenerierungsmodell von OpenAI, das aus Texteingaben (Prompts) realistische und kreative Bilder erzeugt. Es wurde erstmals im Januar 2021 vorgestellt und kontinuierlich weiterentwickelt – mit DALL·E 2 (2022) und der leistungsfähigeren Version DALL·E 3, die seit Oktober 2023 verfügbar ist.

DALL·E ist besonders vielseitig: Es kann komplexe Szenen, verschiedene Stilrichtungen sowie fantasievolle oder realitätsnahe Bildkompositionen erzeugen. Zu den Funktionen gehören:

Bildbearbeitung (Inpainting): gezielte Änderungen an einzelnen Bildbereichen
Outpainting: Erweiterung bestehender Bilder über ihre ursprünglichen Grenzen hinaus
Variationen: neue Versionen eines Ausgangsbildes generieren
Prompt-Unterstützung: DALL·E 3 kann selbstständig Prompts verbessern und interpretieren

Das Modell wird sowohl für künstlerische Zwecke als auch für professionelle Visualisierungen in Design, Werbung oder Konzeptentwicklung eingesetzt.

Zugänglichkeit: DALL·E ist über verschiedene Wege nutzbar. Seit August 2024 können kostenlose ChatGPT-Nutzer bis zu 2 Bilder pro Tag mit DALL·E 3 erstellen. ChatGPT Plus-Abonnenten (20 USD monatlich) haben erweiterten Zugang mit höheren Limits. Zusätzlich bietet OpenAI eine API, über die Entwickler DALL·E in eigene Anwendungen integrieren können.

Nach aktuellen Erkenntnissen wurde DALL·E im April 2025 von OpenAI als eigenständige Anwendung positioniert, während "ChatGPT-4o zur Bildgenerierung" als primäres integriertes Tool in den Chatbots fungiert.

Nutzer erhalten vollständige Nutzungsrechte an den generierten Bildern, einschließlich kommerzieller Nutzung.

Text-to-Text

Ein Text-to-Text Modell ist ein KI-System, das Text als Eingabe empfängt und Text als Ausgabe produziert. Diese Modelle sind darauf trainiert, verschiedene Textverarbeitungsaufgaben durchzuführen wie Übersetzungen, Zusammenfassungen, Frage-Antwort-Dialoge oder das Verfassen von Texten. Der Begriff "Text-to-Text" beschreibt dabei den grundlegenden Verarbeitungsprozess: Das Modell nimmt einen Text entgegen, verarbeitet diesen basierend auf seinem Training und generiert daraus einen neuen Text als Antwort. Die meisten modernen Sprachmodelle wie GPT oder Claude sind im Kern Text-to-Text Modelle, auch wenn sie inzwischen oft um weitere Fähigkeiten erweitert wurden.

Conversational AI

Conversational AI bezeichnet KI-Systeme, die darauf spezialisiert sind, natürliche Gespräche mit Menschen zu führen. Diese Systeme sind darauf ausgelegt: - Natürliche Sprache zu verstehen - Kontextrelevante Antworten zu geben - Gesprächsverläufe zu verfolgen - Angemessen auf unterschiedliche Gesprächssituationen zu reagieren Typische Anwendungen sind: - Chatbots - Virtuelle Assistenten - Kundenservice-Systeme - Dialogsysteme Moderne Conversational AI basiert meist auf Large Language Models, die durch spezielle Trainingsmethoden und Anpassungen für Dialoge optimiert wurden. Der Fokus liegt dabei auf der Fähigkeit, kohärente und kontextbezogene Gespräche zu führen, statt nur einzelne Fragen zu beantworten.

pi.ai

Pi ist ein KI-gestützter Chatbot, entwickelt von Inflection AI, der als persönlicher Assistent fungiert. Im Gegensatz zu vielen anderen KI-Systemen legt Pi besonderen Wert auf empathische, natürliche Interaktionen und versteht sich als Coach, Gesprächspartner oder kreativer Begleiter.

Für erste Unterhaltungen ist keine Registrierung erforderlich. Wer jedoch Gesprächsverläufe speichern oder plattformübergreifend fortsetzen möchte, benötigt ein kostenloses Benutzerkonto.

Das zugrunde liegende Sprachmodell wurde zuletzt im März 2024 mit Inflection-2.5 aktualisiert. Nach Angaben von Inflection AI erreicht dieses Modell mehr als 94 % der durchschnittlichen Leistung von GPT-4, bei gleichzeitigem Erhalt der empathischen Ausrichtung.

Anfang 2024 nutzten täglich über eine Million Menschen Pi, bei monatlich mehr als sechs Millionen Nutzerinnen und Nutzern.

Wichtige Entwicklungen im Jahr 2024: Im März 2024 verließen die Gründer Mustafa Suleyman und Karén Simonyan gemeinsam mit einem Großteil des Teams das Unternehmen, um zu Microsoft zu wechseln. Dies führte zu einem grundlegenden Strategiewechsel:

Seit August 2024 gelten Nutzungsbeschränkungen für die kostenlose Version, die jedoch hauptsächlich Nutzer mit extrem hoher Nutzung betreffen
Inflection AI richtet seinen Fokus verstärkt auf Geschäftskunden und entwickelt entsprechende Unternehmenslösungen
Die Verbraucherversion von Pi bleibt weiterhin kostenlos verfügbar und funktionsfähig

character.ai

Character.ai ist eine KI-Plattform, die es Nutzerinnen und Nutzern ermöglicht, individuelle Chatbots – sogenannte „Charaktere“ – zu erstellen und mit ihnen textbasiert zu interagieren. Die Plattform wurde von den ehemaligen Google-Mitarbeitern Noam Shazeer und Daniel De Freitas gegründet, die zuvor am Sprachmodell LaMDA mitarbeiteten.

Character.ai basiert auf proprietären neuronalen Sprachmodellen, die speziell für die Generierung kontextbezogener Textantworten entwickelt wurden. Diese Technologie verarbeitet Texteingaben der Nutzer und generiert darauf basierend passende Ausgaben, womit es sich um ein Text-zu-Text-System handelt.

Nutzer können auf der Plattform eine Vielzahl an KI-Charakteren gestalten – von historischen Persönlichkeiten bis hin zu vollständig fiktiven Figuren. Die öffentliche Beta-Version wurde im September 2022 gestartet. Seit Mai 2023 ist Character.ai auch als App für iOS und Android verfügbar.

Über ein kostenpflichtiges Abonnement („c.ai+“) können zusätzliche Funktionen wie beschleunigtes Chatten genutzt werden.

SLMs/Lightweight LLMs

Falcon 3

Die Falcon 3-Familie umfasst vier Modellgrößen: Falcon3-1B, -3B, -7B und -10B, die vom Technology Innovation Institute entwickelt wurden und mit 14 Billionen Token trainiert wurden. Jedes Modell ist in einer Base-Variante für generische generative Aufgaben und einer Instruct-Variante für Konversationsanwendungen verfügbar, wobei auch quantisierte Versionen für ressourceneffiziente Implementierungen angeboten werden. Die Falcon 3-Modelle sind in mehreren Sprachen verfügbar, darunter Englisch, Französisch, Spanisch und Portugiesisch, und wurden entwickelt, um effizient auf leichter Infrastruktur, einschließlich Laptops, zu laufen.

Teuken-7B

Teuken-7B wurde im Rahmen des europäischen Forschungsprojekts OpenGPT-X entwickelt. Das Projekt wird vom deutschen Bundesministerium für Wirtschaft und Klimaschutz (BMWK) mit etwa 14 Millionen Euro gefördert. Ein Ziel des Projekts ist es, eine Alternative zu den dominierenden Sprachmodellen aus den USA zu schaffen. Teuken-7B zeichnet sich durch seine Fokussierung auf alle 24 offiziellen Sprachen der EU aus. Die Integration in Gaia-X, ein europäisches Ökosystem für Datenspeicherung und -verarbeitung, ermöglicht die Nutzung sensibler Unternehmens- und Forschungsdaten.

Mistral AI ist ein französisches Unternehmen, das sich auf die Entwicklung von Large Language Models spezialisiert hat - Computerprogramme, die menschliche Sprache verstehen und generieren können.

Das Unternehmen wurde 2023 von ehemaligen Mitarbeitern großer Technologiekonzerne gegründet und hat seinen Hauptsitz in Paris. Mistral entwickelt Sprachmodelle, die Texte analysieren, Fragen beantworten und verschiedene sprachbasierte Aufgaben ausführen können.

Die Firma veröffentlicht sowohl kommerzielle als auch frei verfügbare Versionen ihrer Modelle für Forschung und Entwicklung.

Mistral positioniert sich als europäische Alternative zu amerikanischen Anbietern im Bereich der künstlichen Intelligenz. Das Unternehmen erhielt bereits mehrere Finanzierungsrunden von Investoren und arbeitet an der Weiterentwicklung seiner Technologie. Die Modelle von Mistral werden in verschiedenen Anwendungen eingesetzt, von Chatbots bis hin zu automatisierten Übersetzungssystemen.

Mistral AI trägt zur wachsenden Konkurrenz im Markt für Large Language Models bei und beeinflusst die Entwicklung dieser Technologie in Europa.

Mistral Magistral

Magistral Small 1.2 und Magistral Medium 1.2 sind die neuesten Weiterentwicklungen von Mistrals Reasoning-Modellen, die am 18. September 2025 veröffentlicht wurden. Magistral Small 1.2 ist ein 24-Milliarden-Parameter-Modell, das durch Supervised Fine-Tuning von Magistral Medium und anschließendes Reinforcement Learning trainiert wurde. Die Modelle wurden als "kleinere Updates" beworben, bringen aber bedeutende Verbesserungen mit sich.

Beide Modelle verfügen über einen Vision Encoder, der es ihnen ermöglicht, sowohl Text als auch Bilder nahtlos zu verarbeiten. Diese Integration geht über einfache Bilderkennung hinaus und umfasst kontextuelles Verständnis, räumliches Denken und visuelle Problemlösung.

Die Reasoning-Struktur wurde verbessert: Beide Modelle führen spezielle [THINK] und [/THINK] Tokens ein, um Reasoning-Traces für einfachere Entwicklerüberprüfung zu kennzeichnen. Dies strukturiert die Modellausgaben in interne Überlegungen gefolgt von einer finalen Antwort, was für Nachverfolgbarkeit und Debugging nützlich ist.

Magistral Small 1.2 umfasst 24 Milliarden Parameter und kann auf einer einzelnen RTX 4090 oder einem 32GB RAM MacBook nach Quantisierung lokal eingesetzt werden.

Magistral Small 1.2 ist unter Apache 2.0 Lizenz verfügbar und erlaubt vollständige kommerzielle und nicht-kommerzielle Nutzung ohne Einschränkungen. Magistral Medium 1.2 ist als proprietäres Modell nur über APIs verfügbar.

Die Modelle unterstützen über zwei Dutzend Sprachen, einschließlich Französisch, Deutsch, Arabisch, Japanisch und Chinesisch.

Mistral 7B

Mistral 7B ist ein Lightweight LLM, das mit 7,3 Milliarden Parametern eine kompakte und effiziente Alternative zu größeren Sprachmodellen bietet. Trotz seiner kleineren Größe zeigt es in verschiedenen Benchmarks eine überdurchschnittliche Leistung und übertrifft oft sogar Modelle mit doppelt so vielen Parametern, wie Llama 2 13B. Durch seine optimierte Architektur ist Mistral 7B ressourcenschonend und eignet sich ideal für Anwendungen, die leistungsfähige Sprachverarbeitung auf begrenzter Hardware oder mit schnellen Inferenzzeiten erfordern.

Gemini Nano

Gemini Nano ist ein kompaktes Sprachmodell der Firma Google, das speziell für die Ausführung auf Mobilgeräten wie Smartphones entwickelt wurde. Das Modell basiert auf der gleichen Transformer-Decoder-Grundarchitektur wie größere Sprachmodelle, wurde aber durch moderne Techniken wie Knowledge Distillation stark verkleinert und optimiert, um mit den begrenzten Ressourcen mobiler Prozessoren zu funktionieren.

Es kann Texte verstehen, generieren und bearbeiten, ohne dass eine Internetverbindung zu externen Servern erforderlich ist.

Die Verarbeitung findet direkt auf dem Gerät über Androids AICore-Systemdienst statt, wodurch Datenschutz gewährleistet und Latenzzeiten reduziert werden.

Gemini Nano unterstützt grundlegende Funktionen wie Smart Replies, Textkorrektur, Übersetzung, Zusammenfassungen und die Beantwortung einfacher Fragen in verschiedenen Apps. Das Modell ist in zwei Varianten verfügbar: Nano-1 mit 1,8 Milliarden Parametern für speicherbegrenzte Geräte und Nano-2 mit 3,25 Milliarden Parametern für leistungsstärkere Hardware.

Mit der Einführung der Google Pixel 10-Serie im August 2025 und dem neuen Tensor G5-Chip wurde Gemini Nano weiterentwickelt. Die neueste Generation des Modells ermöglicht verbesserte Funktionen wie Magic Cue, das proaktiv hilfreiche Informationen in Apps bereitstellt, sowie erweiterte Kamera-Features wie Pro Res Zoom mit bis zu 100-facher Vergrößerung. Der Tensor G5-Chip bietet nach Googles Angaben eine um 34 Prozent schnellere CPU-Leistung und eine um 60 Prozent leistungsstärkere TPU im Vergleich zum Vorgänger.

Diese technischen Verbesserungen ermöglichen es, größere KI-Modelle direkt auf dem Gerät zu betreiben und neue Anwendungen wie Anrufnotizen, Sprachübersetzung und erweiterte Kamera-Funktionen zu realisieren. Dabei bleibt die Verarbeitung vollständig lokal, was sowohl den Datenschutz als auch die Reaktionsgeschwindigkeit verbessert.

Die Entwicklung zeigt Googles kontinuierlichen Fokus auf On-Device-KI, auch wenn die Leistungsverbesserungen hauptsächlich KI-spezifische Anwendungen betreffen und der Chip in traditionellen Benchmarks weiterhin hinter Konkurrenzprodukten wie Qualcomms Snapdragon 8 Elite zurückbleibt.

Phi-4

Phi-4 ist ein Small Language Model (SLM) mit wenigen Milliarden Parametern, das speziell für effiziente Sprachverarbeitung mit geringem Rechenaufwand entwickelt wurde. Es nutzt optimierte Architekturen und Trainingsmethoden, um trotz seiner kompakten Größe eine hohe Leistungsfähigkeit in Aufgaben wie Textverständnis, Codegenerierung und logischem Schlussfolgern zu bieten. Durch seine geringe Modellgröße kann Phi-4 auf lokalen Geräten oder kleineren Cloud-Instanzen ausgeführt werden, was es besonders für ressourcenschonende Anwendungen attraktiv macht.

Gemma

Die Familie der Gemma-KI-Modelle von Google umfasst offene KI-Modelle, die für verschiedene Anwendungen wie Text-zu-Text, Vision-Language und Codegenerierung entwickelt wurden. Diese Modelle basieren auf der gleichen Technologie wie die größeren Gemini-Modelle, sind jedoch leichter und können von Entwicklern angepasst werden. Sie sind in verschiedenen Größen verfügbar und können auf unterschiedlichen Geräten, einschließlich Notebooks und Mobilgeräten, ausgeführt werden. Die Gemma-Familie wird kontinuierlich erweitert, um neue Funktionen und verbesserte Leistung zu bieten, wobei sie sich besonders für einfachere Chatbots und spezifische Textarbeiten eignet. Gemma 3 ist die neueste Generation der Gemma-Modellfamilie und umfasst fünf Varianten mit Größen von 1B bis 27B Parametern. Diese Modelle unterstützen über 140 Sprachen und können Text, Bilder und kurze Videos verarbeiten. Sie bieten Funktionen wie Function Calling und strukturierte Ausgaben, was sie für automatisierte Aufgaben besonders geeignet macht. Gemma 3 zeichnet sich durch eine signifikant reduzierte Reproduktion von Text und persönlichen Daten aus, was die Sicherheit und Zuverlässigkeit der Modelle erhöht.

Die Lightweight-Modelle von Llama, darunter die Varianten mit 1B, 3B und 11B Parametern, sind darauf ausgelegt, effiziente KI-Lösungen mit geringeren Hardwareanforderungen bereitzustellen. Das 1B- und 3B-Modell eignen sich besonders für Anwendungen auf Edge-Geräten oder Mobilgeräten, da sie trotz ihrer Kompaktheit solide Sprachverarbeitungsfähigkeiten bieten. Das 11B-Modell kombiniert diese Effizienz mit einer höheren Leistung, wodurch es für anspruchsvollere Aufgaben und Domänen einsetzbar ist, ohne den Ressourcenverbrauch größerer Modelle wie Llama 2 70B oder Llama 3.2 zu benötigen.

Frontier-Modelle

Ein Frontier Modell bezeichnet die fortschrittlichsten und leistungsfähigsten künstlichen Intelligenzen, die die technologischen Grenzen ihrer Zeit repräsentieren. Diese Systeme zeichnen sich durch außergewöhnliche Fähigkeiten in Bereichen wie Sprache, Logik, Problemlösung und kreativem Denken aus, die nahe an menschliche Leistungen heranreichen oder diese in bestimmten Bereichen sogar übertreffen. Frontier-Modelle wie GPT, Claude oder Gemini stellen die Spitze der KI-Forschung dar und werden oft als "Foundation Models" bezeichnet, da sie als Grundlage für verschiedene spezialisierte Anwendungen dienen können. Mit ihrer enormen Parameteranzahl und fortschrittlichen Architektur werfen diese Modelle auch komplexe ethische, sicherheitstechnische und gesellschaftliche Fragen auf, da ihre Fähigkeiten sowohl große Chancen als auch potenzielle Risiken mit sich bringen.

Offene Modelle

Schweiz

Apertus

Apertus ist ein Large Language Model, das von der ETH Zürich, der EPFL Lausanne und dem Schweizerischen Supercomputing-Zentrum CSCS entwickelt wurde.

Das am 2. September 2025 veröffentlichte Computerprogramm wurde auf 15 Billionen Worteinheiten aus mehr als 1000 Sprachen trainiert, wobei 40 Prozent der Trainingsdaten nicht englischsprachig sind. Tatsächlich unterstützt Apertus nach aktuellen Angaben sogar 1811 Sprachen nativ, was es zu einem der vielsprachigsten Sprachmodelle macht.

Das Modell existiert in zwei Varianten mit 8 und 70 Milliarden Parametern, wobei die kleinere Version für individuelle Nutzung geeignet ist. Beide Versionen sind seit dem 2. September 2025 über die Plattform Hugging Face kostenlos verfügbar. Das Modell kann Texte zusammenfassen, übersetzen und als Grundlage für die Entwicklung von Chatbots, Übersetzungssystemen oder digitalen Lernwerkzeugen dienen.

Eine strategische Partnerschaft besteht bereits mit Swisscom, die das Modell über ihre Swiss AI Platform für Geschäftskunden anbietet.

Anders als kommerzielle Modelle sind bei Apertus Architektur, Trainingsdaten, Modellgewichte und der gesamte Entwicklungsprozess vollständig transparent und öffentlich zugänglich. Alle Komponenten werden unter einer permissiven Open-Source-Lizenz veröffentlicht, die auch kommerzielle Nutzung erlaubt. Diese Transparenz unterscheidet Apertus grundlegend von proprietären Systemen großer Technologieunternehmen, deren Entwicklungsprozesse oft undurchsichtig bleiben.

Eine Besonderheit liegt in der umfassenden Unterstützung unterrepräsentierter Sprachen wie Schweizerdeutsch und Rätoromanisch, die in anderen Large Language Models deutlich weniger präsent sind. Diese Mehrsprachigkeit macht Apertus besonders wertvoll für Anwendungen in der mehrsprachigen Schweiz und anderen vielsprachigen Regionen.

Die Entwicklung erfolgte auf dem Supercomputer Alps am CSCS in Lugano, einem der weltweit leistungsstärksten KI-Supercomputer. Das System basiert auf moderner NVIDIA-Hardware und wird mit erneuerbarer Energie betrieben, wodurch das Training klimafreundlich gestaltet wurde.

Besondere Aufmerksamkeit wurde den rechtlichen Rahmenbedingungen gewidmet: Die Entwicklung erfolgte unter strikter Einhaltung der Schweizer Datenschutzgesetze, des Schweizer Urheberrechts und der Transparenzanforderungen der EU-KI-Verordnung. Apertus ist als eines der ersten großen Sprachmodelle vollständig konform mit dem EU AI Act. Das Trainingskorpus basiert ausschließlich auf öffentlich zugänglichen Daten, wobei Opt-out-Anfragen von Websites respektiert und personenbezogene Daten systematisch entfernt wurden.

Apertus ist über Hugging Face kostenlos verfügbar und soll als öffentliche Infrastruktur die digitale Souveränität der Schweiz stärken sowie Innovationen im KI-Bereich ermöglichen. Das Modell wird regelmäßig vom Entwicklungsteam aktualisiert und soll als Grundlage für weitere Innovationen in Forschung, Gesellschaft und Wirtschaft dienen.

Mittlerer Osten

Falcon

Die Falcon-Produktfamilie ist eine Reihe von Open-Source-Sprachmodellen, die vom Technology Innovation Institute (TII) in Abu Dhabi entwickelt wurden und verschiedene Modellgrößen umfassen. Die Modelle wurden für eine breite Palette von NLP-Aufgaben wie Sprachverständnis, Textgenerierung und Codeverarbeitung optimiert und sind in unterschiedlichen Varianten wie Base- und Instruct-Modellen verfügbar. Sie basieren auf transformerbasierten Architekturen und wurden auf großen Datenmengen trainiert, um vielseitige Anwendungsmöglichkeiten in Forschung und Industrie zu ermöglichen.

Die Falcon-Produktfamilie ist eine Reihe von Open-Source-Sprachmodellen, die vom Technology Innovation Institute (TII) in Abu Dhabi entwickelt wurden und verschiedene Modellgrößen umfassen. Die aktuelle Produktfamilie besteht aus Falcon 3 mit seinen multimodalen Erweiterungen, Falcon Mamba 7B, Falcon 2, Falcon 180B, Falcon 40B sowie kleineren Varianten mit 7,5B und 1,3B Parametern.

Die im Januar 2025 veröffentlichten multimodalen Falcon 3-Modelle verarbeiten Text-, Bild-, Video- und Audiodaten in einer integrierten Architektur. Diese Erweiterung der ursprünglichen Falcon 3-Textmodelle, die im Dezember 2024 vorgestellt wurden, bietet zusätzliche Funktionalität für verschiedene Anwendungsbereiche.

Die Modelle basieren auf unterschiedlichen Architekturen. Die älteren Modelle nutzen transformerbasierte Architekturen, während das Falcon Mamba 7B eine State Space Language Model (SSLM)-Architektur verwendet, die mit großen Kontextfenstern arbeitet. Die multimodalen Falcon 3-Varianten verarbeiten verschiedene Medientypen und wurden in Benchmarks mit Modellen anderer Anbieter wie Meta, Google und Mistral verglichen.

Die Trainingsgrößen umfassen 14 Billionen Token für Falcon 3, 5,5 Billionen für Falcon 2 und 3,5 Billionen Token für Falcon 180B. Alle Modelle sind unter verschiedenen Open-Source-Lizenzen verfügbar, die auf der Apache 2.0-Lizenz basieren und von TII mit Richtlinien zur KI-Nutzung ergänzt wurden.

GLM

GLM 4.5 ist ein Large Language Model der chinesischen Firma Zhipu AI (seit Juli 2025 als Z.ai rebrandet), das zur GLM-Serie (General Language Model) gehört. Das im Juli 2025 veröffentlichte Modell basiert auf einer hochmodernen Mixture-of-Experts (MoE) Architektur und wurde mit großen Mengen an Textdaten trainiert, um menschenähnliche Sprache zu verstehen und zu generieren. GLM 4.5 kann verschiedene Aufgaben bewältigen, darunter Textgenerierung, Übersetzungen, Zusammenfassungen und Beantwortung von Fragen.

Die Bezeichnung "4.5" kennzeichnet die neueste Version innerhalb der GLM-Modellfamilie, wobei höhere Zahlen meist auf verbesserte Fähigkeiten hindeuten. Das Modell nutzt 355 Milliarden Gesamtparameter, von denen 32 Milliarden pro Anfrage aktiv sind - ein System einstellbarer Werte, die während des Trainings optimiert werden, um Sprachmuster zu erlernen. Zusätzlich existiert GLM 4.5-Air als leichtere Variante mit 106 Milliarden Gesamtparametern und 12 Milliarden aktiven Parametern.

GLM 4.5 steht in direkter Konkurrenz zu anderen großen Sprachmodellen wie GPT von OpenAI oder Claude von Anthropic. Besonders hervorzuheben ist das agentische Design des Modells, das speziell für intelligente KI-Agenten entwickelt wurde und zwei Modi bietet: einen "Thinking"-Modus für komplexe Reasoning-Aufgaben und einen "Non-Thinking"-Modus für schnelle Antworten.

Das Modell wird sowohl für Forschungszwecke als auch für kommerzielle Anwendungen eingesetzt und steht unter der MIT-Lizenz vollständig als Open-Source zur Verfügung.

KIMI

KIMI ist ein Large Language Model (LLM), entwickelt vom chinesischen Technologieunternehmen Moonshot AI. Es kann Texte in verschiedenen Sprachen verarbeiten und darauf basierend Antworten generieren. Die aktuelle Version K2 unterstützt einen Kontextbereich von 128 000 Tokens (entspricht grob mehreren hundert Seiten Text) in einem einzigen Vorgang – deutlich mehr als bei den meisten anderen Sprachmodellen.

Das Modell nutzt eine Transformer-Architektur mit 61 Transformer-Layern und 64 Attention-Heads. Es ist als Mixture-of-Experts (MoE)-System aufgebaut, mit 1 Billion (1 Trillion) Gesamtparametern, von denen bei jeder Anfrage etwa 32 Milliarden aktiv sind. Insgesamt verfügt es über 384 Experten, wovon jeweils 8 pro Token genutzt werden.

KIMI K2 wird für Aufgaben wie Textzusammenfassung, Übersetzung sowie für die Beantwortung komplexer Fragen zu umfangreichen Dokumenten eingesetzt. Die neueste Version ist speziell für autonome Problemlösung („agentic intelligence“) entwickelt: Sie kann Tools einbinden, Code ausführen und komplexe Arbeitsabläufe selbstständig durchführen. Der erweiterte Kontextbereich ermöglicht die Verarbeitung kompletter Bücher oder wissenschaftlicher Arbeiten.

Während KIMI ursprünglich für den chinesischen Markt konzipiert wurde, ist K2 mehrsprachig und als Open-Source-Modell international verfügbar. Es kann kostenlos genutzt werden (z. B. über Hugging Face oder die Moonshot-Plattform), wobei für professionelle Anwendungen auch bezahlte API-Pläne existieren.

DeepSeek

DeepSeek ist ein chinesisches Unternehmen, das KI-Technologien und Sprachmodelle entwickelt. Es setzt auf Optimierungsmethoden wie sparsames Training und spezialisierte Algorithmen, um leistungsfähige Modelle mit begrenzten Ressourcen zu erstellen.

Das Unternehmen nutzt eine Mixture-of-Experts-Architektur (MoE), die die effiziente Nutzung von Rechenressourcen ermöglicht. Die aktuelle Version DeepSeek V3 (von März 2025) besitzt 671 Milliarden Parameter, von denen pro Token nur 37 Milliarden aktiviert werden. Dies erlaubt eine deutlich effizientere Nutzung von Hardware-Ressourcen. Im März 2025 erschien zudem eine verbesserte Version (DeepSeek-V3-0324), die sogar auf leistungsstarken einzelnen Systemen wie einem Mac Studio betrieben werden kann.

Die Modelle wurden mit 14,8 Billionen Token trainiert. Der Trainingsprozess benötigte 2,788 Millionen GPU-Stunden auf NVIDIA H800 GPUs. Neben V3 bietet DeepSeek auch das speziell für logisches Denken optimierte Modell DeepSeek-R1 an.

Qwen

Qwen ist eine Serie fortschrittlicher Sprachmodelle, die von der Alibaba Group entwickelt wurden. Die aktuellste Generation ist Qwen3, die Ende April 2025 veröffentlicht wurde und in verschiedenen Größen von 0,6 bis 235 Milliarden Parametern angeboten wird. Diese Modellreihe umfasst sowohl klassische als auch Mixture-of-Experts (MoE) Modelle, wobei das Flaggschiff Qwen3-235B-A22B insgesamt 235 Milliarden Parameter besitzt, aber nur etwa 22 Milliarden pro Anfrage aktiviert.

Qwen3 unterstützt 119 Sprachen und bietet einen hybriden Ansatz mit einem umschaltbaren "Denkmodus" für komplexe Aufgaben. Die Modelle sind als Open-Source unter der Apache 2.0-Lizenz verfügbar und zeichnen sich durch Fähigkeiten in Bereichen wie Sprachverständnis, Textgenerierung, Mehrsprachigkeit, Programmierung, Mathematik und logischem Denken aus.

GPT-OSS

Am 5. August 2025 stellte OpenAI GPT-OSS vor, eine Familie von zwei Open-Weight-Sprachmodellen, die unter der Apache 2.0-Lizenz verfügbar sind.

Die beiden Modelle - GPT-OSS-120b mit 117 Milliarden Parametern und GPT-OSS-20b mit 21 Milliarden Parametern - markieren OpenAIs Rückkehr zu offenen Modellen nach über fünf Jahren. Seit der Veröffentlichung von GPT-2 im Jahr 2019 hatte das Unternehmen ausschließlich geschlossene, proprietäre Modelle wie GPT-3, GPT-4 und die o-Serie entwickelt.

Die größere Variante GPT-OSS-120b läuft effizient auf einer einzelnen Unternehmens-GPU, während das kleinere Modell GPT-OSS-20b auf Consumer-Hardware mit nur 16 GB Speicher betrieben werden kann. Beide Modelle nutzen eine Mixture-of-Experts-Architektur und sind für Aufgaben wie logisches Schlussfolgern, Programmierung und den Einsatz von Werkzeugen optimiert.

Die Veröffentlichung erfolgte als Reaktion auf den wachsenden Wettbewerb durch Open-Source-Modelle aus China, wie DeepSeek R1 und Alibabas Qwen, sowie auf Druck der US-Regierung, mehr Technologie als Open Source zur Verfügung zu stellen.

Die Modelle sind über Plattformen wie Hugging Face frei verfügbar und können von Entwicklern, Forschern und Unternehmen heruntergeladen, angepasst und für eigene Zwecke eingesetzt werden.

Llama

Llama (Large Language Model Meta AI) ist eine Familie von Foundation Models, die von Meta entwickelt wurde. Meta verfolgt bei Llama einen Open-Source-Ansatz, der es Forschern und Entwicklern ermöglicht, die Modelle zu nutzen und weiterzuentwickeln.

Die Llama-Familie umfasst mehrere Generationen. Die Llama 3 Modelle sind in verschiedenen Größen verfügbar, darunter Varianten mit 8 Milliarden und 70 Milliarden Parametern. Die aktuellste Version dieser Generation ist Llama 3.3, während die größte Variante das Llama 3.1 mit 405 Milliarden Parametern ist. Diese Modelle können auch in der EU verwendet werden und stehen europäischen Forschern und Entwicklern zur Verfügung.

Die neueste Generation ist Llama 4, die im April 2025 vorgestellt wurde und aus drei Hauptmodellen besteht: Llama 4 Scout (109 Milliarden Parameter insgesamt, 17 Milliarden aktiv), Llama 4 Maverick (400 Milliarden Parameter insgesamt) und das noch in Entwicklung befindliche Llama 4 Behemoth (2 Billionen Parameter). Alle Modelle basieren auf einer Mixture-of-Experts-Architektur und bieten multimodale Fähigkeiten. Die Modelle unterstützen rund 200 Sprachen und sind für verschiedene Anwendungsfälle konzipiert.

Bei den Llama 4 Modellen hat Meta allerdings Einschränkungen für die EU eingeführt. Unternehmen mit Sitz in der EU sowie Einzelpersonen mit Wohnsitz in der EU sind von der Nutzung der Llama 4 Modelle ausgeschlossen. Diese Lizenzeinschränkungen stehen im Zusammenhang mit den komplexen regulatorischen Anforderungen in Europa, insbesondere dem AI Act und anderen Datenschutzbestimmungen.

Proprietär

Ein proprietäres Foundation Model ist ein grundlegendes KI-Modell, dessen Quellcode, Architektur, Trainingsdaten und Gewichte nicht öffentlich zugänglich sind und exklusiv von einem Unternehmen kontrolliert werden. Bekannte Beispiele sind GPT von OpenAI oder Claude von Anthropic, die zwar kommerziell genutzt werden können, aber deren innere Funktionsweise und Training ein Geschäftsgeheimnis bleiben und nicht von Dritten eingesehen oder modifiziert werden können.

China

Ernie

Die ERNIE-Modelle von Baidu, kurz für 'Enhanced Representation through Knowledge Integration', sind KI-Systeme, die auf die Verarbeitung und Analyse natürlicher Sprache spezialisiert sind. Baidu entwickelt diese Modellreihe bereits seit 2019 kontinuierlich weiter.

Am 16. März 2025 hat Baidu die neueren Versionen ERNIE 4.5 und ERNIE X1 herausgebracht. Später, am 25. April 2025, folgten dann die verbesserten Turbo-Versionen ERNIE 4.5 Turbo und ERNIE X1 Turbo, die schneller arbeiten und deutlich günstiger sind.

ERNIE 4.5 ist ein multimodales Modell und wurde mit Techniken wie 'FlashMask' Dynamic Attention Masking, Heterogeneous Multimodal Mixture-of-Experts und Spatiotemporal Representation Compression trainiert.

ERNIE X1 ist auf tiefgehendes logisches Denken und komplexe Berechnungen spezialisiert und unterstützt verschiedene Tools wie erweiterte Suche, Q&A auf Dokumentenbasis, Bildinterpretation, Codeausführung und Webseitenanalyse.

Beide Modelle sind für Privatnutzer kostenlos über den ERNIE Bot zugänglich. Laut Ankündigung soll ERNIE 4.5 ab dem 30. Juni 2025 als Open-Source-Modell verfügbar gemacht werden.

Europa

Mistral

Die Foundation-Modelle der Firma Mistral zeichnen sich durch ihre Effizienz und Vielseitigkeit aus und decken sowohl textbasierte als auch multimodale Anwendungen ab. Modelle wie Mistral Large 2 (123 Milliarden Parameter) bieten NLP-Fähigkeiten mit großen Kontextfenstern, während Pixtral Large (124 Milliarden Parameter) durch die Verarbeitung von Text- und Bilddaten den Bereich der Multimodalität adressiert. Diese Modelle dienen als Grundlage für spezialisierte Anwendungen und ermöglichen es Entwicklern, KI-Lösungen für unterschiedliche Anforderungen zu erstellen.

Mistral Large 2 und Pixtral Large sind unter der Mistral Research License veröffentlicht, die die Nutzung und Modifikation für Forschungs- und nicht-kommerzielle Zwecke erlaubt. Für kommerzielle Anwendungen ist der Erwerb einer separaten Mistral Commercial License erforderlich. Nur bestimmte Modelle von Mistral AI, wie Mistral NeMo, sind unter der Apache 2.0-Lizenz als vollwertige Open-Source-Modelle verfügbar. Diese unterschiedlichen Lizenzmodelle bestimmen die möglichen Einsatzbereiche und Nutzungsbedingungen der Modelle.

USA

Grok

Grok, entwickelt von xAI, ist ein multimodaler KI-Assistent, der Texte verstehen und generieren, Bilder analysieren sowie Bilder und Videos erstellen kann. Er ist direkt in X (ehemals Twitter) integriert und zusätzlich als eigenständige App für iOS (seit 9. Januar 2025) und Android (seit Februar 2025) verfügbar. Für Premium-Abonnenten stehen erweiterte Funktionen zur Verfügung.

Die Version Grok-3 wurde am 17. Februar 2025 veröffentlicht und auf dem Colossus-Supercluster mit rund 200.000 GPUs trainiert. Sie bietet u. a. den DeepSearch-Agenten für gezielte Internet- und X-Recherchen sowie verschiedene Reasoning-Modi wie den Think- und Big Brain-Modus für komplexe Problemlösungen. Eine Besonderheit ist der Echtzeitzugriff auf aktuelle Daten aus dem Internet und der X-Plattform.

Für die Bildgenerierung setzt Grok das hauseigene Aurora-Modell ein. Nutzer können zwischen einer kostenlosen Version mit eingeschränkten Funktionen und mehreren kostenpflichtigen Abo-Modellen (u. a. X Premium+, SuperGrok) wählen.

Seit Juli 2025 ist Grok 4 verfügbar, das verbesserte Fähigkeiten in den Bereichen Reasoning, Coding, Bild- und Sprachausgabe bietet. Neu hinzugekommen sind u. a. der Voice-Assistent „Eve“, das Video-Erstellungstool Grok Imagine mit optionalem „Spicy“-Modus sowie interaktive Companion-Avatare.

Gemini

Hier ist eine korrigierte und aktualisierte Version des Textes, die alle geprüften Fakten berücksichtigt, in einem sachlich-neutralen Stil:

Die Gemini-Modellfamilie wurde von Google DeepMind entwickelt. Sie ist von Grund auf multimodal konzipiert, das heißt, die Modelle können verschiedene Arten von Eingaben wie Text, Bilder, Audio und Video gleichzeitig verarbeiten und verstehen. Im Gegensatz zu anderen Systemen, bei denen solche Fähigkeiten nachträglich ergänzt wurden, basiert Gemini auf einem einheitlichen Architekturansatz.

Bei der Einführung betonte Google, dass Gemini nicht aus separaten Komponenten für unterschiedliche Modalitäten zusammengesetzt wurde, sondern als integriertes System konzipiert ist. Im Verlauf der Weiterentwicklung wurden die Modelle um ein Kontextfenster von bis zu 1 Million Tokens erweitert, um umfangreiche Datenmengen verarbeiten zu können. Eine Ausweitung auf bis zu 2 Millionen Tokens ist angekündigt, aber noch nicht allgemein verfügbar.

Zu den weiteren Funktionserweiterungen gehört die Multimodal Live API, die eine Verarbeitung von Sprache, Video und räumlichen Informationen in Echtzeit ermöglicht. Im März 2025 wurde Gemini 2.5 veröffentlicht, das sogenannte „Thinking“-Fähigkeiten eingeführt hat – also die Fähigkeit, komplexe Probleme in mehreren Denkschritten zu analysieren, bevor eine Antwort generiert wird.

Gemini 2.5 Pro verfügt über ein Kontextfenster von 1 Million Tokens. Auf der Entwicklerkonferenz Google I/O 2025 kündigte Google den „Deep Think“-Modus an, der für besonders anspruchsvolle Aufgaben wie Programmierung oder mathematische Beweisschritte gedacht ist. Ebenfalls vorgestellt wurde Gemini 2.5 Flash, eine schnellere Variante, die ab Juni 2025 das neue Standardmodell darstellen soll.

Die Gemini-Modelle können multimodale Eingaben verarbeiten und – in bestimmten Versionen – auch entsprechende Ausgaben erzeugen. Dazu zählen beispielsweise Texte mit integrierten Bildern oder generierte Sprachausgabe mit steuerbarer Intonation, Geschwindigkeit und Stil. Die breite Verfügbarkeit der Gemini-2.5-Modelle ist für Juni 2025 vorgesehen.

Möchten Sie diesen Text in einem bestimmten Format (z. B. als Pressemitteilung, Blogpost oder Lexikon-Eintrag) oder mit stilistischen Anpassungen?

Claude

Claude ist ein leistungsstarker KI-Assistent von Anthropic, der Teil der Claude 4-Modellfamilie ist und für seine Fähigkeit bekannt ist, komplexe Aufgaben zu bewältigen. Die aktuelle Modellfamilie umfasst Claude Opus 4.1 und 4 sowie Claude Sonnet 4.5 und 4. Claude Sonnet 4.5, das im September 2025 veröffentlicht wurde, ist Anthropics smartestes und leistungsfähigstes Modell mit der höchsten Intelligenz über die meisten Aufgaben hinweg.

Die Modelle können zwischen schnellen Antworten und ausführlichem, schrittweisem Denken wechseln, wobei sie sich besonders durch verbesserte Coding-Fähigkeiten und erweiterte Agenten-Funktionalitäten auszeichnen.

Claude wurde mit dem "Constitutional AI"-Ansatz entwickelt, einer innovativen Trainingsmethode, bei der das Modell anhand expliziter Grundprinzipien oder "Verfassungen" trainiert wird, die ethische Leitlinien und Verhaltensregeln definieren. Dieser Ansatz umfasst ein zweistufiges Verfahren, bei dem das Modell lernt, problematische Ausgaben zu erkennen und selbstständig zu verbessern. Constitutional AI geht über herkömmliches Reinforcement Learning from Human Feedback hinaus, indem während der Trainingsphase das Modell lernt, seine eigenen Antworten kritisch zu reflektieren und an definierten Werten auszurichten.

Anthropic hat diesen Ansatz zusätzlich durch "Collective Constitutional AI" erweitert. Dabei wurden etwa 1.000 repräsentativ ausgewählte US-Amerikaner über eine Online-Plattform eingeladen, Verhaltensregeln für ein KI-System vorzuschlagen und darüber abzustimmen. Die Teilnehmer konnten konkrete Prinzipien formulieren, wie sich die KI verhalten sollte - beispielsweise beim Umgang mit kontroversen Themen oder ethischen Fragen. Aus diesem demokratischen Prozess entstand eine von der Öffentlichkeit mitgestaltete "Verfassung", die dann zum Training eines neuen KI-Modells verwendet wurde. Dadurch soll Claude hilfreich, harmlos und ehrlich bleiben, während gleichzeitig die Vielseitigkeit und Leistungsfähigkeit des Modells erhalten bleibt.

GPT

GPT (Generative Pre-trained Transformer) bezeichnet eine Reihe von Sprachmodellen, die von OpenAI auf Basis der Transformer-Architektur entwickelt wurden. Die erste Version erschien 2018. Neuere Modelle verarbeiten Text, erstellen Programme und können mit verschiedenen Medienformaten arbeiten. GPT-Modelle werden mit einer Methode trainiert, bei der sie selbstständig aus großen Textmengen lernen, ohne dass jeder Lernschritt von Menschen überwacht werden muss. Dadurch erkennen sie Sprachmuster und generieren kontextbezogene Inhalte. Anwendungsbereiche umfassen Chatbots, Übersetzungen, Content-Erstellung und Programmierunterstützung. Aktuell bestehen zwei Modellreihen:

Klassische GPT-Modelle: GPT-4o (Mai 2024) ermöglicht Echtzeitkommunikation und arbeitet mit verschiedenen Medienformaten. GPT-4.5 (Februar 2025) fokussierte auf natürlichere Gesprächsführung, wurde jedoch im Juli 2025 aus der API entfernt. GPT-4.1 (April 2025) kann bis zu 1 Million Tokens verarbeiten und ist besonders für Programmieraufgaben optimiert. Mit der Veröffentlichung von GPT-5 im August 2025 wurden diese älteren Modelle aus dem ChatGPT-Interface entfernt, bleiben aber über die API verfügbar.

O-Serie: Diese Modelle wurden für analytisches Denken konzipiert, sogenanntes Reasoning. o1 (September 2024) war das erste Modell dieser Reihe. o3-mini erschien im Januar 2025, gefolgt von o3 und o4-mini im April 2025. Die Modelle arbeiten mit einem Prozess, bei dem sie ihre internen Verarbeitungsschritte durchgehen, bevor sie antworten. Die neuesten Modelle können auch 'mit Bildern denken', also visuelle Informationen direkt in ihren Denkprozess integrieren.

GPT-5: Am 7. August 2025 veröffentlichte OpenAI GPT-5, das beide Modellreihen-Ansätze vereint. Nach aktuellen Angaben von OpenAI-CEO Sam Altman kombiniert GPT-5 die Geschwindigkeit klassischer GPT-Modelle mit den Reasoning-Fähigkeiten der O-Serie. Das Modell entscheidet automatisch, wann intensive Denkprozesse erforderlich sind und wann schnelle Antworten ausreichen. GPT-5 ist für alle Nutzer verfügbar, wobei kostenpflichtige Abonnenten Zugang zu leistungsstärkeren Varianten erhalten.

hennig.ai v2.6.4 - Fortgeschrittene

Die Navigationskarte für generative künstliche Intelligenz2.6.4