Die Navigationskarte für Generative Künstliche Intelligenz
v2.1.0

Die Navigationskarte für Generative Künstliche Intelligenz
v2.1.0

r

Generative KI (auf Englisch Generative Artifical Intelligence, kurz GenAI) ist ein Teilbereich der Künstlichen Intelligenz, der darauf spezialisiert ist, neue Inhalte wie Texte, Bilder, Musik oder Code zu erschaffen, indem er aus großen Datenmengen lernt und daraus eigenständig neue, ähnliche Muster generiert. Während der Oberbegriff Künstliche Intelligenz alle Systeme umfasst, die menschenähnliche Intelligenzleistungen erbringen können - wie etwa Sprache verstehen, logische Schlüsse ziehen oder Muster erkennen - konzentriert sich generative KI speziell auf den kreativen Aspekt der Inhaltserstellung.

KI-Modelle

r

Generative KI-Modelle lassen sich grob in zwei Kategorien einteilen: Unimodale Modelle, die auf eine bestimmte Art von Eingaben spezialisiert sind (wie reine Sprachmodelle für Text oder spezialisierte Bildgenerierungsmodelle), und multimodale Modelle, die mehrere Arten von Eingaben gleichzeitig verarbeiten können (Text, Bilder, Audio oder Video). Der Trend in der Entwicklung geht dabei stark in Richtung multimodaler Modelle, da diese vielseitiger einsetzbar sind und näher an der menschlichen Art der Informationsverarbeitung liegen, indem sie verschiedene Eingabeformen verstehen und miteinander in Beziehung setzen können. Mittlerweile ist das Angebot von KI-Modellen förmlich explodiert und unüberschaubar geworden. Deshalb werden hier nur die aus Sicht des Autors interessantesten Modelle aufgeführt.

Frontier-Modelle

r

Ein Frontier Modell bezeichnet die fortschrittlichsten und leistungsfähigsten künstlichen Intelligenzen, die die technologischen Grenzen ihrer Zeit repräsentieren. Diese Systeme zeichnen sich durch außergewöhnliche Fähigkeiten in Bereichen wie Sprache, Logik, Problemlösung und kreativem Denken aus, die nahe an menschliche Leistungen heranreichen oder diese in bestimmten Bereichen sogar übertreffen. Frontier-Modelle wie GPT, Claude oder Gemini stellen die Spitze der KI-Forschung dar und werden oft als "Foundation Models" bezeichnet, da sie als Grundlage für verschiedene spezialisierte Anwendungen dienen können. Mit ihrer enormen Parameteranzahl und fortschrittlichen Architektur werfen diese Modelle auch komplexe ethische, sicherheitstechnische und gesellschaftliche Fragen auf, da ihre Fähigkeiten sowohl große Chancen als auch potenzielle Risiken mit sich bringen.

Proprietär

r

Ein proprietäres Foundation Model ist ein grundlegendes KI-Modell, dessen Quellcode, Architektur, Trainingsdaten und Gewichte nicht öffentlich zugänglich sind und exklusiv von einem Unternehmen kontrolliert werden. Bekannte Beispiele sind GPT von OpenAI oder Claude von Anthropic, die zwar kommerziell genutzt werden können, aber deren innere Funktionsweise und Training ein Geschäftsgeheimnis bleiben und nicht von Dritten eingesehen oder modifiziert werden können.

USA

GPT

r

GPT (Generative Pre-trained Transformer) bezeichnet eine Reihe von Sprachmodellen, die von OpenAI auf Basis der Transformer-Architektur entwickelt wurden. Die erste Version erschien 2018. Neuere Modelle verarbeiten Text, erstellen Programme und können mit verschiedenen Medienformaten arbeiten. GPT-Modelle werden mit einer Methode trainiert, bei der sie selbstständig aus großen Textmengen lernen, ohne dass jeder Lernschritt von Menschen überwacht werden muss. Dadurch erkennen sie Sprachmuster und generieren kontextbezogene Inhalte. Anwendungsbereiche umfassen Chatbots, Übersetzungen, Content-Erstellung und Programmierunterstützung. Aktuell bestehen zwei Modellreihen:Klassische GPT-Modelle: GPT-4o (Mai 2024) ermöglicht Echtzeitkommunikation und arbeitet mit verschiedenen Medienformaten. GPT-4.5 (Februar 2025) fokussierte auf natürlichere Gesprächsführung, wurde jedoch im April 2025 (allerdings nur in der API) durch GPT-4.1 ersetzt. GPT-4.1 (April 2025) kann bis zu 1 Million Tokens verarbeiten und ist besonders für Programmieraufgaben optimiert.O-Serie: Diese Modelle wurden für analytisches Denken konzipiert, sogenanntes Reasoning. o1 (September 2024), o3 und o4-mini (April 2025) arbeiten mit einem Prozess, bei dem sie ihre internen Verarbeitungsschritte durchgehen, bevor sie antworten. Die neuesten Modelle können auch 'mit Bildern denken', also visuelle Informationen direkt in ihren Denkprozess integrieren.OpenAI beabsichtigt, bei zukünftigen Entwicklungen Elemente beider Modellreihen zu integrieren und dabei effizientere Verarbeitungsmethoden zu implementieren. Das kommende GPT-5 soll laut OpenAI-CEO Sam Altman beide Ansätze vereinen und wird für die zweite Jahreshälfte 2025 erwartet.

Claude

r

Claude ist ein leistungsstarker KI-Assistent von Anthropic, der Teil der Claude 3-Modellfamilie ist und für seine Fähigkeit bekannt ist, komplexe Aufgaben zu bewältigen. Die neueste Version, Claude 3.7 Sonnet, wurde am 24. Februar 2025 veröffentlicht und ist Anthropics erstes hybrides Reasoning-Modell, das zwischen schnellen Antworten und ausführlichem, schrittweisem Denken wechseln kann. Das Modell hat eine Wissensbasis bis Ende Oktober 2024 und zeichnet sich besonders durch verbesserte Coding-Fähigkeiten aus.Claude wurde mit dem "Constitutional AI"-Ansatz entwickelt, einer innovativen Trainingsmethode, bei der das Modell anhand expliziter Grundprinzipien oder "Verfassungen" trainiert wird, die ethische Leitlinien und Verhaltensregeln definieren. Dieser Ansatz umfasst ein zweistufiges Verfahren, bei dem das Modell lernt, problematische Ausgaben zu erkennen und selbstständig zu verbessern.Constitutional AI geht über herkömmliches Reinforcement Learning from Human Feedback hinaus, indem es dem Modell beibringt, seine eigenen Antworten kritisch zu reflektieren und an definierten Werten auszurichten. Im Jahr 2024 hat Anthropic diesen Ansatz durch "Collective Constitutional AI" erweitert, bei dem auch Eingaben der Öffentlichkeit zur Gestaltung der Grundprinzipien einbezogen werden. Dadurch soll Claude hilfreich, harmlos und ehrlich bleiben, während gleichzeitig die Vielseitigkeit und Leistungsfähigkeit des Modells erhalten bleibt.

Gemini

r

Die Gemini-Modellfamilie wurde von Google DeepMind entwickelt. Die Gemini-Modelle sind von Grund auf multimodal konzipiert, was bedeutet, dass Text, Bilder, Audio und Video gleichzeitig verarbeitet und verstanden werden können, im Gegensatz zu einigen anderen Modellen, die nachträglich um diese Fähigkeiten erweitert wurden.Die erste Version, Gemini 1.0, wurde im Dezember 2023 veröffentlicht und umfasste drei Varianten: Gemini Ultra für hochkomplexe Aufgaben, Gemini Pro für eine breite Palette von Anwendungen und Gemini Nano für geräteinterne Aufgaben. Bei der Einführung erklärte Google, dass Gemini nicht durch Zusammenfügen separater Komponenten für verschiedene Modalitäten entstanden sei, sondern von Anfang an darauf ausgelegt war, verschiedene Informationstypen zu verarbeiten.Im Laufe des Jahres 2024 folgten Updates wie Gemini 1.5 mit einem Kontextfenster von 1 Million Tokens für die Verarbeitung umfangreicher Datenmengen. Im Dezember 2024 wurde Gemini 2.0 veröffentlicht mit einer Multimodal Live API für Echtzeit-Audio- und Videointeraktionen sowie verbessertem räumlichen Verständnis.Die aktuelle Version, Gemini 2.5 (März 2025), führte 'Thinking'-Fähigkeiten ein – die Möglichkeit, über Probleme schrittweise nachzudenken, bevor eine Antwort gegeben wird. Gemini 2.5 hat ein Kontextfenster von 1 Million Tokens mit geplanter Erweiterung auf 2 Millionen Tokens.Die Gemini-Modelle können nicht nur verschiedene Eingaben verarbeiten, sondern auch multimodale Ausgaben erzeugen, wie Text mit integrierten Bildern oder steuerbarer Sprachausgabe

Grok

r

Grok, entwickelt von xAI, kann Texte verstehen und generieren sowie Bilder analysieren. Es ist in X (ehemals Twitter) integriert und steht Premium+-Abonnenten mit erweiterten Funktionen zur Verfügung. Die aktuelle Version, Grok-3, wurde im Februar 2025 veröffentlicht und nutzt das "Colossus" Rechenzentrum mit etwa 200.000 GPUs.Grok-3 bietet Funktionen wie "DeepSearch" für gezielte Recherchen und "Denkmodus" für Problemlösungen. Das Modell wurde mit verschiedenen Arten von Datensätzen trainiert, darunter auch juristische Dokumente. Eine Besonderheit von Grok ist der Echtzeitzugriff auf aktuelle Daten aus dem Internet und der X-Plattform. Dies ermöglicht es dem System, auf aktuelle Nachrichten, Trends und öffentliche Diskussionen zuzugreifen.Der Chatbot ist direkt in X integriert und zusätzlich als eigenständige App für iOS (seit Januar 2025) und Android (seit Februar 2025) verfügbar. Die iOS-App erfordert iOS 17 oder neuer. Für die Bildgenerierung nutzt Grok das hauseigene Aurora-Modell.Nutzer können zwischen einer kostenlosen Version mit begrenzten Funktionen und verschiedenen Premium-Abonnements wählen.

a

Europa

Mistral

r

Die Foundation-Modelle der Firma Mistral zeichnen sich durch ihre Effizienz und Vielseitigkeit aus und decken sowohl textbasierte als auch multimodale Anwendungen ab. Modelle wie Mistral Large 2 (123 Milliarden Parameter) bieten NLP-Fähigkeiten mit großen Kontextfenstern, während Pixtral Large (124 Milliarden Parameter) durch die Verarbeitung von Text- und Bilddaten den Bereich der Multimodalität adressiert. Diese Modelle dienen als Grundlage für spezialisierte Anwendungen und ermöglichen es Entwicklern, KI-Lösungen für unterschiedliche Anforderungen zu erstellen.Mistral Large 2 und Pixtral Large sind unter der Mistral Research License veröffentlicht, die die Nutzung und Modifikation für Forschungs- und nicht-kommerzielle Zwecke erlaubt. Für kommerzielle Anwendungen ist der Erwerb einer separaten Mistral Commercial License erforderlich. Nur bestimmte Modelle von Mistral AI, wie Mistral NeMo, sind unter der Apache 2.0-Lizenz als vollwertige Open-Source-Modelle verfügbar. Diese unterschiedlichen Lizenzmodelle bestimmen die möglichen Einsatzbereiche und Nutzungsbedingungen der Modelle.

China

Ernie

r

Die ERNIE-Modelle von Baidu, kurz für 'Enhanced Representation through Knowledge Integration', sind KI-Systeme, die auf die Verarbeitung und Analyse natürlicher Sprache spezialisiert sind. Baidu entwickelt diese Modellreihe bereits seit 2019 kontinuierlich weiter. Am 16. März 2025 hat Baidu die neueren Versionen ERNIE 4.5 und ERNIE X1 herausgebracht. Später, am 25. April 2025, folgten dann die verbesserten Turbo-Versionen ERNIE 4.5 Turbo und ERNIE X1 Turbo, die schneller arbeiten und deutlich günstiger sind.ERNIE 4.5 ist ein multimodales Modell und wurde mit Techniken wie 'FlashMask' Dynamic Attention Masking, Heterogeneous Multimodal Mixture-of-Experts und Spatiotemporal Representation Compression trainiert. ERNIE X1 ist auf tiefgehendes logisches Denken und komplexe Berechnungen spezialisiert und unterstützt verschiedene Tools wie erweiterte Suche, Q&A auf Dokumentenbasis, Bildinterpretation, Codeausführung und Webseitenanalyse.Beide Modelle sind für Privatnutzer kostenlos über den ERNIE Bot zugänglich. Laut Ankündigung soll ERNIE 4.5 ab dem 30. Juni 2025 als Open-Source-Modell verfügbar gemacht werden.

Offene Modelle

USA

Llama

r

Llama (Large Language Model Meta AI) ist eine Familie von Foundation Models, die von Meta entwickelt wurde. Meta verfolgt bei Llama einen Open-Source-Ansatz, der es Forschern und Entwicklern ermöglicht, die Modelle zu nutzen und weiterzuentwickeln.Die Llama-Familie umfasst mehrere Generationen. Die Llama 3 Modelle sind in verschiedenen Größen verfügbar, darunter Varianten mit 8 Milliarden und 70 Milliarden Parametern. Die aktuellste Version dieser Generation ist Llama 3.3, während die größte Variante das Llama 3.1 mit 405 Milliarden Parametern ist. Diese Modelle können auch in der EU verwendet werden und stehen europäischen Forschern und Entwicklern zur Verfügung.Die neueste Generation ist Llama 4, die im April 2025 vorgestellt wurde und aus drei Hauptmodellen besteht: Llama 4 Scout (109 Milliarden Parameter insgesamt, 17 Milliarden aktiv), Llama 4 Maverick (400 Milliarden Parameter insgesamt) und das noch in Entwicklung befindliche Llama 4 Behemoth (2 Billionen Parameter). Alle Modelle basieren auf einer Mixture-of-Experts-Architektur und bieten multimodale Fähigkeiten. Die Modelle unterstützen rund 200 Sprachen und sind für verschiedene Anwendungsfälle konzipiert. Bei den Llama 4 Modellen hat Meta allerdings Einschränkungen für die EU eingeführt. Unternehmen mit Sitz in der EU sowie Einzelpersonen mit Wohnsitz in der EU sind von der Nutzung der Llama 4 Modelle ausgeschlossen. Diese Lizenzeinschränkungen stehen im Zusammenhang mit den komplexen regulatorischen Anforderungen in Europa, insbesondere dem AI Act und anderen Datenschutzbestimmungen

China

Qwen

r

Qwen ist eine Serie fortschrittlicher Sprachmodelle, die von der Alibaba Group entwickelt wurden. Die aktuellste Generation ist Qwen3, die Ende April 2025 veröffentlicht wurde und in verschiedenen Größen von 0,6 bis 235 Milliarden Parametern angeboten wird. Diese Modellreihe umfasst sowohl klassische als auch Mixture-of-Experts (MoE) Modelle, wobei das Flaggschiff Qwen3-235B-A22B insgesamt 235 Milliarden Parameter besitzt, aber nur etwa 22 Milliarden pro Anfrage aktiviert.Die Vorgängerversion Qwen2.5 ist in Varianten von 0,5 bis 72 Milliarden Parametern erhältlich und umfasst spezialisierte Modelle wie Qwen2.5-VL für multimodale Verarbeitung und Qwen2.5-1M für lange Kontexte bis zu einer Million Token. Das Flaggschiffmodell Qwen2.5-Max wurde mit über 20 Billionen Token trainiert.Qwen3 unterstützt 119 Sprachen und bietet einen hybriden Ansatz mit einem umschaltbaren "Denkmodus" für komplexe Aufgaben. Die Modelle sind als Open-Source unter der Apache 2.0-Lizenz verfügbar und zeichnen sich durch Fähigkeiten in Bereichen wie Sprachverständnis, Textgenerierung, Mehrsprachigkeit, Programmierung, Mathematik und logischem Denken aus.

DeepSeek

r

DeepSeek ist ein chinesisches Unternehmen, das KI-Technologien und Sprachmodelle entwickelt. Es setzt auf Optimierungsmethoden wie sparsames Training und spezialisierte Algorithmen, um leistungsfähige Modelle mit begrenzten Ressourcen zu erstellen.Das Unternehmen nutzt eine Mixture-of-Experts-Architektur (MoE), die die effiziente Nutzung von Rechenressourcen ermöglicht. Die aktuelle Version DeepSeek V3 (von März 2025) besitzt 671 Milliarden Parameter, von denen pro Token nur 37 Milliarden aktiviert werden. Dies erlaubt eine deutlich effizientere Nutzung von Hardware-Ressourcen. Im März 2025 erschien zudem eine verbesserte Version (DeepSeek-V3-0324), die sogar auf leistungsstarken einzelnen Systemen wie einem Mac Studio betrieben werden kann.Die Modelle wurden mit 14,8 Billionen Token trainiert. Der Trainingsprozess benötigte 2,788 Millionen GPU-Stunden auf NVIDIA H800 GPUs. Neben V3 bietet DeepSeek auch das speziell für logisches Denken optimierte Modell DeepSeek-R1 an.

Mittlerer Osten

Falcon

r

Die Falcon-Produktfamilie ist eine Reihe von Open-Source-Sprachmodellen, die vom Technology Innovation Institute (TII) in Abu Dhabi entwickelt wurden und verschiedene Modellgrößen umfassen. Die Modelle wurden für eine breite Palette von NLP-Aufgaben wie Sprachverständnis, Textgenerierung und Codeverarbeitung optimiert und sind in unterschiedlichen Varianten wie Base- und Instruct-Modellen verfügbar. Sie basieren auf transformerbasierten Architekturen und wurden auf großen Datenmengen trainiert, um vielseitige Anwendungsmöglichkeiten in Forschung und Industrie zu ermöglichen.Die Falcon-Produktfamilie ist eine Reihe von Open-Source-Sprachmodellen, die vom Technology Innovation Institute (TII) in Abu Dhabi entwickelt wurden und verschiedene Modellgrößen umfassen. Die aktuelle Produktfamilie besteht aus Falcon 3 mit seinen multimodalen Erweiterungen, Falcon Mamba 7B, Falcon 2, Falcon 180B, Falcon 40B sowie kleineren Varianten mit 7,5B und 1,3B Parametern.Die im Januar 2025 veröffentlichten multimodalen Falcon 3-Modelle verarbeiten Text-, Bild-, Video- und Audiodaten in einer integrierten Architektur. Diese Erweiterung der ursprünglichen Falcon 3-Textmodelle, die im Dezember 2024 vorgestellt wurden, bietet zusätzliche Funktionalität für verschiedene Anwendungsbereiche.Die Modelle basieren auf unterschiedlichen Architekturen. Die älteren Modelle nutzen transformerbasierte Architekturen, während das Falcon Mamba 7B eine State Space Language Model (SSLM)-Architektur verwendet, die mit großen Kontextfenstern arbeitet. Die multimodalen Falcon 3-Varianten verarbeiten verschiedene Medientypen und wurden in Benchmarks mit Modellen anderer Anbieter wie Meta, Google und Mistral verglichen.Die Trainingsgrößen umfassen 14 Billionen Token für Falcon 3, 5,5 Billionen für Falcon 2 und 3,5 Billionen Token für Falcon 180B. Alle Modelle sind unter verschiedenen Open-Source-Lizenzen verfügbar, die auf der Apache 2.0-Lizenz basieren und von TII mit Richtlinien zur KI-Nutzung ergänzt wurden.

SLMs/Lightweight LLMs

USA

Llama

r

Die Lightweight-Modelle von Llama, darunter die Varianten mit 1B, 3B und 11B Parametern, sind darauf ausgelegt, effiziente KI-Lösungen mit geringeren Hardwareanforderungen bereitzustellen. Das 1B- und 3B-Modell eignen sich besonders für Anwendungen auf Edge-Geräten oder Mobilgeräten, da sie trotz ihrer Kompaktheit solide Sprachverarbeitungsfähigkeiten bieten. Das 11B-Modell kombiniert diese Effizienz mit einer höheren Leistung, wodurch es für anspruchsvollere Aufgaben und Domänen einsetzbar ist, ohne den Ressourcenverbrauch größerer Modelle wie Llama 2 70B oder Llama 3.2 zu benötigen.

Gemma

r

Die Familie der Gemma-KI-Modelle von Google umfasst offene KI-Modelle, die für verschiedene Anwendungen wie Text-zu-Text, Vision-Language und Codegenerierung entwickelt wurden. Diese Modelle basieren auf der gleichen Technologie wie die größeren Gemini-Modelle, sind jedoch leichter und können von Entwicklern angepasst werden. Sie sind in verschiedenen Größen verfügbar und können auf unterschiedlichen Geräten, einschließlich Notebooks und Mobilgeräten, ausgeführt werden. Die Gemma-Familie wird kontinuierlich erweitert, um neue Funktionen und verbesserte Leistung zu bieten, wobei sie sich besonders für einfachere Chatbots und spezifische Textarbeiten eignet. Gemma 3 ist die neueste Generation der Gemma-Modellfamilie und umfasst fünf Varianten mit Größen von 1B bis 27B Parametern. Diese Modelle unterstützen über 140 Sprachen und können Text, Bilder und kurze Videos verarbeiten. Sie bieten Funktionen wie Function Calling und strukturierte Ausgaben, was sie für automatisierte Aufgaben besonders geeignet macht. Gemma 3 zeichnet sich durch eine signifikant reduzierte Reproduktion von Text und persönlichen Daten aus, was die Sicherheit und Zuverlässigkeit der Modelle erhöht.

Phi-4

r

Phi-4 ist ein Small Language Model (SLM) mit wenigen Milliarden Parametern, das speziell für effiziente Sprachverarbeitung mit geringem Rechenaufwand entwickelt wurde. Es nutzt optimierte Architekturen und Trainingsmethoden, um trotz seiner kompakten Größe eine hohe Leistungsfähigkeit in Aufgaben wie Textverständnis, Codegenerierung und logischem Schlussfolgern zu bieten. Durch seine geringe Modellgröße kann Phi-4 auf lokalen Geräten oder kleineren Cloud-Instanzen ausgeführt werden, was es besonders für ressourcenschonende Anwendungen attraktiv macht.

Europa

Mistral 7B

r

Mistral 7B ist ein Lightweight LLM, das mit 7,3 Milliarden Parametern eine kompakte und effiziente Alternative zu größeren Sprachmodellen bietet. Trotz seiner kleineren Größe zeigt es in verschiedenen Benchmarks eine überdurchschnittliche Leistung und übertrifft oft sogar Modelle mit doppelt so vielen Parametern, wie Llama 2 13B. Durch seine optimierte Architektur ist Mistral 7B ressourcenschonend und eignet sich ideal für Anwendungen, die leistungsfähige Sprachverarbeitung auf begrenzter Hardware oder mit schnellen Inferenzzeiten erfordern.

Teuken-7B

r

Teuken-7B wurde im Rahmen des europäischen Forschungsprojekts OpenGPT-X entwickelt. Das Projekt wird vom deutschen Bundesministerium für Wirtschaft und Klimaschutz (BMWK) mit etwa 14 Millionen Euro gefördert. Ein Ziel des Projekts ist es, eine Alternative zu den dominierenden Sprachmodellen aus den USA zu schaffen. Teuken-7B zeichnet sich durch seine Fokussierung auf alle 24 offiziellen Sprachen der EU aus. Die Integration in Gaia-X, ein europäisches Ökosystem für Datenspeicherung und -verarbeitung, ermöglicht die Nutzung sensibler Unternehmens- und Forschungsdaten.

Mittlerer Osten

Falcon 3

r

Die Falcon 3-Familie umfasst vier Modellgrößen: Falcon3-1B, -3B, -7B und -10B, die vom Technology Innovation Institute entwickelt wurden und mit 14 Billionen Token trainiert wurden. Jedes Modell ist in einer Base-Variante für generische generative Aufgaben und einer Instruct-Variante für Konversationsanwendungen verfügbar, wobei auch quantisierte Versionen für ressourceneffiziente Implementierungen angeboten werden. Die Falcon 3-Modelle sind in mehreren Sprachen verfügbar, darunter Englisch, Französisch, Spanisch und Portugiesisch, und wurden entwickelt, um effizient auf leichter Infrastruktur, einschließlich Laptops, zu laufen.

Text-to-Text

r

Ein Text-to-Text Modell ist ein KI-System, das Text als Eingabe empfängt und Text als Ausgabe produziert. Diese Modelle sind darauf trainiert, verschiedene Textverarbeitungsaufgaben durchzuführen wie Übersetzungen, Zusammenfassungen, Frage-Antwort-Dialoge oder das Verfassen von Texten. Der Begriff "Text-to-Text" beschreibt dabei den grundlegenden Verarbeitungsprozess: Das Modell nimmt einen Text entgegen, verarbeitet diesen basierend auf seinem Training und generiert daraus einen neuen Text als Antwort. Die meisten modernen Sprachmodelle wie GPT oder Claude sind im Kern Text-to-Text Modelle, auch wenn sie inzwischen oft um weitere Fähigkeiten erweitert wurden.

Conversational AI

r

Conversational AI bezeichnet KI-Systeme, die darauf spezialisiert sind, natürliche Gespräche mit Menschen zu führen. Diese Systeme sind darauf ausgelegt: - Natürliche Sprache zu verstehen - Kontextrelevante Antworten zu geben - Gesprächsverläufe zu verfolgen - Angemessen auf unterschiedliche Gesprächssituationen zu reagieren Typische Anwendungen sind: - Chatbots - Virtuelle Assistenten - Kundenservice-Systeme - Dialogsysteme Moderne Conversational AI basiert meist auf Large Language Models, die durch spezielle Trainingsmethoden und Anpassungen für Dialoge optimiert wurden. Der Fokus liegt dabei auf der Fähigkeit, kohärente und kontextbezogene Gespräche zu führen, statt nur einzelne Fragen zu beantworten.

character.ai

r

Character.ai ist eine KI-Plattform, die es Nutzern ermöglicht, individuelle Chatbots zu erstellen und mit ihnen zu interagieren. Die zugrunde liegende Technologie basiert auf proprietären neuronalen Sprachmodellen, die speziell für die Generierung von Textantworten entwickelt wurden. Diese Modelle verarbeiten Texteingaben und generieren darauf basierend passende Textausgaben, was Character.ai zu einem Text-zu-Text-System macht. Die Plattform ermöglicht es, personalisierte KI-Charaktere zu erstellen, die von historischen Persönlichkeiten bis hin zu fiktiven Figuren reichen.

pi.ai

r

pi.ai ist ein KI-Chatbot, entwickelt von Inflection AI, der als persönlicher Assistent fungiert. Im Gegensatz zu anderen KI-Systemen legt Pi besonderen Wert auf empathische und natürliche Interaktionen, um als Coach, Vertrauter oder kreativer Partner zu dienen. Pi ist auf verschiedenen Plattformen verfügbar, darunter Desktop, iOS und Android, und kann ohne Registrierung genutzt werden.

Text-to-Media

r

Text-to-Media beschreibt KI-Modelle, die Texteingaben in verschiedene digitale Medienformate umwandeln können. Dies umfasst die Generierung von Bildern, Videos, Audio, 3D-Modellen, Animationen und anderen Medienformaten, wobei spezialisierte KI-Modelle die textuellen Beschreibungen interpretieren und in das jeweilige Zielformat übersetzen. Die breite Palette möglicher Ausgabeformate macht diese Technologie zu einem vielseitigen Werkzeug für kreative und professionelle Anwendungen.

Text-to-Image

r

Ein Text-to-Image-Modell wandelt natürlichsprachliche Textbeschreibungen (Prompts) in Bilder um, indem es aus einer großen Menge von Text-Bild-Paaren gelernt hat, welche visuellen Elemente zu bestimmten textuellen Beschreibungen gehören. Diese Modelle nutzen meist Diffusionstechnologien oder andere Deep-Learning-Architekturen, um schrittweise aus zufälligem Rauschen Bilder zu erzeugen, die der textuellen Eingabe entsprechen.

DALL-E

r

DALL·E, entwickelt von OpenAI, ist ein KI-Modell, das aus Textbeschreibungen realistische und kreative Bilder generiert. Es ist besonders vielseitig, kann komplexe Szenen und Stile darstellen und eignet sich sowohl für Kunstprojekte als auch für professionelle Visualisierungen. DALL·E bietet auch Funktionen wie die Bearbeitung und Variationen bestehender Bilder.

MidJourney

r

MidJourney ist ein KI-Tool für die Bildgenerierung, das für seinen künstlerischen und atmosphärischen Stil bekannt ist. Es wird über Discord genutzt und ermöglicht beeindruckende visuelle Interpretationen von Texteingaben. MidJourney ist besonders bei Designern und Kreativen beliebt, da es oft ästhetisch ansprechende und inspirierende Bilder erzeugt.

FLUX.1

r

Flux.1 ist ein deutsches Modell, das seit 2024 auf dem Markt ist und sich durch detailreiche und präzise Bildausgaben auszeichnet. Es unterstützt die Generierung komplexer Szenen und wird in verschiedenen Versionen, wie Flux.1 [pro], für unterschiedliche Anforderungen angeboten. Flux.1 richtet sich an professionelle Anwender und zeichnet sich durch hohe Qualität und Flexibilität aus.

Stable Diffusion

r

Stable Diffusion ist ein Open-Source-Modell für die Text-zu-Image-Generierung, das sich durch seine Anpassungsfähigkeit und hohe Bildqualität auszeichnet. Es kann lokal betrieben oder in verschiedene Anwendungen integriert werden und ist besonders bei Entwicklern und Kreativen wegen seiner freien Verfügbarkeit beliebt. Stable Diffusion eignet sich für künstlerische und experimentelle Projekte ebenso wie für kommerzielle Anwendungen.

Text-to-Speech

r

Text-to-Speech (TTS) bezeichnet eine Technologie, die geschriebenen Text in natürliche, synthetische Sprache umwandelt. Sie wird genutzt, um Inhalte hörbar zu machen, und findet Anwendung in Sprachassistenten, Hörbüchern, Barrierefreiheit und der Lokalisierung von Medien.

ElevenLabs

r

ElevenLabs ist ein Unternehmen, das sich auf die Entwicklung fortschrittlicher KI-gestützter Audiotechnologien spezialisiert hat. Ihr Hauptprodukt ist eine Text-to-Speech-Plattform, die in der Lage ist, realistische und kontextbezogene Sprachausgaben in 32 Sprachen zu erzeugen. Diese Technologie findet Anwendung in Bereichen wie Hörbüchern, Videospielvertonungen, Filmvorproduktionen und der Lokalisierung von Medieninhalten. Zudem bietet ElevenLabs Funktionen wie Voice Cloning, mit der individuelle Stimmen erstellt werden können, und AI Dubbing, das die Übersetzung und Synchronisation von Videos in verschiedene Sprachen ermöglicht.

Speechify

r

Speechify ist eine Text-to-Speech-Anwendung, die geschriebenen Text in Sprachausgabe umwandelt und dabei unterschiedliche Stimmen in mehreren Sprachen anbietet. Die Plattform integriert sich in verschiedene Geräte und Systeme und ermöglicht es Nutzenden, Texte von Websites, E-Mails, PDFs und anderen Quellen in Sprachausgabe umzuwandeln. Zu den Funktionen von Speechify gehören die Kontrolle der Wiedergabegeschwindigkeit, Offline-Hören, Texthervorhebung während des Vorlesens sowie die Option, Text in MP3- und WAV-Audiodateien zu konvertieren.

Google Text-to-Speech

r

Google Text-to-Speech ist ein Cloud-basierter Dienst, der mithilfe von künstlicher Intelligenz geschriebenen Text in natürliche, lebensechte Sprache umwandelt. Er bietet eine große Auswahl an Stimmen in verschiedenen Sprachen und mit unterschiedlichen Stimmlagen, die über die Google Cloud Platform zugänglich sind. Google Text-to-Speech wird in vielen Google-Produkten wie Google Assistant, Google Maps und Google Übersetzer verwendet und kann auch von Entwicklern in ihre eigenen Anwendungen integriert werden.

Text-to-Video

r

Text-to-Video Modelle generieren aus Textbeschreibungen automatisch Videosequenzen, indem sie Bewegung, zeitliche Abläufe und narrative Elemente in visuelle Form übersetzen. Dabei bauen sie auf ähnlichen Technologien wie Text-to-Image Modelle auf, müssen aber zusätzlich die zeitliche Dimension und Bewegungsabläufe berücksichtigen. Die derzeit großen bekannten Video-Generatoren sind aber keine reinen Text-to-Video Modelle mehr; sie können bereits Bilder und sogar Videos verarbeiten, und sind daher eher als multimodal einzustufen.

Multimodale Video Generation

r

Multimodale Videogenerierung beschreibt KI-Modelle, die Videos aus verschiedenen Eingabeformen wie Text, Bildern oder einer Kombination dieser Modalitäten erzeugen können. Diese Systeme sind flexibler als reine Text-to-Video oder Image-to-Video Modelle, da sie multiple Eingabeformate verarbeiten und deren jeweilige Stärken kombinieren können.

Runway Gen-2

r

Runway Gen-2 ist ein multimodales KI-Modell zur Videogenerierung, das von Runway Research entwickelt wurde. Es kann Videos aus Text, Bildern oder bestehenden Videoclips erzeugen und bietet verschiedene Modi wie Text-zu-Video, Bild-zu-Video und Stilisierung.

Pika Labs

r

Pika Labs ist ein fortschrittliches KI-Modell zur Videogenerierung und -bearbeitung, welches es Nutzern ermöglicht, aus Text, Bildern oder bestehenden Videoclips hochwertige Videos zu erstellen. Es bietet verschiedene Funktionen wie Text-to-Video, Image-to-Video und einen KI-gestützten Videoeditor, die es Benutzern erlauben, Videos zu generieren, zu erweitern und zu modifizieren.

Veo

r

Veo ist ein von Google entwickeltes KI-gestütztes Videogenerierungsmodell, das in der Lage ist, hochauflösende Videos mit einer Auflösung von 1080p in verschiedenen filmischen und visuellen Stilen zu erstellen. Es kann Videos basierend auf Text- oder Bildvorgaben generieren und versteht dabei natürliche Sprache sowie visuelle Semantik, um die Nuancen und den Ton der Eingabe präzise umzusetzen. Veo bietet erweiterte kreative Kontrollmöglichkeiten, einschließlich der Interpretation filmischer Begriffe wie "Zeitraffer" oder "Luftaufnahmen", und gewährleistet dabei eine konsistente und kohärente Darstellung von Bewegungen und Objekten innerhalb der Videos.

Sora

r

Sora ist ein von OpenAI entwickeltes KI-Modell, das in der Lage ist, aus verschiedenen Eingabeformaten wie Text, Bildern oder Videos kurze Videoclips von bis zu einer Minute Länge zu generieren. Das Modell kann Eingaben in realistische Videos umwandeln, wobei es Schlüsselinformationen extrahiert und visuelle Elemente, Handlungen sowie Beziehungen identifiziert. Sora bietet vielfältige Funktionen, darunter die Erstellung neuer Videos aus Textbeschreibungen, die Umwandlung von Bildern in Videos, die Bearbeitung bestehender Videos sowie zusätzliche Funktionen wie Remix, Feinabstimmung und Loop-Erstellung.

Avatar Generation

r

Die Kategorie "Avatar Generation" bezieht sich auf Technologien und Tools, die es ermöglichen, digitale Avatare zu erstellen, die als visuelle Repräsentationen von Benutzern oder Charakteren dienen. Diese Avatare können aus verschiedenen Eingaben wie Fotos oder Text generiert werden und werden häufig in Anwendungen wie virtuellen Meetings, Videospielen, sozialen Medien und KI-gestützten Videoerstellungstools verwendet. Die Avatar-Generierung umfasst oft Funktionen wie Anpassung von Aussehen, Stimme und Bewegungen, um eine realistische Interaktion und Darstellung zu ermöglichen.

HeyGen

r

HeyGen ist ein KI-Tool zur Videoerstellung, das es Nutzern ermöglicht, hochwertige Videos mit KI-generierten Avataren und Premium-Voiceovers zu produzieren. Es bietet Funktionen wie die Erstellung personalisierter KI-Avatare, Text-to-Video-Generierung, Videoübersetzung und eine umfangreiche Bibliothek vorgefertigter Avatare verschiedener Ethnien und Stile. HeyGen eignet sich besonders für Marketing- und Vertriebsteams, die interaktive und personalisierte Inhalte erstellen möchten, um die Kundenbindung zu verbessern und professionelle Videos ohne aufwendige Produktionen zu realisieren.

Synthesia

r

Synthesia ist eine KI-Plattform zur Videoerstellung, die es Nutzern ermöglicht, professionelle Videos mit KI-generierten Avataren und Voiceovers in über 140 Sprachen zu produzieren. Das Tool bietet eine benutzerfreundliche Oberfläche mit zahlreichen Anpassungsoptionen, darunter vorgefertigte Vorlagen, Avatare und die Möglichkeit, eigene Stimmen zu klonen. Synthesia eignet sich besonders für Unternehmen, die Videos für Schulungen, Marketing und interne Kommunikation erstellen möchten, ohne auf traditionelle Produktionsmethoden zurückgreifen zu müssen.

Video Editing

r

Video Editing, oder Videobearbeitung, bezeichnet den Prozess, bei dem Rohmaterial aus Videoaufnahmen bearbeitet und zusammengeschnitten wird, um eine kohärente und ansprechende Geschichte zu erzählen. Dies umfasst das Schneiden von Clips, das Hinzufügen von Effekten, Musik und Übergängen sowie die Anpassung von Bild und Ton, um die gewünschte Ästhetik und Emotion zu erzielen.

Opus Clip

r

Opus Clip ist ein KI-gestütztes Tool zur Videoaufbereitung, das lange Videos automatisch in kurze, virale Clips umwandelt. Es analysiert das Ausgangsmaterial, identifiziert die relevantesten Abschnitte und erstellt daraus ansprechende Kurzvideos, die sich ideal für Plattformen wie TikTok, YouTube Shorts und Instagram Reels eignen. Dabei werden Funktionen wie automatische Untertitelung, Anpassung des Seitenverhältnisses und die Erkennung von Sprechern und bewegten Objekten genutzt, um die Clips optimal für soziale Medien aufzubereiten.

Bild-/Videosegmentierung

r

Bild-/Videosegmentierung ist ein Prozess, bei dem ein KI-System einzelne Objekte oder Bereiche in Bildern oder Videos automatisch erkennt und voneinander trennt, indem es präzise Umrisse oder Masken um diese Elemente erstellt. Diese Technologie ermöglicht es, Objekte im Bild oder Video zu isolieren, zu markieren oder separat zu bearbeiten, was grundlegend für viele Anwendungen in der Bildverarbeitung, Objekterkennung und visuellen Analyse ist.

Segment Anything

r

Segment Anything ist ein Projekt von Meta AI, das ein neues Modell und einen umfangreichen Datensatz für die Bildsegmentierung einführt. Das Segment Anything Model (SAM) kann Objekte in Bildern anhand von Eingabeaufforderungen wie Punkten, Boxen oder Texten segmentieren. Es wurde auf über einer Milliarde Masken in 11 Millionen Bildern trainiert und ist in der Lage, ohne zusätzliche Anpassungen auf unbekannte Objekte und Bilder zu generalisieren. Zudem wurde mit SAM 2 eine Erweiterung vorgestellt, die die Segmentierung auf Videos ausdehnt und eine Echtzeit-Verarbeitung ermöglicht.

Präsentation und Visualisierung

r

KI-gestützte Präsentations- und Visualisierungstools sind Softwareanwendungen, die künstliche Intelligenz nutzen, um die Erstellung und Gestaltung von Präsentationen, Diagrammen und anderen visuellen Inhalten zu vereinfachen und zu beschleunigen. Sie automatisieren Aufgaben wie Design, Layout und Formatierung und bieten Funktionen wie intelligente Vorlagen, Designvorschläge und die automatische Generierung von Inhalten aus Text. Diese Tools ermöglichen es Nutzern, auch ohne Designkenntnisse professionelle und ansprechende visuelle Inhalte zu erstellen.

Gamma

r

Gamma ist ein KI-gestütztes Tool, das die Erstellung von Präsentationen, Dokumenten und Webseiten vereinfacht. Es ermöglicht Nutzern, durch Eingabe von Textbeschreibungen automatisch ansprechende und professionell gestaltete Inhalte zu generieren, ohne dass Design- oder Programmierkenntnisse erforderlich sind. Die Plattform bietet Funktionen wie vorgefertigte Vorlagen, interaktive Elemente und die Möglichkeit, bestehende Dokumente zu importieren und zu bearbeiten.

Napkin

r

Napkin ist ein KI-gestütztes Tool, das Texte automatisch in visuelle Darstellungen wie Diagramme, Flusscharts und Infografiken umwandelt. Durch einfaches Einfügen von Text generiert Napkin.ai relevante Visualisierungen, die vollständig bearbeitet und an individuelle Bedürfnisse angepasst werden können. Dies erleichtert die Erstellung von Präsentationen, Blogbeiträgen und Social-Media-Inhalten erheblich.

Beautiful.ai

r

Beautiful ist eine cloudbasierte Präsentationssoftware, die mithilfe künstlicher Intelligenz die Erstellung professioneller Präsentationen vereinfacht. Sie bietet eine Vielzahl intelligenter Vorlagen und automatisiert das Design, sodass Nutzer ohne tiefgehende Designkenntnisse ansprechende Folien erstellen können. Zudem ermöglicht die Plattform die Zusammenarbeit im Team, unterstützt die Einhaltung von Markenrichtlinien und bietet Integrationen mit Tools wie PowerPoint.

r

"There's An AI For That" ist eine Plattform, die einen umfassenden Überblick über KI-Tools bietet und diese nach Anwendungsfällen und Berufen kategorisiert. Sie enthält eine Datenbank mit über 21.000 KI-Werkzeugen, die für mehr als 15.000 Aufgaben und 4.800 Berufe geeignet sind. Nutzer können mithilfe einer Suchfunktion oder durch Kategorien navigieren, um Tools für spezifische Anwendungen zu finden. Die Plattform wird regelmäßig aktualisiert, um neue Entwicklungen im Bereich der KI abzubilden, und bietet Informationen zu den Funktionen und Einsatzbereichen der gelisteten Tools.

Tools/Frameworks für KI-Modelle

HuggingFace

r

HuggingFace ist eine zentrale Plattform für die KI-Community, auf der Modelle, Datensätze und Anwendungen gemeinsam entwickelt und geteilt werden. Sie bietet Zugriff auf eine große Sammlung von vortrainierten Modellen, Datensätzen und Anwendungen, die von der Community erstellt wurden. Die Plattform ermöglicht es Entwicklern, ihre Arbeit mit der Welt zu teilen und ihr KI-Profil zu erstellen. HuggingFace bietet auch kostenpflichtige Compute- und Unternehmenslösungen an, um die KI-Entwicklung zu beschleunigen. Darüber hinaus ist HuggingFace ein wichtiger Akteur in der Open-Source-Community und entwickelt die Grundlage für KI-Tools in Zusammenarbeit mit der Community.

Ollama

r

Ollama ist ein Open-Source-Framework, das es Benutzern ermöglicht, große Sprachmodelle wie Llama, Mistral und Gemma lokal auf ihrem eigenen Computer auszuführen. Es bietet eine einfache Befehlszeilenoberfläche zum Herunterladen, Ausführen und Verwalten verschiedener KI-Modelle und unterstützt Plattformen wie macOS, Windows und Linux, einschließlich Docker-Installationen. Die Software erlaubt nicht nur die Nutzung vorgefertigter Modelle, sondern bietet auch die Möglichkeit, benutzerdefinierte Modelle zu erstellen und eine REST-API für eigene Anwendungen zu nutzen.

OpenWebUI (vormals OllamaWebUI)

r

OpenWebUI ist eine benutzerfreundliche Weboberfläche für Ollama, die eine grafische Benutzeroberfläche für die Interaktion mit lokal installierten Sprachmodellen bereitstellt. Sie erweitert die Funktionalität von Ollama um eine Chat-ähnliche Oberfläche, Modellverwaltung und weitere Funktionen, die den Zugang zu lokalen KI-Modellen auch für Nutzer ohne technischen Hintergrund vereinfacht.

a

AnythingLLM

r

AnythingLLM ist eine Open-Source-Anwendung, die es Benutzern ermöglicht, verschiedene Sprachmodelle wie GPT-4, Llama und Mistral lokal auf ihrem Computer zu nutzen. Die Software bietet eine einheitliche Oberfläche zum Verwalten und Analysieren von Dokumenten aus unterschiedlichen Dateiformaten wie PDFs und Word-Dokumenten in separaten Arbeitsbereichen, wobei der Fokus auf Datenschutz und lokaler Datenverarbeitung liegt. AnythingLLM kann sowohl lokale als auch externe KI-Modelle unterstützen und ermöglicht Nutzern eine flexible, datenschutzfreundliche Lösung für Dokumentenmanagement und KI-Interaktionen.

a

IT-Entwicklungswerkzeuge im Kontext von KI

Programmiersprachen

Python

r

Python ist eine vielseitige Interpreter-Programmiersprache, die für ihre einfache Syntax und Lesbarkeit bekannt ist. Sie wurde 1991 von Guido van Rossum entwickelt und unterstützt verschiedene Programmierstile, darunter objektorientierte, funktionale und prozedurale Ansätze. Mit einer großen Standardbibliothek und Plattformunabhängigkeit eignet sich Python für eine Vielzahl von Anwendungen, darunter Webentwicklung, Automatisierung, Datenanalyse und Künstliche Intelligenz. Bibliotheken wie NumPy, TensorFlow und Django machen Python besonders populär in den Bereichen Data Science und maschinelles Lernen. Durch seine Zugänglichkeit und breite Community gehört Python zu den meistgenutzten Programmiersprachen weltweit.

a

Allgemeine Entwicklungswerkzeuge mit KI-Integrationsmöglichkeiten

r

Diese Kategorie umfasst Werkzeuge, die nicht primär für KI-Anwendungen entwickelt wurden, aber die Integration von KI-Funktionen unterstützen oder erleichtern.

Low Code/No Code

r

LowCode/NoCode-Werkzeuge sind Entwicklungsplattformen, die es Nutzern ermöglichen, Anwendungen mit minimaler oder ohne manuelle Programmierung zu erstellen, indem sie visuelle Entwicklungsumgebungen und vorgefertigte Komponenten nutzen. Im KI-Kontext spielen diese Tools eine wichtige Rolle bei der Demokratisierung der Technologie, da sie auch Nicht-Programmierern ermöglichen, KI-Funktionen wie Textanalyse, Bildverarbeitung oder Vorhersagemodelle durch einfache Konfiguration zu implementieren. Diese Werkzeuge sind besonders relevant für Unternehmen, die KI-Technologien schnell und kostengünstig einführen wollen, ohne spezialisierte Entwicklerteams aufbauen zu müssen. Sie ermöglichen schnelle Prototypenentwicklung, Prozessautomatisierung und die Integration von KI in bestehende Anwendungen durch visuelle Entwicklung statt komplexer Programmierung.

n8n

r

n8n ist eine Open-Source-Workflow-Automatisierungsplattform, die es ermöglicht, verschiedene Dienste und Anwendungen zu verbinden und Arbeitsabläufe ohne Programmierkenntnisse zu automatisieren. Mit einer visuellen Benutzeroberfläche können Nutzer komplexe Automatisierungsszenarien erstellen und Daten zwischen verschiedenen Diensten übertragen. Obwohl n8n nicht speziell für KI entwickelt wurde, können KI-Dienste und -Modelle in die Workflows integriert werden.

a

Buildship

r

Buildship ist eine Low-Code-Plattform, die es Nutzern ermöglicht, serverlose APIs und Workflows schnell und effizient zu erstellen, ohne umfangreiche Programmierkenntnisse zu benötigen. Die Plattform bietet eine visuelle Benutzeroberfläche zur Automatisierung komplexer Prozesse und integriert KI-Modelle sowie verschiedene Tools, um die Entwicklung zu unterstützen. Durch vorgefertigte Knoten und eine Drag-and-Drop-Oberfläche können Benutzer Backend-Lösungen erstellen und bereitstellen.

a

make.com

r

Make.com, ehemals Integromat, ist eine cloudbasierte Automatisierungsplattform, die es Nutzern ermöglicht, verschiedene Anwendungen und Dienste miteinander zu verbinden und komplexe Workflows zu erstellen, ohne dass Programmierkenntnisse erforderlich sind. Die Plattform bietet eine visuelle Drag-and-Drop-Oberfläche, mit der Nutzer Szenarien erstellen können, die automatisch Aufgaben zwischen verschiedenen Anwendungen auslösen und Daten übertragen. Make.com unterstützt eine Vielzahl von Integrationen und ermöglicht so die Automatisierung von Geschäftsprozessen, Marketing-Kampagnen, Social-Media-Aktivitäten und vielem mehr.

a

Zapier

r

Zapier ist eine No-Code-Plattform, die es ermöglicht, verschiedene Webanwendungen miteinander zu verbinden und zu automatisieren. Im Kontext von KI ermöglicht Zapier die einfache Integration von KI-Diensten und -Modellen in bestehende Workflows, ohne dass Programmierkenntnisse erforderlich sind. So können beispielsweise KI-basierte Textanalysen, Bilderkennungen oder Chatbots in Unternehmensprozesse integriert werden, um diese zu automatisieren und zu optimieren.

a

Allgemeine Frameworks

r

Entwicklungsframeworks, die für die allgemeine Anwendungsentwicklung konzipiert wurden, aber die Integration von KI-Funktionen unterstützen.

React

r

React ist eine Open-Source-JavaScript-Bibliothek, die für den Aufbau von Benutzeroberflächen genutzt wird und sich besonders für dynamische, interaktive Anwendungen eignet. Im Kontext von KI ermöglicht React die Integration von KI-Funktionen wie Chatbots, Bilderkennung oder personalisierte Empfehlungen in moderne Frontends. Durch die Kompatibilität mit Tools wie TensorFlow.js oder ML5.js können KI-Modelle direkt im Browser ausgeführt werden, was Echtzeit-KI-Anwendungen wie Sprachverarbeitung oder Bildklassifikation unterstützt. React verbindet dabei leistungsfähige KI-Logik mit nutzerzentrierten, reaktionsfähigen Oberflächen.

a

Flutter

r

Flutter ist ein Open-Source-Framework von Google, das plattformübergreifende Anwendungen für iOS, Android, Web und Desktop mit einer einzigen Codebasis ermöglicht. Neben seiner Kernfunktionalität kann Flutter auch KI-Features integrieren, etwa durch die Anbindung von KI-APIs wie Google Cloud AI oder OpenAI. Mit Bibliotheken wie TFLite (TensorFlow Lite) lassen sich KI-Modelle lokal in Apps ausführen, um Funktionen wie Bilderkennung oder Sprachverarbeitung offline verfügbar zu machen. Zudem ermöglichen Drittanbieter-Pakete wie flutter_tts oder speechtotext die einfache Einbindung KI-gestützter Anwendungen, z. B. für Text-to-Speech oder Echtzeit-Augmented-Reality. Flutter dient somit als flexible Plattform zur Entwicklung moderner, KI-unterstützter Anwendungen.

a

Speziell für KI entwickelte Werkzeuge

r

Diese Kategorie umfasst Tools, die primär für die Entwicklung, Implementierung und Verwaltung von KI-Anwendungen konzipiert wurden. Sie bieten spezialisierte Funktionen, die direkt auf die Anforderungen von KI-basierten Systemen zugeschnitten sind.KI-Agenten-Frameworks ermöglichen die Entwicklung autonomer Systeme, die komplexe Aufgaben durch Wahrnehmung, Entscheidungsfindung und zielgerichtete Aktionen bewältigen können. Sie bieten vorgefertigte Module und Strukturen für gängige Funktionen wie Aufgabenzerlegung, Werkzeugnutzung und Beobachtbarkeit, wodurch die Erstellung von spezialisierten KI-Agenten vereinfacht wird. Diese Frameworks unterstützen die Integration verschiedener KI-Technologien wie maschinelles Lernen, große Sprachmodelle und natürliche Sprachverarbeitung, um adaptive und skalierbare Lösungen für vielfältige Anwendungsbereiche zu schaffen. Anbei eine Liste mit derzeitig bekannten Frameworks.

KI-Entwicklungsbibliotheken

r

Spezialisierte Codebibliotheken, die entwickelt wurden, um die Erstellung von KI-basierten Anwendungen, insbesondere jenen, die auf großen Sprachmodellen (LLMs) basieren, zu vereinfachen. Diese Bibliotheken bieten vorgefertigte Komponenten für typische KI-spezifische Aufgaben.

Semantic Kernel

r

Semantic Kernel ist eine von Microsoft entwickelte Open-Source-Bibliothek, die es Entwicklern ermöglicht, KI-Funktionen in ihre Anwendungen zu integrieren. Sie unterstützt die Orchestrierung verschiedener KI-Plugins und bietet ein Framework für die Integration von großen Sprachmodellen in traditionelle Programmiersprachen wie C# und Python.

a

Phidata

r

Phidata ist ein Toolkit für die KI-Anwendungsentwicklung, das darauf ausgerichtet ist, die Erstellung von KI-gestützten Anwendungen zu vereinfachen. Es bietet Werkzeuge für die Datenverarbeitung, Modelltraining und -bereitstellung sowie für die Integration von KI in bestehende Systeme.

a

LangChain

r

LangChain ist eine Bibliothek, die speziell für die Entwicklung von Anwendungen auf Basis von Large Language Models (LLMs) entwickelt wurde. Sie bietet Komponenten für typische LLM-Anwendungsfälle wie Dokumentenanalyse, Chatbots, Agenten und mehr. LangChain vereinfacht die Integration von LLMs mit externen Datenquellen und Tools und ermöglicht die Erstellung komplexer KI-Anwendungen.

a

LlamaIndex

r

LlamaIndex ist eine Datenschnittstellen-Bibliothek für LLM-Anwendungen, die sich auf die Verwaltung, Indizierung und den Abruf von Daten für LLM-Anwendungen spezialisiert hat. Sie ermöglicht es, externe Daten in LLM-Anwendungen einzubinden und bietet Werkzeuge für RAG (Retrieval-Augmented Generation), was die Genauigkeit und Relevanz von LLM-generierten Antworten verbessert.

a

AutoGen

r

AutoGen ist eine Entwicklungsbibliothek von Microsoft, die speziell für die Erstellung autonomer KI-Agenten konzipiert wurde. Sie ermöglicht die Entwicklung von multi-agent Systemen, die zusammenarbeiten können, um komplexe Aufgaben zu lösen. AutoGen bietet Frameworks für die Konversation zwischen verschiedenen Agenten und unterstützt die Integration mit Large Language Models.

a

crewAI

r

crewAI ist eine Bibliothek für die Erstellung von KI-Agentensystemen, die zusammenarbeiten können. Sie wurde speziell für die Orchestrierung von mehreren KI-Agenten entwickelt, die als Team funktionieren, um komplexe Aufgaben zu lösen. Die Bibliothek ermöglicht die Definition von Rollen, Zielen und Arbeitsabläufen für KI-Agenten.

a

KI-Frameworks

r

Umfassende Entwicklungsframeworks, die speziell für die Erstellung von KI-Anwendungen konzipiert wurden und eine vollständige Struktur für die Entwicklung komplexer KI-Systeme bieten.

CAMEL-AI

r

CAMEL-AI (Communicative Agents for "Mind" Exploration of Large Scale Language Model Society) ist ein Framework, das für die Entwicklung kommunizierender autonomer KI-Agenten konzipiert wurde. Es ermöglicht die Erstellung von KI-Agenten, die miteinander interagieren und kommunizieren können, um komplexe Aufgaben zu lösen, und bietet Werkzeuge für die Simulation von Multi-Agenten-Systemen.

a

KI-Plattformdienste

r

Cloud-basierte Dienste und Plattformen, die speziell für die Entwicklung, Bereitstellung und Verwaltung von KI-Anwendungen entwickelt wurden.

VertexAI Agent Builder

r

VertexAI Agent Builder ist ein Cloud-Dienst von Google, der eine Plattform für die Erstellung und Bereitstellung von KI-Agenten bietet. Er vereinfacht die Entwicklung von KI-Anwendungen durch vorgefertigte Komponenten und integriert sich nahtlos in die Google Cloud-Infrastruktur. Der Dienst unterstützt die Erstellung von Konversationsagenten und KI-gestützten Anwendungen ohne tiefgreifende ML-Expertise.

a

Low Code/No Code für KI

r

LowCode/NoCode-Werkzeuge sind Entwicklungsplattformen, die es Nutzern ermöglichen, Anwendungen mit minimaler oder ohne manuelle Programmierung zu erstellen, indem sie visuelle Entwicklungsumgebungen und vorgefertigte Komponenten nutzen.Im KI-Kontext spielen diese Tools eine wichtige Rolle bei der Demokratisierung der Technologie, da sie auch Nicht-Programmierern ermöglichen, KI-Funktionen wie Textanalyse, Bildverarbeitung oder Vorhersagemodelle durch einfache Konfiguration zu implementieren. Diese Werkzeuge sind besonders relevant für Unternehmen, die KI-Technologien schnell und kostengünstig einführen wollen, ohne spezialisierte Entwicklerteams aufbauen zu müssen. Sie ermöglichen schnelle Prototypenentwicklung, Prozessautomatisierung und die Integration von KI in bestehende Anwendungen durch visuelle Entwicklung statt komplexer Programmierung.

Voiceflow

r

Voiceflow ist eine No-Code-Plattform, die es Nutzern ermöglicht, Sprach- und Chatbot-Anwendungen zu erstellen und bereitzustellen. Mithilfe von Integrationen, wie beispielsweise mit Large Language Models (LLMs) wie GPT-4, können komplexe KI-Agenten ohne Programmierkenntnisse entwickelt werden. Die Plattform wird für die Erstellung von KI-Lösungen genutzt, die in verschiedenen Branchen Einsatz finden, insbesondere zur Gestaltung von interaktiven Dialogsystemen.

a

KI-gestützte Assistenten

Meeting Assistenten

r

KI-gestützte Meeting-Assistenten bieten umfassende Protokollierung und Transkription von Gesprächen in Echtzeit, sodass kein wichtiges Detail verloren geht. Sie können automatisch Aufgaben und Verpflichtungen aus dem Gesprächsverlauf erkennen und den verantwortlichen Personen zuordnen. Durch intelligente Zusammenfassungen werden lange Meetings auf ihre Kernpunkte reduziert, was Zeit bei der Nachbereitung spart. Zudem ermöglichen sie mehrsprachige Übersetzungen und können Informationen aus früheren Meetings bei Bedarf kontextuell einbinden. Die Integration in gängige Meetingsysteme wie Microsoft Teams, Zoom oder Google Meet erfolgt meist nahtlos über Plugins oder APIs. Diese Lösungen lassen sich in der Regel auch mit bestehenden Projektmanagement- und Kollaborationstools verbinden. Moderne KI-Meeting-Assistenten führen präzise Stimmungsanalysen durch, die Emotionen und Engagement der Teilnehmer erfassen und so Rückschlüsse auf die allgemeine Meetingqualität ermöglichen. Sie können Gesprächsdynamiken wie Redezeiten, Unterbrechungen und Beteiligungsmuster transparent machen und liefern wertvolle Einblicke zur Optimierung der Teamkommunikation. Einige fortschrittliche Systeme bieten sogar Echtzeit-Coaching für Moderatoren, indem sie Vorschläge zur Verbesserung der Gesprächsführung einblenden.

Meeting-Assistenten
und der EU AI Act

r

Meeting-Assistenten, die Emotionen und Verhalten während Besprechungen analysieren, können gemäß dem EU AI Act als Hochrisiko-KI-Systeme eingestuft werden, insbesondere wenn sie zur Bewertung oder zum Treffen von Entscheidungen über Mitarbeiter verwendet werden. Diese Einstufung erfolgt, weil solche Systeme das Potenzial haben, in Arbeitsbeziehungen und berufliche Entwicklungsmöglichkeiten einzugreifen und damit grundlegende Rechte beeinflussen können. Für als hochriskant eingestufte KI-Systeme gelten strenge Anforderungen an Transparenz, Dokumentation, menschliche Aufsicht und Risikomanagement, um mögliche negative Auswirkungen zu minimieren. Die endgültige Einstufung hängt jedoch von der spezifischen Funktionalität des jeweiligen Meeting-Assistenten ab, wobei Systeme, die sich auf einfache Transkription und Aufgabenverfolgung beschränken, möglicherweise nicht in diese Kategorie fallen.

a

fireflies.ai

a

read.ai

a

otter.ai

a

sally

a

Internetsuchen

r

Ein KI-gestützter Suchassistent ist ein System, das traditionelle Websuchergebnisse mit KI-Fähigkeiten kombiniert, um natürlichsprachliche Anfragen zu verstehen und kontextbezogene, zusammengefasste Antworten zu liefern. Anders als klassische Suchmaschinen, die nur Links und Snippets anzeigen, kann ein KI-Suchassistent Informationen aus verschiedenen Quellen analysieren, verstehen und in einer kohärenten, konversationellen Form präsentieren, wobei er oft auch Quellenangaben macht und aktuelle Internetinhalte in Echtzeit durchsuchen kann. Mittlerweile bieten viele KI-Chatbots eine Websuche auch als optionales Feature direkt im Chatfenster an.

perplexity.ai

r

Perplexity.ai ist ein KI-gestützter Assistent, der als "Antwortmaschine" konzipiert wurde und in natürlicher Sprache gestellte Fragen beantwortet. Die Plattform kombiniert fortschrittliche Sprachmodelle mit Echtzeit-Internetzugriff, um aktuelle Informationen bereitzustellen und zitiert dabei die verwendeten Quellen. Perplexity wurde 2022 eingeführt und bietet sowohl eine kostenlose Basisversion als auch eine Pro-Version mit erweiterten Funktionen an.

a

you.com

r

You.com wurde 2020 von Richard Socher und Bryan McCann als KI-gestützte Plattform gegründet, die als personalisierte Suchmaschine begann und sich zu einem vielseitigen KI-Assistenten weiterentwickelt hat. Sie bietet Funktionen wie die Suche nach Informationen, Textgenerierung, Codeerstellung und Bildgenerierung, unterstützt durch Echtzeit-Internetzugriff für aktuelle und verifizierbare Antworten. Nutzer können die Plattform an ihre Präferenzen anpassen, wobei Datenschutz und Transparenz im Mittelpunkt stehen.

a

SearchGPT

r

SearchGPT ist ein KI-gestützter Suchassistent von OpenAI, der seit November 2024 für die breite Öffentlichkeit verfügbar ist und direkt in ChatGPT integriert ist. Die Plattform kombiniert die GPT-Technologie mit Echtzeit-Internetzugriff, um Antworten auf Anfragen bereitzustellen, ergänzt durch klare Quellenangaben.

a

Deep Research

r

Deep Research bezeichnet die Fähigkeit von KI-Chatbots, komplexe Suchanfragen zu verstehen, in mehrere Rechercheaufgaben zu unterteilen und eigenständig im Internet zu recherchieren (Damit dürfte es im Hintergrund faktisch immer um einen KI-Agenten handeln). Diese Technologie ermöglicht es den KI-Systemen, Hunderte von Online-Quellen zu analysieren, relevante Informationen zu extrahieren und deren Bedeutung im Kontext der Anfrage zu interpretieren. Anstatt nur Links aufzulisten, synthetisieren die Systeme die gefundenen Informationen und präsentieren die Ergebnisse in Form eines klar gegliederten, umfassenden Berichts. Der Prozess läuft typischerweise in vier Schritten ab: Planung der Recherche, Informationssuche, Analyse der gesammelten Daten sowie Strukturierung und Aufbereitung der Ergebnisse.

GPT 4.5 Research

r

GPT-4.5 Research bietet eine reduzierte Halluzinationsrate und höhere faktische Genauigkeit, wobei der Dienst laut OpenAI eine Genauigkeit von 62,5% auf dem SimpleQA-Benchmark erreicht. Der Dienst zeichnet sich durch verbesserte Konversationsfähigkeiten mit natürlicheren Dialogen und prägnanten Antworten aus. GPT-4.5 Research zeigt besondere Stärken im Schreiben und bei realen Programmieraufgaben, was es für textbasierte Analysen besonders wertvoll macht. Die Integration in das ChatGPT-Ökosystem mit Unterstützung für alle ChatGPT-Tools sowie API-Funktionen erhöht die Flexibilität für professionelle Nutzer.

a

Gemini Deep Research

r

Gemini Deep Research demonstriert fortschrittliche Reasoning-Fähigkeiten, besonders bei der Bearbeitung komplexer, mehrstufiger Probleme. Die nahtlose Integration in das Google-Ökosystem (Google Docs, Sheets) verbessert die Produktivität und ermöglicht eine einfache Datenvisualisierung. Der Dienst bietet die Möglichkeit, mehrere Rechercheaufgaben gleichzeitig auszuführen, was bei umfangreichen Projekten die Effizienz steigern kann. Gemini Deep Research ist als Teil eines Abonnements für fortgeschrittene Nutzer konzipiert, die regelmäßig auf komplexe Recherchefunktionen angewiesen sind.

a

Perplexity.ai Deep Research

r

Perplexity.ai Deep Research zeichnet sich durch seine Geschwindigkeit aus, mit einer typischen Bearbeitungszeit von unter drei Minuten pro Anfrage für detaillierte Analysen. Der Dienst bietet eine hohe Kosteneffizienz mit einer kostenlosen Version (begrenzte Anfragen) sowie einer erschwinglichen Pro-Version. Die Auswahl verschiedener KI-Modelle (in der Pro-Version Zugang zu Modellen wie GPT-4o und DeepSeek R1) bietet Flexibilität bei der Anpassung an spezifische Rechercheaufgaben. Die von Perplexity generierten Berichte sind in der Regel gut strukturiert und prägnant, was den Nutzern das schnelle Erfassen der wichtigsten Informationen erleichtert.

a

you.com ARI

r

You.com ARI kann laut Herstellerangaben Hunderte von Quellen gleichzeitig analysieren, was im Vergleich zu sequentiellen Verarbeitungen anderer Tools eine umfassendere Recherche ermöglichen soll. Der Dienst erstellt laut Herstellerangaben umfassende Berichte mit Visualisierungen, einschließlich interaktiver Grafiken und Diagramme in einem formatierten PDF-Format. You.com ARI ermöglicht laut Herstellerangaben die Integration von Unternehmensdaten, wodurch gleichzeitig öffentliche und private Datenquellen analysiert werden können. Der Dienst verfügt laut Herstellerangaben über ein Echtzeit-Verifizierungssystem, bei dem jede Behauptung und jeder Datenpunkt überprüft wird.

a

xAI Grok Deep Search

r

Grok Deep Search integriert Echtzeitdaten über die Plattform X (ehemals Twitter), was für Recherchen zu aktuellen Ereignissen und Trends besonders wertvoll sein kann. Der Dienst verfügt über einen einstellbaren "Reasoning Slider", der es Nutzern ermöglicht, die Intensität der KI-Analyse je nach Aufgabenanforderung zu steuern. Grok Deep Search wurde mit einer breiteren Perspektive und weniger Filterung konzipiert, was zu einer umfassenderen Abdeckung verschiedener Ansichten führen kann. Der Dienst ist besonders in technischen Bereichen stark, wobei laut xAI die Leistung in den Bereichen Programmierung und Mathematik in eigenen Benchmarks gut abschneidet.

a

Produktivität

r

Ein KI-gestützter Produktivitätsassistent ist eine Software-Anwendung, die auf einem Foundation Model oder spezialisierten KI-Modell basiert und darauf ausgerichtet ist, Menschen bei ihrer täglichen Arbeit zu unterstützen, indem sie Aufgaben automatisiert, Vorschläge macht, Inhalte generiert oder verarbeitet und sich dabei nahtlos in bestehende Arbeitsabläufe und Software-Tools integriert.

Microsoft-Ökosystem

r

Das Microsoft Ökosystem ist eine miteinander verknüpfte Sammlung von Hard- und Software-Produkten, Services und Cloud-Diensten von Microsoft. Es umfasst das Windows Betriebssystem, die Microsoft 365 Suite (früher Office) mit Programmen wie Word, Excel, PowerPoint und Teams, den Edge Browser, die Azure Cloud-Plattform, sowie verschiedene Entwicklertools und Enterprise-Lösungen. Das Besondere ist die enge Integration aller Komponenten, sodass Daten und Funktionen nahtlos zwischen den verschiedenen Anwendungen ausgetauscht werden können.

Microsoft Copilot

r

Microsoft Copilot (früher Bing Chat) ist ein KI-Assistent, der auf GPT-4 basiert und speziell für die Integration in Microsoft-Produkte optimiert wurde. Er unterscheidet sich von anderen KI-Assistenten hauptsächlich durch zwei Merkmale: Erstens seine tiefe Integration in das Microsoft-Ökosystem (Windows, Office, Teams, Edge etc.), wo er kontextbezogene Hilfe und Automatisierung anbietet, und zweitens seine Fähigkeit, in Echtzeit auf aktuelle Internetinhalte zuzugreifen.

a

Coding

r

Coding (auch Programmieren genannt) ist der Prozess des Schreibens und Strukturierens von Anweisungen in einer bestimmten Programmiersprache, die ein Computer ausführen kann, um Aufgaben zu lösen oder Anwendungen und Software zu entwickeln. Es umfasst das Erstellen von Code, der Algorithmen und Logik beschreibt, um gewünschte Funktionen und Ergebnisse zu erzielen, und ist die Grundlage für die Entwicklung von Software, Webseiten, Apps und Systemen.

GitHub Copilot

r

GitHub Copilot ist ein KI-gestützter Coding-Assistent, der gemeinsam von GitHub und OpenAI entwickelt wurde und auf einer spezialisierten Version von GPT basierte. Mittlerweile funktioniert er auch mit Modellen wie Claude und Gemini. GitHub Copilot wurde speziell für Programmierer optimiert, indem er auf einer großen Menge von öffentlichem Code trainiert wurde und nun in Echtzeit Codevorschläge machen kann, komplette Funktionen vorschlagen kann, Kommentare in Code umwandelt, bei der Dokumentation hilft und sich dabei nahtlos in verschiedene Entwicklungsumgebungen (IDEs) integriert - er fungiert dabei wie ein "Pair Programming Partner", der aktiv Vorschläge macht und den Entwicklungsprozess beschleunigt.

a

Cursor

r

[Cursor](https://www.cursor.com/) ist ein KI-gestützter Code-Editor, der auf Visual Studio Code basiert und verschiedene KI-Modelle integriert, um Entwicklern bei Programmieraufgaben zu helfen. Er bietet Funktionen wie Code-Vervollständigung, Fehlererkennung in Echtzeit, eine Chat-Funktion für Projekte und die Möglichkeit, Änderungen über mehrere Dateien hinweg vorzunehmen. Cursor ermöglicht es, den Entwicklungsprozess zu unterstützen, indem KI-Funktionen in die Entwicklungsumgebung integriert werden und autonome KI-Agenten eingesetzt werden, um Aufgaben zu automatisieren und Probleme zu lösen.

a

Wissensmanagement

NotebookLM

r

NotebookLM ist ein KI-gestützter Notiz- und Rechercheassistent von Google, der es Nutzern ermöglicht, ihre eigenen Dokumente und Informationen zu organisieren, zu analysieren und damit zu interagieren. Das Tool kann bis zu 20 Dokumente oder Quellen verarbeiten, darunter Google Docs, PDFs, Textdateien und Webseiten, mit einer Gesamtkapazität von bis zu 4 Millionen Wörtern. NotebookLM bietet Funktionen wie KI-gestützte Zusammenfassungen, multimodale Fähigkeiten zur Verarbeitung von Bildern und Diagrammen sowie die Möglichkeit, Informationen in verschiedene nützliche Formate wie FAQs oder Studienführer umzuwandeln, wobei alle Antworten in den vom Nutzer bereitgestellten Quellen verankert sind, um Genauigkeit und Relevanz zu gewährleisten.

a

KI-Agenten

r

Ein KI-Agent ist ein System, das selbstständig in einer Umgebung agiert, Informationen aus dieser aufnimmt, Entscheidungen trifft und Aktionen ausführt, um bestimmte Ziele zu erreichen. Die Besonderheit eines KI-Agenten liegt in seiner Autonomie und der Fähigkeit, aus der Interaktion mit seiner Umgebung zu lernen und sein Verhalten entsprechend anzupassen, wobei er verschiedene KI-Techniken wie maschinelles Lernen, Planung und Optimierung nutzen kann. KI-Agenten werden in verschiedenen Bereichen eingesetzt, von virtuellen Assistenten über Robotik bis hin zu automatisierten Handelssystemen, wobei ihre Komplexität und Autonomie je nach Anwendungsfall stark variieren kann.

KI-Agenten auf Basis von
Foundation Modellen

Google: Project Mariner

r

Project Mariner, ein experimenteller KI-Agent von Google, kann als Chrome-Erweiterung autonom im Browser navigieren, Links anklicken, scrollen und Formulare ausfüllen. Der Agent, angetrieben durch Googles Gemini 2.0 KI, kann komplexe Aufgaben wie Recherche, Online-Shopping und das Ausfüllen von Warenkörben selbstständig durchführen, wobei der Nutzer den Prozess in Echtzeit verfolgen und bei Bedarf eingreifen kann. Obwohl Project Mariner derzeit noch in einer frühen Forschungsphase ist und nur einem begrenzten Nutzerkreis zur Verfügung steht, verspricht es, alltägliche Webaktivitäten zu automatisieren und effizienter zu gestalten.

a

OpenAI: Operator

r

OpenAIs Operator ist ein KI-Agent, der eigenständig im Internet navigieren, Webseiten bedienen und komplexe Aufgaben wie Reservierungen, Online-Einkäufe und E-Mail-Versand durchführen kann. Der Agent nutzt das "Computer-Using Agent"-Modell (CUA), das auf GPT-4o basiert und es ihm ermöglicht, Webseiten wie ein Mensch zu bedienen, einschließlich Klicken, Tippen und Scrollen. Obwohl Operator noch Einschränkungen hat und bei sensiblen Aufgaben die Zustimmung des Nutzers benötigt, kann er bereits mit verschiedenen Plattformen wie DoorDash, eBay und Uber interagieren, um spezifische Aufgaben auszuführen.

a

Manus

r

Manus ist ein KI-Agent, der von dem chinesischen Startup Monica entwickelt wurde und als vollständig autonomer KI-Assistent beschrieben wird. Der Agent soll in der Lage sein, komplexe Aufgaben wie Webseitenerstellung, Reiseplanung, Aktienanalyse und Datenvisualisierung mit minimaler menschlicher Eingabe selbstständig auszuführen. Seit seiner Veröffentlichung am 6. März 2025 hat Manus sowohl Interesse als auch Diskussionen in der Tech-Community ausgelöst, wobei seine tatsächlichen Fähigkeiten und praktische Anwendbarkeit noch genauer untersucht werden.Manus basiert auf einer fortschrittlichen Multi-Agent-Architektur, bei der mehrere spezialisierte KI-Agenten in unabhängigen, virtuellen Maschinen parallel arbeiten, was die Verarbeitungskapazität optimiert und die gleichzeitige Bearbeitung komplexer Aufgaben ermöglicht. Das System nutzt eine Kombination aus bestehenden und feinabgestimmten KI-Modellen, darunter Anthropics Claude und Alibabas Qwen, sowie viele weitere Tools und das Open-Source-Werkzeug Browser Use, um Webseiten für KI-Agenten zugänglich zu machen.

a

Nova Act

r

Nova Act ist ein KI-Agent von Amazon, der auf hauseigenen Nova-Modellen entwickelt wurde, um Webinteraktionen autonom auszuführen. Er ermöglicht es Entwicklern, Anwendungen zu erstellen, die komplexe Aufgaben im Internet automatisieren. Mit einem Software Development Kit (SDK) können verschiedene Befehle in kleinere, handhabbare Schritte unterteilt werden. Nova Act ist besonders nützlich für die Integration in Amazon-Dienste, bietet aber auch vielseitige Automatisierungsmöglichkeiten für andere Anwendungen. Die Plattform richtet sich hauptsächlich an Entwickler, die innovative KI-gestützte Lösungen erarbeiten möchten.

a

Ranking, Evaluation und
Benchmarking von KI-Modellen

Ranking und Evaluation

r

Die Website artificialanalysis.ai/leaderboards/models bietet eine umfassende Vergleichsplattform für über 30 große Sprachmodelle (LLMs), darunter GPT-4o, Llama 3, Mistral und Gemini. Sie bewertet diese Modelle anhand von Schlüsselmetriken wie Qualität, Preis, Leistung, Ausgabegeschwindigkeit (Tokens pro Sekunde), Latenz (Time to First Token) und Kontextfenstergröße.

a
r

Die Website lmarena.ai ist die offizielle Plattform der Chatbot Arena, ehemals bekannt als LMSYS. Sie dient als offene und gemeinschaftsgetriebene Evaluationsplattform für große Sprachmodelle (Large Language Models, LLMs). Nutzer können hier verschiedene KI-Modelle in anonymisierten Paarvergleichen testen und bewerten, um deren Leistungsfähigkeit in realen Anwendungsfällen zu beurteilen. Die gesammelten Bewertungen fließen in eine regelmäßig aktualisierte Rangliste ein, die einen Überblick über die aktuellen Spitzenmodelle bietet. Die Plattform fördert die Transparenz und das Verständnis von LLMs, indem sie der Community ermöglicht, direkt an der Bewertung und Weiterentwicklung dieser Modelle mitzuwirken.

a

Benchmarks

GLUE (General Language
Understanding Evaluation)

r

GLUE (General Language Understanding Evaluation) ist ein Benchmark-System zur Bewertung von KI-Sprachmodellen, das aus neun verschiedenen Aufgaben besteht, darunter Textklassifikation, Sentiment-Analyse und Frage-Antwort-Aufgaben. Die Besonderheit von GLUE liegt darin, dass es die Fähigkeit der Modelle testet, natürliche Sprache in verschiedenen Kontexten zu verstehen und zu verarbeiten, wobei die Aufgaben bewusst unterschiedliche Aspekte des Sprachverständnisses abdecken. Der 2018 eingeführte Benchmark hat sich als wichtiger Maßstab für die Bewertung der Sprachverarbeitungsfähigkeiten von KI-Systemen etabliert.

a

SuperGLUE

r

SuperGLUE ist der Nachfolger des GLUE-Benchmarks und wurde 2019 eingeführt, um noch anspruchsvollere Aufgaben für die Bewertung von KI-Sprachmodellen bereitzustellen. Der Benchmark besteht aus acht verschiedenen Aufgaben, die komplexere Fähigkeiten wie kausales Reasoning, Wortsinnerklärungen und Entscheidungsfindung testen, wobei die Aufgaben so gewählt wurden, dass sie näher an menschlichen Sprachverständnisfähigkeiten liegen. SuperGLUE wurde entwickelt, weil die besten KI-Modelle beim ursprünglichen GLUE-Benchmark bereits menschenähnliche Leistungen erreichten, und bietet daher eine höhere Messlatte für die Bewertung fortgeschrittener Sprachmodelle.

a

MMLU (Massive Multitask
Language Understanding)

r

MMLU (Massive Multitask Language Understanding) ist ein wichtiger Benchmark-Test zur Bewertung der Fähigkeiten von KI-Modellen, der aus Multiple-Choice-Fragen aus 57 verschiedenen Bereichen wie Mathematik, Geschichte, Recht, Medizin und Ethik besteht. Die Besonderheit von MMLU liegt darin, dass er gezielt Hochschulwissen und fortgeschrittenes Expertenwissen abfragt, wodurch er als zuverlässiger Indikator für die tatsächlichen Verständnis- und Reasoning-Fähigkeiten von KI-Systemen gilt. Der 2021 veröffentlichte Test hat sich seither als einer der wichtigsten Standards etabliert, um die Leistungsfähigkeit verschiedener KI-Modelle objektiv zu vergleichen, wobei ein Ergebnis von über 90% als sehr gut gilt.

r

BALROG ist ein Benchmark zur Bewertung der Leistungsfähigkeit großer Sprach- und visueller Modelle in komplexen, dynamischen Aufgaben wie Planung und Problemlösung. Es ermöglicht die systematische Analyse von Stärken und Schwächen der Modelle in verschiedenen Szenarien, einschließlich prozedural generierter Umgebungen wie NetHack. Durch diese standardisierte Testumgebung wird eine fundierte Vergleichsbasis geschaffen, die die Weiterentwicklung solcher Modelle unterstützt.

a
r

Holistic Evaluation of Language Models (HELM) ist eine von der Stanford University entwickelte Benchmarking-Plattform zur systematischen Bewertung von KI-Sprachmodellen. Die Plattform testet Modelle in vielen verschiedenen Szenarien, darunter Textverständnis, Programmierung und ethisches Verhalten. HELM wurde entwickelt, um standardisierte und transparente Vergleiche zwischen verschiedenen KI-Modellen zu ermöglichen. Die Ergebnisse werden öffentlich zugänglich gemacht, um die Transparenz in der KI-Entwicklung zu fördern und eine bessere Einschätzung der Modellleistung zu ermöglichen.

a

HLE (Humanitys Last Examen)

r

Humanity's Last Exam (HLE) ist ein umfassender Test, der speziell entwickelt wurde, um die Fähigkeiten von hochentwickelten KI-Systemen zu bewerten. Er umfasst über 3.000 Fragen aus mehr als 100 verschiedenen Fachgebieten und wurde von fast tausend Experten aus 500 Institutionen in 50 Ländern weltweit erstellt. Dieser Test soll als ultimativer Maßstab dienen, um festzustellen, wie weit fortgeschritten die KI in verschiedenen Bereichen ist und ob sie in der Lage ist, menschenähnliche Intelligenz zu erreichen.

a

Anwendungsgebiete

r

Generative Künstliche Intelligenz (GenAI) findet Anwendung in vielfältigen Bereichen wie der Erstellung kreativer Inhalte (Bilder, Musik, Texte) sowie in der Medizin, etwa bei der Entwicklung neuer Medikamente oder der Verbesserung medizinischer Bildgebung. In der Wirtschaft wird sie zur Marktanalyse, Produktdesign und Prozessoptimierung genutzt, während sie in der Robotik Bewegungsplanung und Umgebungsinteraktion ermöglicht. GenAI unterstützt die Bildung durch personalisierte Lernmaterialien und Simulationen und spielt eine zentrale Rolle in der Unterhaltung bei der Generierung von Charakteren, Levels oder visuellen Effekten. Weitere Anwendungen umfassen die Automatisierung von Rechtsdokumenten, die Simulation von Umweltmodellen und die Erstellung von Werbe- und Marketingkampagnen. Durch ihre Vielseitigkeit hat GenAI sowohl aktuelle als auch zukünftige Potenziale in nahezu allen Branchen.

Eine Fallstudien-Übersicht: https://www.zenml.io/llmops-database

r

Die LLMOps-Datenbank von ZenML bietet eine umfassende Sammlung von über 300 Fallstudien und technischen Notizen zu realen Implementierungen generativer KI. Beispiele reichen von der Automatisierung der Dokumentenverarbeitung im Finanzwesen, über die Unterstützung von Datenexploration im Energiesektor, bis hin zur Verbesserung von Kommunikationsplattformen durch KI-basierte Anwendungen.

a

KI-Initiativen

Europa

Gaia-X

r

Gaia-X ist eine europäische Initiative zur Entwicklung eines digitalen Ökosystems, das auf Open-Source-Technologie basiert und eine vernetzte Dateninfrastruktur bereitstellt. Das Projekt hat das Ziel, einen Datenaustausch zu ermöglichen, bei dem die Dateninhaber die Kontrolle über ihre Daten behalten und selbst festlegen können, wie diese genutzt werden. Gaia-X definiert gemeinsame Regeln, Standards und interoperable Schnittstellen, um den Austausch von Daten und Diensten zwischen verschiedenen Akteuren zu erleichtern und eine eigenständige Dateninfrastruktur in Europa zu etablieren.

a

EU AI Champions Initiative

r

Die "EU AI Champions Initiative", am 10. Februar 2025 gestartet, vereint über 60 führende europäische Unternehmen mit dem Ziel, Europa als globalen Vorreiter in der KI-Entwicklung zu etablieren. Sie mobilisiert 150 Milliarden Euro für KI-bezogene Investitionen in Europa über die nächsten fünf Jahre und strebt eine vereinfachte KI-Regulierung sowie verstärkte Investitionen in Infrastruktur an. Die Initiative zielt darauf ab, die KI-Adoption in kritischen Sektoren wie Fertigung, Energie, Gesundheitswesen und Verteidigung zu beschleunigen und Europas Wettbewerbsfähigkeit zu stärken.

a

InvestAI

r

Die "InvestAI"-Initiative wurde am 11. Februar 2025 von EU-Kommissionspräsidentin Ursula von der Leyen auf dem AI Action Summit in Paris vorgestellt und soll 200 Milliarden Euro für KI-Investitionen in Europa mobilisieren. Sie umfasst einen neuen europäischen Fonds von 20 Milliarden Euro für KI-Gigafabriken, die sich auf das Training komplexer, sehr großer KI-Modelle spezialisieren werden. InvestAI zielt darauf ab, die größte öffentlich-private Partnerschaft der Welt für die Entwicklung vertrauenswürdiger KI zu schaffen und allen Unternehmen Zugang zu Großrechnerkapazitäten zu ermöglichen.

a

Frankreich

r

Emmanuel Macron kündigte am 9. Februar 2025 eine massive KI-Initiative für Frankreich an, die Investitionen in Höhe von 109 Milliarden Euro "in den kommenden Jahren" vorsieht1. Der Plan umfasst den Bau von Rechenzentren, internationale Partnerschaften wie ein Abkommen mit den Vereinigten Arabischen Emiraten, und ein ehrgeiziges Bildungsziel, jährlich 100.000 Jugendliche in KI-Technologien auszubilden13. Diese Initiative zielt darauf ab, Frankreichs Position im globalen KI-Wettbewerb zu stärken und die technologische Unabhängigkeit Europas zu fördern, wobei Macron betonte, dass Investitionen der Schlüssel zum Erfolg in diesem Sektor sind

Deutschland

"AI made in Germany"

r

"AI made in Germany" ist eine Initiative der deutschen Bundesregierung, die darauf abzielt, Deutschland als führenden Standort für Künstliche Intelligenz (KI) zu etablieren und die Entwicklung vertrauenswürdiger KI-Technologien zu fördern. Mit Investitionen von mehreren Milliarden Euro bis 2025 soll die Wettbewerbsfähigkeit Deutschlands im Bereich KI gestärkt und ein Ökosystem für Forschung, Entwicklung und Anwendung von KI geschaffen werden. Ziel ist es, "AI made in Germany" zu einem weltweit anerkannten Gütesiegel für schnelle, sichere und skalierbare KI-Lösungen zu machen, die auf transparenten Qualitäts- und Prüfstandards basieren.

KI Bundesverband

r

Der KI Bundesverband ist das größte Netzwerk für Künstliche Intelligenz in Deutschland mit mehr als 400 innovativen KI-Unternehmen, KMUs, Start-ups und Experten als Mitglieder. Er setzt sich dafür ein, dass KI-Technologien im Sinne europäischer und demokratischer Werte entwickelt und eingesetzt werden, und arbeitet daran, Deutschland und die EU zu einem attraktiven Standort für KI-Unternehmer zu machen. Der Verband vernetzt KI- und Deep-Tech-Unternehmen mit der etablierten Wirtschaft und Politik, fördert Innovationen und fungiert als Sprachrohr in die Politik.

a

KI.NRW

r

KI.NRW ist die zentrale Kompetenzplattform für Künstliche Intelligenz in Nordrhein-Westfalen, die das Bundesland zu einem führenden Standort für angewandte KI ausbauen soll. Sie vernetzt Akteure aus Forschung, Wirtschaft und Gesellschaft, um den Wissenstransfer zu beschleunigen, KI-Kompetenzen zu bündeln und den Einsatz von KI besonders in kleinen und mittleren Unternehmen voranzutreiben. Unter der Leitung des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS bietet KI.NRW verschiedene Unterstützungsangebote wie Beratungen, Veranstaltungen und Leuchtturmprojekte, um die Entwicklung und Anwendung von KI-Technologien in NRW zu fördern.

a

Amerika

Stargate

r

Die amerikanische Stargate-KI-Initiative ist ein im Januar 2025 angekündigtes Gemeinschaftsprojekt von OpenAI, SoftBank, Oracle und MGX, das darauf abzielt, innerhalb von vier Jahren 500 Milliarden US-Dollar in die KI-Infrastruktur der USA zu investieren. Unter der Leitung von Masayoshi Son, dem CEO von SoftBank, plant das Projekt den Bau von Rechenzentren, beginnend in Texas, und die Schaffung von über 100.000 Arbeitsplätzen, um die amerikanische Führungsrolle im Bereich der Künstlichen Intelligenz zu stärken.

Wichtige Veröffentlichungen

The Age of AI

r

Das Buch "The Age of AI", verfasst von Henry Kissinger, Eric Schmidt und Daniel Huttenlocher, untersucht die tiefgreifenden Auswirkungen der Künstlichen Intelligenz auf die menschliche Identität, Gesellschaft und das Wissen. Die Autoren argumentieren, dass KI das humanistische Weltbild in Frage stellt, indem sie Aufgaben übernimmt, die traditionell dem menschlichen Verstand vorbehalten waren, wie Schreiben und Komponieren. Sie warnen vor den potenziellen Risiken und Herausforderungen, die mit der zunehmenden Automatisierung und den algorithmischen Entscheidungen einhergehen, und diskutieren die Notwendigkeit einer ethischen Auseinandersetzung mit diesen Technologien. Das Buch bietet eine umfassende Analyse darüber, wie KI unsere Realität verändert und welche Fragen sich hinsichtlich der menschlichen Autonomie und Würde stellen. Letztlich wird betont, dass die Zukunft der Menschheit im Kontext von KI nicht nur technologische, sondern auch tiefgreifende menschliche Entscheidungen erfordert.

Attention Is All You Need

r

Das Paper "Attention is All You Need", veröffentlicht im Jahr 2017 von einem Team bei Google, hat die Grundlagen der modernen Künstlichen Intelligenz revolutioniert, indem es die Transformer-Architektur einführte. Diese Architektur nutzt einen Aufmerksamkeitsmechanismus, der es ermöglicht, Eingabesequenzen parallel zu verarbeiten, was die Effizienz und Leistung bei Aufgaben wie maschineller Übersetzung erheblich verbessert. Der Transformer hat sich als grundlegendes Modell für viele große Sprachmodelle etabliert, und hat die Entwicklung generativer KI vorangetrieben. Die Arbeit zeigt auf, dass der Fokus auf Aufmerksamkeit allein ausreicht, um komplexe Sprachverarbeitungsaufgaben zu bewältigen, was zu einer breiten Anwendung in verschiedenen Bereichen wie Textgenerierung, Bildverarbeitung und multimodaler KI geführt hat. Das Paper selbst ist für Einsteiger ohne Vorkenntnisse herausfordernd. Mit begleitenden Ressourcen und etwas Vorarbeit in den Grundlagen von ML und NLP können jedoch die Kernideen und die Bedeutung des Transformers zugänglicher gemacht werden.

a

Standford AI Index Report

r

Der Stanford AI Index Report analysiert jährlich den aktuellen Stand der Künstlichen Intelligenz (KI) weltweit und bietet umfassende Einblicke in technologische Fortschritte, wirtschaftliche Trends und gesellschaftliche Auswirkungen. Der Bericht betrachtet Bereiche wie Forschung, Investitionen, Anwendungen und die Entwicklung ethischer Standards in der KI. Er zeigt, welche Länder und Organisationen führend in der KI-Entwicklung sind, mit besonderem Fokus auf den USA, China und Europa. Zusätzlich bietet er detaillierte Daten zu den Kosten von KI-Training, Fortschritten in der Wissenschaft und den Einflüssen auf globale Märkte. Der Report dient als unverzichtbare Orientierungshilfe für Entscheidungsträger in Politik, Wirtschaft und Wissenschaft, um die Auswirkungen von KI fundiert zu bewerten. Seine Bedeutung liegt in der Förderung eines tieferen Verständnisses der globalen KI-Landschaft und ihrer Potenziale.

a

Ausblick/Zukunft der KI

Google Titan

r

Die Google-Titan-Architektur ist eine Weiterentwicklung der Transformer-Modelle, die durch die Integration eines Langzeitgedächtnisses eine effizientere Verarbeitung großer Datenkontexte ermöglicht. Sie kombiniert kurzfristige und langfristige Speichermodule, um Informationen über längere Zeiträume hinweg zu speichern und während der Inferenz zu lernen. Diese Architektur könnte die nächste Generation von KI-Modellen prägen, befindet sich aber derzeit noch in der Forschungsphase und ist nicht öffentlich verfügbar.

a

Extended Long Short-Term Memory (xLSTM)

r

xLSTM (Extended Long Short-Term Memory) ist eine innovative KI-Architektur, die von Sepp Hochreiter und seinem Team entwickelt wurde. Sie erweitert das traditionelle LSTM-Konzept durch die Einführung von Innovationen wie exponentiellem Gating und optimierten Speicherstrukturen. xLSTM zielt darauf ab, die Effizienz und Leistungsfähigkeit bei der Verarbeitung langer Textsequenzen und komplexer Aufgaben zu steigern, indem es Elemente verschiedener KI-Ansätze kombiniert. Diese Technologie könnte weitreichende Konsequenzen für die KI-Landschaft haben. xLSTM verspricht, effizienter, schneller und genauer zu arbeiten als bisherige Large Language Models (LLMs). Dies könnte zu einer neuen Generation von KI-Systemen führen, die komplexe Texte besser verstehen und generieren können. Insbesondere könnte xLSTM industrielle Anwendungen ermöglichen, für die Transformer-Modelle bisher zu langsam waren. Die gesteigerte Effizienz könnte auch den Energieverbrauch und die Kosten für KI-Anwendungen reduzieren, was wiederum zu einer breiteren Adoption von KI-Technologien in verschiedenen Branchen führen könnte.

a

Long Term Memory (LTM)

r

Long-Term Memory (LTM) ist ein grundlegendes Konzept in der KI-Entwicklung, das es Modellen ermöglicht, Informationen aus Interaktionen und Erfahrungen über längere Zeiträume zu speichern und zu nutzen. Es bildet die Grundlage für kontinuierliches Lernen und die Anpassung von KI-Systemen an neue Situationen, indem es die Darstellung von individuellen Erfahrungen in statistischen Modellen ermöglicht. LTM unterstützt die Selbstevolution von KI-Modellen, indem es ihnen erlaubt, verschiedene Erfahrungen über unterschiedliche Umgebungen hinweg zu sammeln und zu nutzen, was besonders wichtig für die Entwicklung von KI-Systemen ist, die sich während der Inferenzphase weiterentwickeln können.

LTM-2-mini

r

Das LTM-2-mini ist ein von Magic entwickeltes (und noch nicht öffentlich zugängliches) KI-Modell, das ein außergewöhnlich großes Kontextfenster von 100 Millionen Tokens verarbeiten kann, was etwa 10 Millionen Codezeilen oder 750 Romanen entspricht. Dieses Modell ermöglicht es, umfangreiche und komplexe Datenmengen effizient zu analysieren, indem es einen Algorithmus verwendet, der für die Verarbeitung langer Sequenzen etwa 1000-mal effizienter ist als herkömmliche Aufmerksamkeitsmechanismen. Magic entwickelt solche Modelle mit dem Ziel, KI-Systeme zu schaffen, die in der Lage sind, kontinuierlich zu lernen, große Mengen von Informationen im Kontext zu behalten und damit komplexe Probleme langfristig und präzise zu lösen – insbesondere in datenintensiven Bereichen wie Softwareentwicklung und Forschung.

a

Artifical General Intelligence (AGI)

r

Artificial General Intelligence (AGI) beschreibt eine hypothetische Form der künstlichen Intelligenz, die menschenähnliche kognitive Fähigkeiten besitzt. Im Gegensatz zu heutigen KI-Systemen, die als schwache KI oder Artificial Narrow Intelligence (ANI) gelten, soll AGI in der Lage sein, flexibel und unabhängig eine Vielzahl von Aufgaben zu bewältigen, ohne auf spezifische Trainingsdaten angewiesen zu sein. AGI würde kontextübergreifendes Verständnis, Lernen und Anpassungsfähigkeit demonstrieren, ähnlich wie ein Mensch. Die Entwicklung einer echten AGI stellt jedoch noch große Herausforderungen dar. Grundlegende Aspekte wie Bewusstsein, Vernunft und echte Generalisierung bleiben ungelöst. Prognosen zur Realisierung von AGI variieren stark: Optimisten wie Sam Altman sehen die Möglichkeit einer AGI bereits in wenigen Jahren, basierend auf dem exponentiellen Fortschritt in Rechenleistung und KI-Technologien. Skeptiker wie Gary Marcus argumentieren hingegen, dass fundamentale Probleme wie Kausalität und echtes Verständnis AGI zu einem langfristigen Ziel machen, das möglicherweise erst im späteren 21. Jahrhundert erreicht wird. Neben den technischen Herausforderungen stehen auch ethische und existenzielle Risiken im Fokus der AGI-Diskussion. Viele Experten plädieren daher für eine vorsichtige und regulierte Entwicklung, um potenzielle Gefahren zu minimieren und die Vorteile dieser Technologie verantwortungsvoll zu nutzen.

Singularität

r

Die technologische Singularität beschreibt einen hypothetischen zukünftigen Punkt, an dem künstliche Intelligenz die menschliche Intelligenz übertrifft und durch kontinuierliche Selbstverbesserung eine explosionsartige Weiterentwicklung erfährt, die jenseits menschlicher Vorhersage- und Verständnisfähigkeit liegt. Diese Idee basiert auf der Annahme, dass eine superintelligente KI (ASI) in der Lage wäre, sich selbst immer weiter zu verbessern, was zu einem exponentiellen Wissenszuwachs führen würde, dessen Konsequenzen für die menschliche Zivilisation kaum abschätzbar wären.

Artifical Super Intelligence (ASI)

r

Eine Artificial Super Intelligence (ASI) beschreibt eine hypothetische Form der künstlichen Intelligenz, die die menschliche Intelligenz in praktisch allen Bereichen bei weitem übertrifft. Eine ASI würde nicht nur über die Fähigkeiten einer AGI (menschenähnliche Intelligenz) verfügen, sondern diese um ein Vielfaches übersteigen, wodurch ihre kognitiven Fähigkeiten, Entscheidungsprozesse und möglichen Handlungen jenseits des menschlichen Verständnishorizonts liegen könnten.

Intelligence/AI Explosion

r

Der Begriff "Intelligence Explosion" (oft auch als "AI Explosion" bezeichnet) wurde ursprünglich von I.J. Good im Jahr 1965 geprägt. Er beschreibt einen hypothetischen Prozess, bei dem eine künstliche Intelligenz die Fähigkeit erlangt, sich selbst zu verbessern, was zu einer sich selbst verstärkenden Spirale führt: Jede Verbesserung ermöglicht weitere, noch schnellere Verbesserungen, wodurch die Intelligenz exponentiell zunimmt und schließlich eine Superintelligenz entsteht. Dieser Gedanke ist eng mit dem Konzept der technologischen Singularität verbunden und wurde später von Autoren wie Ray Kurzweil und Nick Bostrom weiterentwickelt.

KI-Infrastruktur

r

Die Infrastruktur ist von entscheidender Bedeutung für KI, da sie die Grundlage für das Training, die Bereitstellung und den Betrieb komplexer Modelle bildet. Hochleistungsfähige Hardware wie GPUs, skalierbare Cloud-Dienste und optimierte Datenpipelines ermöglichen es, die enormen Rechenanforderungen und Datenmengen moderner KI-Anwendungen effizient zu bewältigen. Ohne eine robuste und skalierbare Infrastruktur wäre die Entwicklung und Nutzung leistungsfähiger KI-Modelle in großem Maßstab nicht möglich.

Rechenzentren

r

Rechenzentren sind das Rückgrat der KI-Infrastruktur, da sie die massive Rechenleistung und Speicherkapazität bereitstellen, die für das Training und den Betrieb großer KI-Modelle benötigt wird. Diese spezialisierten Einrichtungen müssen nicht nur mit leistungsfähiger Hardware wie GPUs und Hochleistungsnetzwerken ausgestattet sein, sondern auch enorme Energiemengen bereitstellen und spezielle Kühlsysteme betreiben, wobei das Training großer Sprachmodelle so viel Energie verbrauchen kann wie ein kleines Rechenzentrum in einem ganzen Jahr. Besonders herausfordernd ist dabei der stetig wachsende Energiebedarf, der durch die zunehmende Größe der Modelle weiter steigt, zusätzliche Anforderungen an Kühlsysteme stellt und zunehmend auch unter Nachhaltigkeitsaspekten kritisch betrachtet wird.

Cloud Computing

r

Cloud Computing ist für KI-Infrastruktur von zentraler Bedeutung, da es den flexiblen Zugang zu skalierbarer Rechenleistung, Speicher und spezialisierten KI-Hardwareressourcen (wie GPUs) ermöglicht, ohne dass Unternehmen diese kostenintensive Infrastruktur selbst aufbauen und betreiben müssen. Dies demokratisiert den Zugang zu KI-Technologien, da auch kleinere Unternehmen und Entwickler über Cloud-Dienste auf leistungsfähige KI-Ressourcen zugreifen können, wobei die großen Cloud-Anbieter (wie AWS, Google Cloud, Azure) zusätzlich optimierte KI-Dienste und Entwicklungstools bereitstellen.

Hyperscaler

r

Ein Hyperscaler ist ein Technologieunternehmen, das Cloud-Computing-Dienste in globalem Maßstab anbietet und über ein weltweites Netzwerk von Rechenzentren verfügt. Diese Unternehmen zeichnen sich durch eine hochautomatisierte Infrastruktur mit hunderttausenden Servern aus. Sie bieten eine breite Palette an IT-Diensten an, von Rechenleistung über Speicher bis hin zu KI-Services. Ihre wichtigste Eigenschaft ist die Fähigkeit, Ressourcen nahezu unbegrenzt und in Sekundenschnelle zu skalieren.

Prozessor-Typen

Central Processing Unit (CPU)

r

Eine CPU (Central Processing Unit) ist der Hauptprozessor eines Computers und führt allgemeine Berechnungen und Steuerungsaufgaben durch. Im Kontext von KI ist die CPU für viele grundlegende Aufgaben wie Datenvorbereitung, Modellverwaltung und das Ausführen kleinerer KI-Modelle zuständig. Sie verarbeitet komplexe Anweisungen sequentiell, was sie für Aufgaben, die keine massive Parallelverarbeitung erfordern, geeignet macht. Während CPUs nicht die gleiche parallele Rechenleistung wie GPUs bieten, spielen sie dennoch eine wichtige Rolle in KI-Anwendungen, insbesondere bei Vor- und Nachbearbeitungsschritten und beim Inference-Einsatz von kleineren Modellen oder Modellen, die auf Effizienz optimiert sind. In vielen KI-Workflows arbeiten CPUs und GPUs zusammen, wobei die CPU organisatorische Aufgaben übernimmt und die GPU rechenintensive Aufgaben beschleunigt. Die CPUs werden zunehmend mit spezialisierten KI-Beschleunigern oder Neural Processing Units ausgestattet, um KI-Workloads effizienter verarbeiten zu können. Der Trend geht dabei zu hybriden Architekturen, die klassische CPU-Kerne mit spezialisierter KI-Hardware kombinieren.

AMD

r

AMD bietet mit seiner EPYC-Serie leistungsstarke Server-Prozessoren und mit der Ryzen-Serie Desktop- und Laptop-Prozessoren, die beide für KI-Workloads optimiert sind. Die neueren Generationen dieser CPUs enthalten spezielle KI-Beschleuniger, die besonders für kleinere KI-Anwendungen und Inference-Aufgaben relevant sind. Während sie nicht die reine KI-Leistung von spezialisierten GPUs erreichen, bieten sie durch die Integration von KI-Beschleunigern eine effiziente Möglichkeit, bestimmte KI-Workloads direkt auf der CPU zu verarbeiten.

Intel

r

Intel bietet mit seinen Xeon-Prozessoren leistungsstarke Server-CPUs für KI-Workloads und hat mit der Core-Serie Desktop- und Laptop-Prozessoren im Angebot, die zunehmend mit integrierten KI-Beschleunigern (Neural Processing Units) ausgestattet werden. Besonders hervorzuheben ist Intels Engagement im Bereich spezialisierter KI-Beschleuniger durch die Übernahme von Habana Labs und die Entwicklung der Gaudi-Prozessoren, die speziell für KI-Training und Inference optimiert sind. Diese Kombination aus klassischen CPUs mit KI-Beschleunigern und spezialisierten KI-Chips zeigt Intels strategische Ausrichtung auf den wachsenden KI-Markt.

Apple

r

Apple hat mit seiner M-Serie (M1, M2, M3) eigene Prozessoren entwickelt, die eine spezielle "Neural Engine" für KI-Aufgaben integrieren. Diese System-on-Chip (SoC) Designs kombinieren CPU, GPU und KI-Beschleuniger in einem einzigen Chip, wobei die Neural Engine speziell für maschinelles Lernen und KI-Anwendungen optimiert ist. Diese Integration ermöglicht es Apple, KI-Funktionen wie Gesichtserkennung, Sprachverarbeitung oder Bildverarbeitung direkt auf dem Gerät (on-device) effizient auszuführen, ohne dass Daten in die Cloud übertragen werden müssen.

ARM

r

ARM entwickelt CPU-Architekturen, die besonders energieeffizient sind, und vor allem im Bereich mobiler Geräte und eingebetteter Systeme eingesetzt werden. Mit der Neoverse-Plattform bietet ARM auch Designs für Server-Prozessoren an. Die ARM-Designs integrieren zunehmend spezielle Einheiten für KI-Berechnungen, wobei der Fokus auf effizienter Edge-KI liegt - also KI-Verarbeitung direkt auf Mobilgeräten oder IoT-Geräten. Anders als AMD oder Intel stellt ARM selbst keine Prozessoren her, sondern lizenziert seine Designs an Chiphersteller wie Apple, Qualcomm oder Samsung, die diese dann in ihre eigenen Chips integrieren.

Graphics Processing Unit (GPU)

r

Eine GPU (Graphics Processing Unit) ist ein spezieller Prozessor, der ursprünglich entwickelt wurde, um Grafiken und Bilder schnell zu rendern, indem er viele einfache Berechnungen parallel verarbeitet. Diese parallele Rechenkapazität macht GPUs auch ideal für KI- und maschinelles Lernen, insbesondere für das Training und die Ausführung großer neuronaler Netzwerke, die Millionen von Berechnungen parallel ausführen. Im KI-Bereich beschleunigen GPUs die Verarbeitungsgeschwindigkeit erheblich, was entscheidend ist, um große Datenmengen in kürzerer Zeit zu verarbeiten und komplexe Modelle effizient zu trainieren. Dadurch sind GPUs ein wichtiger Bestandteil der Hardware-Infrastruktur für moderne KI-Modelle und unerlässlich für Deep Learning und andere rechenintensive Anwendungen.

NVIDIA

r

NVIDIA ist derzeit der dominierende Hersteller von GPUs für KI-Anwendungen. Mit ihrer Data Center GPU-Serie (besonders den A100 und H100 Chips) setzt das Unternehmen den Industriestandard für KI-Training und Inference. Besonders wichtig ist dabei nicht nur die Hardware, sondern auch das CUDA-Ökosystem - eine Entwicklungsplattform, die zum De-facto-Standard für KI-Entwicklung geworden ist. Diese Kombination aus leistungsfähiger Hardware und ausgereiftem Software-Ökosystem hat NVIDIA eine marktbeherrschende Stellung im KI-Bereich verschafft, was sich auch in der starken Nachfrage nach ihren Produkten und dem Unternehmenswert widerspiegelt.

AMD

r

AMD ist ein führender Hersteller von Grafikprozessoren (GPUs) und bietet mit der Instinct-Serie speziell für KI-Anwendungen optimierte Chips an. Das Unternehmen setzt dabei auf eine offene Software-Plattform namens ROCm, die Entwicklern viele Freiheiten bei der Programmierung von KI-Anwendungen gibt. AMD investiert stark in die Weiterentwicklung seiner KI-Technologien und arbeitet kontinuierlich daran, seine Position im wachsenden Markt für KI-Hardware auszubauen.

INTEL

r

Intel ist ein relativ neuer Akteur im GPU-Markt und hat mit der Arc-Serie seine ersten dezidierten Grafikkarten eingeführt. Das Unternehmen verfolgt dabei einen ganzheitlichen Ansatz mit seiner oneAPI-Plattform, die die Integration verschiedener Prozessortypen (CPU, GPU, FPGA) ermöglicht. Im KI-Bereich konzentriert sich Intel derzeit mehr auf seine speziellen KI-Beschleuniger (wie Gaudi) als auf klassische GPUs. Die GPU-Entwicklung bei Intel ist Teil einer breiteren Strategie, verschiedene Hardware-Lösungen für KI-Workloads anzubieten.

Inference-Chip

r

Inference-Chips sind spezialisierte Prozessoren, die für die effiziente Ausführung (Inference) von bereits trainierten KI-Modellen optimiert sind. Diese AI Accelerators unterscheiden sich von klassischen GPUs und CPUs dadurch, dass sie spezifisch für die bei KI-Inference benötigten Berechnungen designed sind und dabei besonders energie- und kosteneffizient arbeiten.

Language Processing Unit (LPU)

r

Eine LPU (Language Processing Unit) ist eine spezialisierte Hardware-Komponente, die speziell für die effiziente Verarbeitung von Sprachmodellen und NLP-Aufgaben (Natural Language Processing) entwickelt wurde. Im Gegensatz zu GPUs und CPUs ist sie spezifisch für die Anforderungen von Transformer-Architekturen und Attention-Mechanismen optimiert, was sie besonders effizient bei der Ausführung großer Sprachmodelle macht. Der Hauptzweck von LPUs liegt in der Reduzierung von Betriebskosten und Energieverbrauch bei der Ausführung von Sprachmodellen, während gleichzeitig die Geschwindigkeit der Inferenz verbessert wird. Als relativ neue Entwicklung in der KI-Hardware sind LPUs noch weniger verbreitet als GPUs oder CPUs, repräsentieren aber den wichtigen Trend hin zu spezialisierter Hardware für spezifische KI-Anwendungen.

Groq

r

Groq ist ein US-amerikanisches Technologieunternehmen, das 2016 gegründet wurde und sich auf die Entwicklung spezialisierter Hardware für Künstliche Intelligenz (KI) fokussiert. Mit ihrer Language Processing Unit (LPU) bietet Groq eine Lösung, die besonders für die effiziente Verarbeitung großer Sprachmodelle ausgelegt ist und hohe Geschwindigkeit sowie Energieeffizienz ermöglicht. Das Unternehmen setzt dabei auf innovative KI-Beschleunigertechnologien, die die Leistung und Skalierbarkeit für anspruchsvolle KI-Anwendungen optimieren.

a

HyperAccel

r

HyperAccel ist ein südkoreanisches Technologieunternehmen, das sich auf die Entwicklung von Hardwarelösungen für Künstliche Intelligenz (KI) spezialisiert hat und derzeit eine Language Processing Unit (LPU) entwickelt. Diese LPU ist darauf ausgelegt, die Verarbeitung großer Sprachmodelle effizienter und schneller zu gestalten, um speziell die Anforderungen transformerbasierter KI-Modelle zu erfüllen. In Zusammenarbeit mit SEMIFIVE arbeitet HyperAccel am KI-Chip „Bertha“, der auf der LPU-Technologie basiert und ab 2026 in die Massenproduktion gehen soll, um die Skalierbarkeit und Leistung von KI-Anwendungen zu verbessern.

Tensor Processing Unit (TPU)

r

TPUs (Tensor Processing Units) sind spezialisierte KI-Beschleuniger, die von Google entwickelt wurden. Sie sind darauf ausgelegt, die bei KI-Modellen häufig vorkommenden Tensoroperationen besonders effizient auszuführen. TPUs gibt es in zwei Hauptvarianten: Einige sind für das rechenintensive Training von KI-Modellen optimiert, während andere speziell für Inference - also das Ausführen bereits trainierter Modelle - designed sind. Die Inference-optimierten TPUs können als eine Art von Inference-Chips betrachtet werden, auch wenn sie sich von klassischen Inference-Chips durch ihre spezielle Architektur unterscheiden. Im Gegensatz zu reinen Inference-Chips, die ausschließlich für die Modellausführung gedacht sind, bieten TPUs also mehr Flexibilität. Sie werden hauptsächlich in Googles Cloud-Infrastruktur eingesetzt, wo sie je nach Version und Konfiguration sowohl für Training als auch für Inference genutzt werden können. Diese Vielseitigkeit macht sie zu einem besonderen Typ von KI-Beschleunigern.

Unified Memory

r

Unified Memory bezeichnet eine Speicherarchitektur, bei der sich CPU und GPU einen gemeinsamen Arbeitsspeicher teilen, anstatt separate Speicherbereiche zu verwenden. Diese gemeinsame Nutzung eliminiert die Notwendigkeit, Daten zwischen CPU- und GPU-Speicher zu kopieren, was zu deutlich schnelleren Verarbeitungszeiten und einer effizienteren Speichernutzung führt. Das Konzept wurde besonders durch Apple's M1/M2/M3-Chips populär, die diese Architektur erfolgreich einsetzen, ist aber auch in anderen modernen Systemen wie Gaming-Konsolen zu finden. Die gemeinsame Speichernutzung ermöglicht es dem System, die verfügbare Speicherbandbreite dynamisch zwischen CPU und GPU aufzuteilen, wodurch die Gesamtleistung des Systems optimiert wird.

Grundlagen für LLMs
- Machine Learning

r

Machine Learning ist ein Teilgebiet der künstlichen Intelligenz, bei dem Computersysteme die Fähigkeit erhalten, aus Erfahrungen zu lernen und sich zu verbessern, ohne explizit programmiert zu werden. Statt feste Regeln zu befolgen, erkennen Machine Learning Algorithmen Muster in Daten und entwickeln Modelle, die Vorhersagen treffen oder Entscheidungen ohne menschliches Eingreifen fällen können. Diese datengetriebene Herangehensweise ermöglicht es Systemen, komplexe Aufgaben wie Bilderkennung, Sprachverarbeitung oder Empfehlungssysteme zu bewältigen, indem sie aus Beispielen lernen und ihre Leistung mit mehr Daten kontinuierlich verbessern.

Trainingsmethoden

Unsupervised Learning

r

Unsupervised Learning ist ein Paradigma des maschinellen Lernens, bei dem Algorithmen ohne vorgegebene Labels oder Zielwerte Muster, Strukturen und Zusammenhänge in Daten selbständig erkennen und extrahieren. Dieser Ansatz ermöglicht es KI-Systemen, verborgene Strukturen in großen, unstrukturierten Datensätzen zu entdecken und zu organisieren, wie beispielsweise durch Clustering, Dimensionsreduktion oder Anomalieerkennung. Da Unsupervised Learning keine menschlich etikettierten Daten benötigt, kann es mit deutlich größeren Datenmengen trainiert werden und eignet sich besonders für Aufgaben, bei denen die "richtigen Antworten" nicht im Voraus bekannt sind. Für Large Language Models ist Unsupervised Learning in der Regel die Grundlage des Pre-Training-Prozesses, bei dem die Modelle anhand enormer Textmengen lernen, Wortsequenzen vorherzusagen und dadurch ein tiefes Verständnis für Sprache, Wissen und Kontext entwickeln. Diese unsupervised vortrainierten Sprachmodelle erfassen die statistischen Muster menschlicher Sprache und bilden damit das Fundament, auf dem spezifischere Fähigkeiten durch nachfolgende Trainingsmethoden aufbauen können.

Supervised Learning

r

Supervised Learning ist ein Paradigma des maschinellen Lernens, bei dem Algorithmen anhand von Beispielpaaren aus Eingaben und korrekten Ausgaben (Labels) trainiert werden, um Muster zu erkennen und Regeln abzuleiten. Diese Methode ermöglicht es KI-Systemen, Zusammenhänge zwischen Merkmalen und Zielwerten zu erlernen und auf neue, ungesehene Daten zu verallgemeinern. Supervised Learning bildet die Grundlage für zahlreiche praktische KI-Anwendungen wie Bilderkennung, Sprachübersetzung oder medizinische Diagnostik, da es präzise Vorhersagen auf klar definierten Aufgaben ermöglicht. Für Large Language Models wird Supervised Learning insbesondere beim Finetuning eingesetzt, wo vortrainierte Modelle auf spezifische Aufgaben oder gewünschte Verhaltensweisen hin optimiert werden, indem sie mit hochwertigen Beispielen für korrekte Antworten auf bestimmte Anfragen trainiert werden. Diese supervised Feinabstimmung ist entscheidend, um LLMs von allgemeinen Sprachmodellen zu nützlichen Assistenzsystemen zu transformieren, die präzise auf menschliche Anfragen reagieren und spezifische Aufgaben zuverlässig erfüllen können.

Reinforcement Learning

r

Reinforcement Learning ist ein KI-Lernparadigma, bei dem ein System durch Interaktion mit einer Umgebung lernt, indem es für wünschenswerte Aktionen belohnt und für unerwünschte bestraft wird, wodurch es eine Strategie entwickelt, die langfristige Belohnungen maximiert. Dieser Ansatz ermöglicht KI-Systemen, komplexe Aufgaben eigenständig zu meistern, ohne dass ihnen explizite Lösungswege vorgegeben werden müssen. Die Trial-and-Error-Methodik des Reinforcement Learning führt zu adaptiven, selbstverbessernden Systemen, die in unvorhersehbaren und dynamischen Umgebungen agieren können. Für Large Language Models bietet Reinforcement Learning die Möglichkeit, über das reine Vorhersagen von Wörtern hinaus zu komplexen Zielen wie Nützlichkeit, Ehrlichkeit und Sicherheit optimiert zu werden. Diese Optimierung transformiert LLMs von reinen Text-Vorhersagemaschinen zu Assistenzsystemen, die bewusst auf die Qualität ihrer Antworten im Sinne menschlicher Werte und Erwartungen ausgerichtet sind.

Reinforcement Learning with
Human Feedback (RLHF)

r

Nach dem Fine-tuning kommt typischerweise das RLHF (Reinforcement Learning from Human Feedback), bei dem das Modell durch menschliches Feedback lernt, bessere und vor allem nützlichere Antworten zu generieren. Dabei bewerten Menschen die Ausgaben des Modells, und das System lernt aus diesem Feedback, welche Antworten als hilfreich und angemessen empfunden werden - ähnlich wie ein Praktikant, der von erfahrenen Kollegen Rückmeldung zu seiner Arbeit bekommt und daraus lernt, wie er sich verbessern kann. Zusätzlich werden oft noch spezielle Sicherheits- und Alignment-Techniken wie Constitutional AI eingesetzt, die sicherstellen sollen, dass das Modell ethisch und sicher agiert und seine Fähigkeiten im Sinne menschlicher Werte einsetzt.

Ground Truth

r

Ground Truth im Kontext von Machine Learning bezeichnet präzise und verifizierte Daten, die als Referenz für das Training, die Validierung und das Testen von Modellen verwendet werden. Diese Daten dienen als "goldener Standard", um die Genauigkeit der Modellvorhersagen zu überprüfen, indem sie mit den tatsächlichen, beobachteten Ergebnissen verglichen werden. Besonders in überwachten Lernverfahren ist Ground Truth essenziell, da Modelle durch korrekt gelabelte Datensätze lernen, Muster zu erkennen und Vorhersagen zu treffen. Die Qualität und Zuverlässigkeit der Ground-Truth-Daten beeinflusst direkt die Leistung des Modells und ist entscheidend für dessen Anwendung in realen Szenarien.

Neuronale Netzwerke

r

Neuronale Netze sind mathematische Modelle, die aus miteinander verbundenen künstlichen Neuronen bestehen und durch ihre schichtweise Anordnung komplexe Muster in Daten erkennen können. Sie ahmen in vereinfachter Form die Funktionsweise des menschlichen Gehirns nach, indem Signale zwischen Neuronen übertragen und durch Gewichtungen verstärkt oder abgeschwächt werden. Durch Trainingsverfahren wie Backpropagation können diese Netze lernen, ihre Gewichtungen so anzupassen, dass sie spezifische Aufgaben immer besser bewältigen. Bei modernen Sprachmodellen spielt besonders die Transformer-Architektur mit ihrem "Attention"-Mechanismus eine entscheidende Rolle, da sie es ermöglicht, Beziehungen zwischen verschiedenen Textteilen unabhängig von deren Position zu erkennen und zu gewichten. Diese Fähigkeit, kontextuelle Zusammenhänge über lange Textpassagen hinweg zu erfassen, bildet die Grundlage für die beeindruckenden Leistungen heutiger Large Language Models bei der Verarbeitung und Generierung natürlicher Sprache.

Deep Learning

r

Deep Learning ist die zentrale Technologie, die moderne Sprachmodelle überhaupt erst möglich macht, da sie durch ihre vielschichtigen (tiefen) neuronalen Netzwerke komplexe sprachliche Muster und Zusammenhänge aus großen Datenmengen lernen können. Die Besonderheit liegt in der Fähigkeit des Deep Learning, durch seine vielen Verarbeitungsebenen (Layer) automatisch relevante Merkmale aus den Rohdaten zu extrahieren - von einfachen Wortbeziehungen in den unteren Schichten bis hin zu komplexen semantischen Konzepten in den höheren Schichten, wobei die Transformer-Architektur als spezielle Form des Deep Learning den aktuellen Stand der Technik für Sprachmodelle darstellt.

Transformer-Architektur

r

Die Transformer-Architektur, 2017 von Google mit dem Paper "Attention is All You Need" eingeführt, revolutionierte die Verarbeitung von Sprache durch einen neuartigen Aufbau: Die Kernelemente sind: 1. Der "Self-Attention"-Mechanismus, der es dem Modell ermöglicht, die Bedeutung eines Wortes im Kontext aller anderen Wörter eines Satzes gleichzeitig zu erfassen, statt sequentiell wie bei früheren Architekturen 2. Eine Encoder-Decoder-Struktur, wobei der Encoder die Eingabe verarbeitet und in eine abstrakte Repräsentation umwandelt, während der Decoder diese Repräsentation in die gewünschte Ausgabe übersetzt 3. Multi-Head Attention, die es ermöglicht, verschiedene Arten von Beziehungen zwischen Wörtern parallel zu analysieren 4. Positional Encoding, das die Position der Wörter im Text berücksichtigt Diese Architektur ermöglicht es modernen Sprachmodellen, Sprache deutlich besser zu verstehen und zu generieren als frühere Ansätze.

Embedding Layer

r

Ein Embedding Layer ist eine grundlegende Komponente in Sprachmodellen, die Text für die weitere Verarbeitung vorbereitet, indem sie Wörter oder Tokens in dichte, kontinuierliche Vektoren (Embeddings) umwandelt. Diese Vektoren stellen Wörter in einem mehrdimensionalen Raum dar, wobei semantisch ähnliche Wörter nahe beieinander liegen - beispielsweise würden die Vektoren für "König" und "Königin" oder "laufen" und "rennen" ähnliche Positionen im Vektorraum einnehmen. Das ist wichtig, weil neuronale Netze nicht direkt mit Text arbeiten können, sondern numerische Repräsentationen benötigen, wobei die Embeddings die Bedeutung und Beziehungen zwischen Wörtern in einer für das Modell verarbeitbaren Form kodieren.

Mixture of Experts (MoE)

r

Mixture of Experts (MoE) ist eine KI-Architektur, bei der mehrere spezialisierte neuronale Netzwerke (Experten) parallel existieren, wobei ein Gating-Mechanismus dynamisch entscheidet, welche Experten für eine bestimmte Eingabe aktiviert werden sollen. Der Gating-Mechanismus bewertet jede Eingabe und leitet sie an die relevantesten Experten weiter, oft durch "Sparse Gating", bei dem nur eine kleine Teilmenge aller verfügbaren Experten aktiviert wird. Diese Kombination aus Spezialisierung und selektiver Aktivierung ermöglicht wesentlich größere und leistungsfähigere Modelle, die effizienter mit Rechenressourcen umgehen, da für jede Anfrage nur ein Bruchteil des gesamten Modells berechnet werden muss.

Sprachmodelle

r

Sprachmodelle sind KI-Modelle, die darauf trainiert wurden, Muster und Bedeutungen in natürlicher Sprache zu erkennen und Texte basierend auf diesen Mustern zu erzeugen. Sie können auf verschiedene Aufgaben wie Textgenerierung, -klassifikation und -verständnis angewendet werden und ermöglichen Anwendungen von Chatbots bis hin zu maschineller Übersetzung. Alle derzeitig bekannten Sprachmodelle bauen auf neuronalen Netzwerken und der Transformerarchitektur auf.

Large Language Models (LLM)

r

Ein Large Language Model (LLM) ist ein neuronales Sprachmodell mit einer sehr großen Anzahl an Parametern (typischerweise über 1 Milliarde), das auf großen Textmengen trainiert wurde. LLMs können durch ihr umfangreiches Training komplexe sprachliche Muster erkennen und für vielfältige Aufgaben wie Textgenerierung, Übersetzung oder Beantwortung von Fragen eingesetzt werden.

"Lightweight" LLM

r

Lightweight LLMs sind komprimierte oder destillierte Versionen größerer Sprachmodelle, die darauf abzielen, die wesentlichen Fähigkeiten des ursprünglichen Modells bei deutlich reduziertem Ressourcenbedarf zu erhalten. Sie entstehen durch verschiedene Optimierungstechniken wie Quantisierung, Pruning oder Knowledge Distillation, wobei das Ziel ist, die Modellgröße und den Ressourcenverbrauch zu minimieren, während möglichst viel der ursprünglichen Leistungsfähigkeit bewahrt wird. Der Hauptvorteil von Lightweight LLMs liegt in ihrer Einsatzfähigkeit auf ressourcenbeschränkten Systemen oder Edge-Geräten, wodurch sie sich besonders für lokale Anwendungen eignen, bei denen Effizienz und Geschwindigkeit wichtig sind.

Small Language Models (SLM)

r

Ein Small Language Model (SLM) ist ein neuronales Sprachmodell mit einer vergleichsweise geringen Anzahl an Parametern (typischerweise unter 1 Milliarde), das für spezifische Aufgaben oder Domänen optimiert wurde. SLMs sind ressourceneffizienter als große Modelle und können auf Edge-Geräten oder in Umgebungen mit begrenzten Rechenkapazitäten eingesetzt werden.

Training von Sprachmodellen

r

Das Training von Sprachmodellen beginnt mit einer riesigen Menge an Textdaten, die das Modell analysiert, um Sprachmuster, Wortbeziehungen und Kontextinformationen zu lernen. Zunächst wird der Text in Tokens (kleine Einheiten wie Wörter oder Wortteile) zerlegt, die das Modell verarbeitet. Durch Deep Learning und den Einsatz von Techniken wie der Transformer-Architektur lernt das Modell, Vorhersagen zu treffen, welches Wort oder Token am wahrscheinlichsten als nächstes im Text folgen sollte, indem es Abhängigkeiten und Kontexte im Text berücksichtigt. Während des Trainings berechnet das Modell seine Vorhersagen und vergleicht sie mit den tatsächlichen Wörtern im Text, wobei es Fehler durch sogenannte Rückpropagation korrigiert. Dieser Prozess wiederholt sich millionenfach, wodurch das Modell allmählich lernt, sinnvolle und kohärente Texte zu generieren. Schließlich wird das Modell oft auf spezifische Aufgaben optimiert (Fine-Tuning), damit es präzise Antworten und Texte für spezielle Anwendungsbereiche liefern kann.

Trainingsdaten

r

Trainingsdaten für KI-Modelle sollten bestimmte grundlegende Qualitätsmerkmale erfüllen: Die Daten sollten divers und repräsentativ sein - sie müssen die reale Vielfalt der Anwendungsfälle abbilden, für die das Modell später eingesetzt werden soll. Dabei ist Ausgewogenheit wichtig, um Verzerrungen (Bias) zu vermeiden. Die Qualität der Daten ist entscheidend - sie müssen korrekt, konsistent und sauber sein. Fehlerhafte oder widersprüchliche Daten können das Modell in die falsche Richtung trainieren. Auch die Strukturierung und Annotation der Daten muss den Trainingszielen entsprechen. Besonders wichtig ist auch der Umfang der Daten - je komplexer die Aufgabe, desto mehr qualitativ hochwertige Trainingsdaten werden benötigt. Für spezialisierte Aufgaben sind dabei oft domänenspezifische Datensätze erforderlich, die die jeweiligen Fachbegriffe und Zusammenhänge abdecken.

Der bekannteste große Satz an
Trainingsdaten: "The Pile"

r

The Pile ist ein öffentlich verfügbarer Datensatz von EleutherAI aus dem Jahr 2020, der für das Training von großen Sprachmodellen entwickelt wurde. Es ist ein sehr umfangreicher Datensatz (etwa 825 GB Textdaten) aus diversen Quellen wie wissenschaftlichen Publikationen, Programmcode, Webseiten, Büchern und anderen Textquellen. Was "The Pile" besonders macht, ist seine sorgfältige Kuratierung für KI-Training und der offene Zugang - im Gegensatz zu vielen proprietären Trainingsdatensätzen. Er wurde so zusammengestellt, dass er eine breite, qualitativ hochwertige Wissensbasis für das Training von Sprachmodellen bietet. Hauptquellen sind: - Wikipedia und andere Wikis - GitHub (Programmcode und Dokumentationen) - PubMed Central (medizinische Publikationen) - Arxiv (wissenschaftliche Paper) - Stack Exchange (Q&A-Plattformen) - USPTO Patente - Project Gutenberg (Bücher) - OpenSubtitles (Untertitel) - YoutubeSubtitles - PhilPapers (philosophische Texte) - NIH ExPorter (Forschungsberichte) - Enron Emails - DM Mathematics (mathematische Diskussionen) - Ubuntu IRC-Logs - BookCorpus - OpenWebText2 - HackerNews

a

Trainingsparameter

r

Trainingsparameter sind die anpassbaren Werte innerhalb eines Modells, die während des Trainings optimiert werden, um die Leistung des Modells zu verbessern. Diese Parameter, oft in Form von sogenannten Gewichten und Biases in neuronalen Netzwerken, bestimmen, wie stark einzelne Neuronen in den Schichten des Modells aktiviert werden und wie das Modell Eingabemuster verarbeitet. Im Kontext großer Sprachmodelle sind die Anzahl und Optimierung dieser Parameter entscheidend dafür, wie gut das Modell komplexe Muster in Daten erkennt, Sprachzusammenhänge versteht und sinnvolle, kontextbezogene Antworten generiert. Viele Open Source Modelle haben deshalb in Ihrem Namen ein Postfix, dass für die Anzahl der der Trainingsparameter steht und damit eine Auskunft über die Leistungsfähigkeit geben soll. Beispiel: Llama 3.2 405B steht für 405 Milliarden (*englisch "405 billions")* Trainingsparameter.

Gewicht

r

Ein Gewicht in einem neuronalen Netzwerk ist ein numerischer Wert, der die Stärke der Verbindung zwischen zwei Neuronen bestimmt. Man kann sich dies wie die "Wichtigkeit" einer bestimmten Verbindung vorstellen: Ein höheres Gewicht bedeutet, dass diese Verbindung einen stärkeren Einfluss auf die nachfolgende Verarbeitung hat - ähnlich wie bei bestimmten Informationen, die wir als besonders relevant einstufen. Ein niedriges oder negatives Gewicht hingegen schwächt den Einfluss ab oder kann sogar hemmend wirken. Während des Trainings werden diese Gewichte ständig angepasst: Wenn das Modell Fehler macht, werden die Gewichte leicht verändert, um bessere Ergebnisse zu erzielen. Dies geschieht millionenfach, bis das Netzwerk die gewünschten Muster erkennt und korrekt verarbeitet. Die Gesamtheit aller Gewichte speichert somit das "gelernte Wissen" des Modells.

Bias

r

Ein Bias (oder Schwellenwert) in einem neuronalen Netzwerk ist ein zusätzlicher Wert, der die Aktivierungsschwelle eines Neurons bestimmt. Man kann sich den Bias wie einen "Grundzustand" oder eine "Voreinstellung" des Neurons vorstellen: Er verschiebt die Aktivierungsfunktion des Neurons nach oben oder unten und bestimmt damit, wie leicht oder schwer das Neuron "feuert". Ein positiver Bias macht das Neuron empfindlicher, sodass es schon bei geringeren Eingangssignalen aktiv wird. Ein negativer Bias macht es weniger empfindlich, sodass stärkere Signale nötig sind. Diese Biases sind, zusammen mit den Gewichten, entscheidend für die Lernfähigkeit des Netzwerks - sie ermöglichen es dem Modell, komplexere Muster zu erkennen und nicht nur lineare Zusammenhänge abzubilden. Wie die Gewichte werden auch die Biases während des Trainings automatisch angepasst.

Pre-Training

r

In der ersten Trainingsphase, dem Pre-Training, wird das Modell mit gewaltigen Mengen an Texten gefüttert und lernt dabei wie ein Sprachschüler die grundlegenden Muster von Sprache, indem es ständig versucht vorherzusagen, welches Wort als nächstes kommen könnte. Dabei passt es sich durch sogenannte Next-Token-Prediction selbstständig an und lernt ohne menschliche Hilfe, wie Sprache funktioniert - ähnlich einem Kind, das zunächst einfach durch Zuhören und Nachmachen lernt, bevor es gezielt unterrichtet wird.

Fine-Tuning

r

Beim Fine-Tuning wird ein vortrainiertes Modell auf spezifische Aufgaben oder Wissensbereiche hin optimiert, indem man es mit sorgfältig ausgewählten, aufgabenspezifischen Datensätzen weitertrainiert. Man kann sich das wie eine Spezialisierung nach dem Grundstudium vorstellen: Das Modell hat durch Pre-Training bereits ein breites "Grundwissen" erworben und wird nun - ähnlich einem Medizinstudenten, der sich zum Chirurgen spezialisiert - für bestimmte Anwendungsfälle verfeinert, etwa für medizinische Analysen, juristische Texte oder Programmieraufgaben.

Epochen

r

Eine Epoche im Training eines KI-Modells bezeichnet einen vollständigen Durchlauf durch den gesamten Trainingsdatensatz. Man kann sich das wie einen kompletten Lerndurchgang vorstellen: In jeder Epoche sieht das Modell alle Trainingsdaten einmal und passt dabei seine Parameter (Gewichte und Biases) kontinuierlich an. Nach jeder Epoche wird typischerweise die Leistung des Modells evaluiert, um zu sehen, ob es sich verbessert hat oder ob Probleme wie Overfitting auftreten. Das Training eines Modells erstreckt sich meist über viele Epochen, wobei die optimale Anzahl von verschiedenen Faktoren abhängt - ähnlich wie ein Schüler, der den Lernstoff mehrmals durchgeht, aber irgendwann einen Punkt erreicht, ab dem weiteres Wiederholen keinen zusätzlichen Nutzen mehr bringt. Die Kunst liegt darin, den richtigen Zeitpunkt zum Beenden des Trainings zu finden.

Overfitting

r

Overfitting bezeichnet ein Phänomen im maschinellen Lernen, bei dem ein Modell die Trainingsdaten zu genau "auswendig lernt", anstatt die zugrundeliegenden Muster zu verstehen. Man kann sich das wie einen Schüler vorstellen, der für eine Matheprüfung nur die Beispielaufgaben auswendig lernt, statt die mathematischen Konzepte zu verstehen. Ein überangepasstes (overfitted) Modell: - Funktioniert hervorragend auf den bekannten Trainingsdaten - Versagt aber bei neuen, unbekannten Daten - Hat die spezifischen Beispiele "auswendig gelernt" - Kann nicht gut generalisieren Um Overfitting zu verhindern, nutzt man verschiedene Techniken wie: - Validierungsdatensätze zur Überprüfung - Early Stopping (Training wird gestoppt, bevor Overfitting eintritt) - Regularisierungsmethoden, die zu präzises Anpassen bestrafen Das Ziel ist ein ausgewogenes Training, das dem Modell ermöglicht, relevante Muster zu erkennen, ohne sich zu sehr auf spezifische Beispiele zu fixieren.

Proximal Policy Optimization
(PPO)

r

Proximal Policy Optimization (PPO) ist eine zentrale Trainingsmethode im RLHF-Prozess von Sprachmodellen, die das Modell behutsam in die gewünschte Richtung optimiert. Sie funktioniert wie ein vorsichtiger Lernprozess: Das Modell generiert zunächst verschiedene Antworten, die von Menschen bewertet werden. Basierend auf diesem Feedback lernt das Modell, welche Arten von Antworten "besser" sind. PPO stellt dabei sicher, dass sich das Modell nur schrittweise verändert und nicht zu stark von seinem ursprünglichen Verhalten abweicht - ähnlich wie ein behutsamer Lehrer, der Verbesserungen in kleinen, kontrollierten Schritten vornimmt. Der "Proximal" Teil bezieht sich dabei auf diese vorsichtige Annäherung: Das Modell darf sich bei jedem Trainingsschritt nur innerhalb bestimmter Grenzen verändern, um zu verhindern, dass bereits gelerntes Wissen oder Fähigkeiten verloren gehen. Diese Methode ist besonders wichtig für die Stabilität des Trainings und die Qualität der Endergebnisse.

Low-Rank Adaptation (LoRA)

r

LoRA (Low-Rank Adaptation) ist eine Technik zur effizienten Feinabstimmung großer KI-Modelle, die es ermöglicht, Modelle an spezifische Aufgaben oder Kontexte anzupassen, ohne alle Parameter ändern zu müssen. Bei LoRA wird ein Modell erweitert, indem nur eine kleine Anzahl zusätzlicher, „low-rank“ Parameter eingeführt wird, die während des Trainings angepasst werden. Diese Methode reduziert Rechen- und Speicherkosten erheblich, da die Grundparameter des Modells unverändert bleiben und nur die zusätzlichen Parameter trainiert werden. LoRA ist besonders nützlich für die Anpassung großer Sprachmodelle, da es ermöglicht, spezifische Anwendungen kosteneffizient zu optimieren, ohne das gesamte Modell neu trainieren zu müssen.

Label

r

Ein "Label" bezeichnet die korrekte Antwort oder Klassifikation, die als Zielwert bei überwachtem Lernen verwendet wird. Labels sind essentiell für das Training von LLMs, da sie dem Modell zeigen, welche Ausgabe für einen bestimmten Eingabetext erwartet wird. Durch den Vergleich seiner Vorhersagen mit diesen Labels kann ein LLM seine Parameter anpassen und lernen, bessere Vorhersagen zu machen. Labels entstehen typischerweise durch menschliche Annotation, bei der Experten oder Crowdworker Trainingsdaten manuell mit den korrekten Antworten oder Kategorien versehen.

Kontextfenster

r

Das Kontextfenster, auch Context Window oder Context Length genannt, bezeichnet die maximale Anzahl von Tokens, die ein Sprachmodell gleichzeitig verarbeiten und "im Gedächtnis" behalten kann. Es umfasst sowohl den Input (die Anfrage oder den bisherigen Gesprächsverlauf) als auch den Output (die generierte Antwort). Man kann es sich als "Arbeitsgedächtnis" des Modells vorstellen - beispielsweise kann ein Modell mit 8k Kontextfenster etwa 6000 Wörter oder 12-15 Seiten Text gleichzeitig verarbeiten. Was über diese Grenze hinausgeht, wird "vergessen" oder abgeschnitten. Neuere Modelle mit größeren Kontextfenstern können entsprechend längere Texte verarbeiten und komplexere Zusammenhänge erfassen, weshalb die Größe des Kontextfensters ein wichtiger Leistungsindikator für die Fähigkeiten eines Modells ist.

Größe des Kontextfensters

r

Die Größe des Kontextfensters wird durch zwei Hauptfaktoren bestimmt: 1. Die Modellarchitektur und das Training: Die maximale Kontextlänge muss bereits beim Training des Modells festgelegt werden, da die Transformer-Architektur und die Attention-Mechanismen darauf ausgelegt sein müssen. Ein nachträgliches Erweitern ist nicht ohne weiteres möglich, da das Modell die längeren Sequenzen nicht verarbeiten gelernt hat. 2. Hardware-Limitierungen: Größere Kontextfenster bedeuten exponentiell steigenden Speicher- und Rechenaufwand, da die Attention-Mechanismen für jedes Token Beziehungen zu allen anderen Tokens berechnen müssen. Die verfügbare Hardware (besonders der GPU-Speicher) setzt hier praktische Grenzen. Die Modellentwickler müssen also bei der Architekturentwicklung und dem Training einen Kompromiss zwischen gewünschter Kontextlänge und praktischer Umsetzbarkeit finden. Neue Techniken wie "Sliding Window Attention" oder "Sparse Attention" versuchen diese Limitierungen zu umgehen.

Die Interaktion mit Sprachmodellen

Prompting - Die Eingabe

r

Die direkte Interaktion mit Sprachmodellen, das Prompting, ist der Prozess der Kommunikation mit KI-Modellen durch die Formulierung von Eingabetexten (Prompts), die dem Modell mitteilen, welche Art von Ausgabe oder Verhalten gewünscht ist. Diese Prompts können von einfachen Fragen bis hin zu komplexen Anweisungen reichen, wobei die Qualität der Modellantworten oft direkt von der Klarheit und Präzision der Formulierung abhängt - ähnlich wie bei der Kommunikation mit Menschen ist auch hier die Art, wie wir fragen, entscheidend für die Antwort, die wir erhalten.

Inference - Verarbeitung
und Ausgabe

r

Inference ist der Anwendungsprozess eines trainierten KI-Modells, bei dem das Modell neue Eingaben basierend auf seinem trainierten Wissen verarbeitet und entsprechende Ausgaben erzeugt. Anders als in der Trainingsphase werden dabei keine Modellparameter mehr verändert - das Modell nutzt ausschließlich sein bereits gelerntes Wissen, um auf neue Situationen zu reagieren. Dieser Prozess findet bei jeder Nutzung eines KI-Modells statt, sei es bei der Texterstellung, Bildgenerierung, Übersetzung oder anderen KI-Anwendungen.

Optimierung von Sprachmodellen

r

Die Modell-Optimierung umfasst alle Techniken und Werkzeuge, mit denen wir das Verhalten eines KI-Modells für spezifische Anwendungen anpassen können - ohne es neu trainieren zu müssen. Sie ermöglichen es Nutzern, die Antworten und Ergebnisse von Modellen gezielt zu beeinflussen und die Interaktion mit den Modellen individuell zu gestalten.

Prompt Engineering

r

Prompt Engineering ist die systematische Entwicklung und Optimierung von Eingabeaufforderungen (Prompts) für KI-Modelle, mit dem Ziel, konsistente und qualitativ hochwertige Ausgaben zu erzielen. Diese spezialisierte Disziplin umfasst das Verständnis von Modellverhalten, die Entwicklung von Prompt-Strategien und die Anwendung bewährter Techniken, wie beispielsweise die Nutzung von Rollenanweisungen, Kontextbereitstellung oder Chain-of-Thought-Prompting, um die bestmöglichen Ergebnisse aus einem KI-Modell herauszuholen.

System Prompting

r

System Prompting ist eine spezielle Form des Prompt Engineerings, bei der dem KI-Modell grundlegende Verhaltensweisen, Rollen oder Regeln durch einen speziellen "System Prompt" vorgegeben werden, der dem eigentlichen Nutzerdialog vorgeschaltet ist. Diese System Prompts definieren sozusagen die "Persönlichkeit" oder "Grundkonfiguration" des Modells - sie legen fest, wie das Modell kommunizieren soll, welche Rolle es einnimmt, welche Grenzen es hat und wie es auf bestimmte Situationen reagieren soll. Beispielsweise kann ein System Prompt festlegen, dass das Modell als Experte für ein bestimmtes Fachgebiet agieren, einen bestimmten Schreibstil verwenden oder spezifische Richtlinien befolgen soll. Im Gegensatz zu normalen Prompts bleiben diese Anweisungen während der gesamten Konversation aktiv und beeinflussen alle Antworten des Modells.

User Prompting

r

User Prompting bezeichnet die direkte Interaktion des Nutzers mit dem KI-Modell durch Eingabe von Fragen, Anweisungen oder Aufgaben. Es ist die "normale" Kommunikation mit dem Modell, bei der der Nutzer seine spezifischen Anfragen stellt, im Gegensatz zum System Prompting, das die grundlegenden Verhaltensregeln festlegt. Diese Nutzeranfragen können dabei von einfachen Fragen bis hin zu komplexen Aufgabenstellungen reichen und beinhalten auch die Möglichkeit, Antworten zu präzisieren oder nachzufragen. Die Qualität der Antwort hängt dabei sowohl von der Klarheit und Präzision des User Prompts als auch von den durch System Prompts festgelegten Grundregeln ab.

Zero Shot Prompt

r

Ein Zero Shot Prompt ist eine direkte Anfrage an ein KI-Modell, bei der keine spezifischen Beispiele oder vorherige Kontext-Information gegeben werden - das Modell muss die Aufgabe also "aus dem Stand" bewältigen, basierend auf seinem trainierten Wissen. Der Begriff "Zero Shot" bedeutet dabei, dass das Modell die Aufgabe ohne zusätzliche Hilfestellung oder Demonstration lösen muss, im Gegensatz zu "Few Shot" oder "One Shot" Prompts, bei denen Beispiele zur Orientierung mitgeliefert werden. Diese Art des Promptings testet die grundlegende Fähigkeit des Modells, neue Aufgaben ohne spezifische Anleitung zu verstehen und zu lösen, basierend auf seinem allgemeinen Verständnis von Sprache und Kontext.

Few Shot Prompt

r

Ein Few Shot Prompt ist eine Anfrage an ein KI-Modell, bei der einige wenige Beispiele mitgeliefert werden, um dem Modell die gewünschte Art der Antwort oder Aufgabenlösung zu demonstrieren. Im Gegensatz zum Zero Shot Prompt, wo das Modell ohne Beispiele auskommen muss, werden hier typischerweise zwei bis fünf Beispiele gegeben, die das gewünschte Format oder die Herangehensweise veranschaulichen. Dies ist besonders nützlich bei speziellen oder ungewöhnlichen Aufgabenformaten, wo das Modell durch die Beispiele besser "verstehen" kann, was genau erwartet wird. Ein Few Shot Prompt könnte zum Beispiel erst zwei Beispiele für die Umwandlung von Sätzen in einen bestimmten Stil zeigen, bevor die eigentliche Aufgabe gestellt wird - ähnlich wie ein Lehrer erst ein paar Beispielaufgaben vorrechnet, bevor die Schüler selbst üben.

Chain of Thought

r

Chain of Thought (Gedankenkette) ist eine Prompt-Engineering-Technik, bei der der Mensch durch gezielte Prompts das KI-Modell anleitet, Antworten in einzelne, nachvollziehbare Denkschritte zu zerlegen. Anstatt das Modell direkt nach einer Lösung zu fragen, fordert der Prompt explizit dazu auf, den Lösungsweg schrittweise zu entwickeln und zu dokumentieren. Diese Technik führt oft zu genaueren Ergebnissen, da die einzelnen Gedankenschritte transparent und überprüfbar werden und komplexe Probleme systematisch in kleinere, handhabbare Einheiten zerlegt werden.

Retrieval Augmented
Generation (RAG)

r

RAG (Retrieval Augmented Generation) ist eine Methode, bei der ein Sprachmodell mit einer externen Wissensdatenbank erweitert wird, um präzisere und faktisch korrekte Antworten zu generieren. Der Prozess läuft typischerweise in drei Schritten ab: 1. Retrieval (Abrufen) - Die Nutzereingabe wird verwendet, um relevante Dokumente aus einer Vektordatenbank abzurufen - Ähnlichkeitssuche findet die passendsten Informationen 2. Augmentation (Erweiterung) - Die gefundenen Informationen werden zusammen mit der ursprünglichen Anfrage als erweiterter Prompt an das Sprachmodell übergeben - Das Modell erhält so zusätzlichen, spezifischen Kontext 3. Generation (Erzeugung) - Das Modell generiert eine Antwort, die sowohl auf seinem trainierten Wissen als auch auf den abgerufenen spezifischen Informationen basiert RAG wird häufig eingesetzt, um Sprachmodelle mit aktuellen oder domänenspezifischen Informationen zu erweitern und ihre Antworten verlässlicher zu machen.

Wissensdatenbank

r

Eine Wissensdatenbank (Knowledge Database) im Kontext von KI-Systemen ist ein strukturiertes Speichersystem, das als zentrale Wissensquelle für KI-Anwendungen dient. Sie stellt die Grundlage für faktisch korrektes und domänenspezifisches Wissen bereit, auf das KI-Systeme zugreifen können. Besonders im Zusammenspiel mit RAG-Systemen spielt sie eine wichtige Rolle: Die in der Knowledge Database gespeicherten Informationen werden in maschinenlesbare Vektorrepräsentationen umgewandelt und können dann von KI-Modellen für präzise, kontextbezogene Antworten genutzt werden. Dies ermöglicht es KI-Systemen, nicht nur auf ihr trainiertes Basiswissen zurückzugreifen, sondern auch auf aktuelles, verifiziertes und organisationsspezifisches Wissen zuzugreifen.

Playground

r

Ein Playground im Kontext von AI-Modellen ist eine interaktive Benutzeroberfläche, die es Nutzern ermöglicht, KI-Modelle direkt auszuprobieren, zu testen und verschiedene Prompts zu experimentieren. Im Playground können Anwender Parameter wie Temperatur, Antwortlänge und andere Modellverhaltenseinstellungen anpassen, um zu verstehen, wie das Modell auf unterschiedliche Eingaben reagiert, und gezielt das Modellverhalten zu steuern oder zu optimieren.

Temperatur

r

Die Temperatur ist ein Parameter, der die Zufälligkeit/Kreativität der Modellausgaben steuert. Bei hoher Temperatur (nahe 1) werden auch weniger wahrscheinliche Tokens häufiger ausgewählt, was zu kreativeren, aber potenziell weniger präzisen Antworten führt. Niedrige Temperatur (nahe 0) führt zu deterministischeren, konservativeren Antworten.

Top-K Parameter

r

Der Top-k Parameter ist eine Einstellung bei KI-Modellen, die festlegt, wie viele der wahrscheinlichsten nächsten Token bei der Textgenerierung berücksichtigt werden sollen. Ein höherer k-Wert führt zu mehr Variabilität in den Antworten, während ein niedrigerer k-Wert die Ausgaben vorhersehbarer und fokussierter macht.

Large Multimodal Models (LMMs)

r

Ein Large Multimodal Model (LMM) ist ein großes KI-Modell, das nicht nur Sprache, sondern auch andere Datentypen wie Bilder, Audio und Video verarbeiten und generieren kann. Durch die Kombination und das Verstehen verschiedener Modalitäten kann ein LMM komplexe Aufgaben wie Bildbeschreibung, Text-zu-Bild-Generierung und Videoinhalte basierend auf Sprache ausführen und eröffnet so vielseitige, kontextübergreifende Anwendungen.

Diffusionsmodelle

r

Ein Diffusionsmodell ist ein generatives KI-Modell, das darauf basiert, schrittweise Rauschen aus Daten zu entfernen, um neue Inhalte wie Bilder oder Audiodaten zu generieren. Im Training lernen Diffusionsmodelle, wie sie den Prozess der „Verrauschung“ umkehren können, indem sie aus verrauschten Daten stufenweise klare und realistische Darstellungen erzeugen. In der Praxis beginnt ein Diffusionsmodell mit einer zufälligen, verrauschten Version eines Bildes oder einer anderen Datenstruktur und rekonstruiert daraus schrittweise eine klare Version. Diese Methode hat in der Bildgenerierung (z. B. bei Modellen wie DALL-E oder Stable Diffusion) große Fortschritte ermöglicht, da sie besonders gut darin ist, detailreiche und natürliche Ergebnisse zu erzeugen.

Reasoning

r

Im Kontext der Generativen KI bezeichnet "Reasoning" einen strukturierten, nachvollziehbaren Denkprozess, bei dem ein Problem oder eine Fragestellung schrittweise analysiert und gelöst wird. Der Begriff wird dabei vielfältig interpretiert und umfasst verschiedene Aspekte wie das Chain-of-Thought Reasoning, bei dem Probleme in kleinere, logisch nachvollziehbare Schritte zerlegt werden, das Logical Reasoning zum Erkennen von Zusammenhängen, das Causal Reasoning zum Verstehen von Ursache-Wirkungs-Beziehungen sowie das Mathematical Reasoning für die systematische Lösung mathematischer Probleme. Eine allgemein akzeptierte, eindeutige Definition existiert bisher nicht, vielmehr wird der Begriff je nach Anwendungskontext unterschiedlich verwendet und interpretiert.

Natural Language Processing (NLP)

r

Natural Language Processing (NLP) beschäftigt sich damit wie Computer menschliche Sprache verstehen, verarbeiten und generieren können. Es geht darum, die Komplexität natürlicher Sprache - mit all ihren Nuancen, Mehrdeutigkeiten und kontextabhängigen Bedeutungen - für Maschinen zugänglich zu machen. Moderne NLP-Systeme, besonders die auf Transformer-Architektur basierenden Modelle, können dabei nicht nur Text analysieren und klassifizieren, sondern auch Zusammenhänge verstehen, Fragen beantworten, Texte zusammenfassen oder neue, kontextrelevante Texte generieren. Sie verarbeiten dabei Sprache auf verschiedenen Ebenen - von der Grammatik über Semantik bis hin zu pragmatischen Aspekten wie Kontext und Intention.

Tokenisierung

r

Tokenisierung ist der grundlegende Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, die ein KI-Sprachmodell verarbeiten kann. Dabei wird Text nicht einfach in einzelne Wörter aufgeteilt, sondern in Untereinheiten, die häufig auch Wortteile oder sogar einzelne Zeichen sein können - beispielsweise könnte das Wort "Sprachmodell" in die Tokens "Sprach" und "modell" zerlegt werden. Diese Tokenisierung ist entscheidend für die Effizienz und Leistungsfähigkeit von Sprachmodellen, da sie bestimmt, wie das Modell Text "sieht" und verarbeitet, wobei jedes Token einem Eintrag im Vokabular des Modells entspricht und in einen numerischen Wert (Token-ID) umgewandelt wird, mit dem das Modell dann rechnen kann.

Perplexity

r

Perplexity ist ein Maß, das in der Künstlichen Intelligenz, insbesondere bei Sprachmodellen im NLP-Bereich, verwendet wird, um die Güte eines Modells bei der Vorhersage von Textsequenzen zu bewerten. Perplexity gibt an, wie „verwirrt“ das Modell ist, wenn es die nächste Wortfolge vorhersagen soll: Ein niedriger Perplexity-Wert bedeutet, dass das Modell die Wortwahrscheinlichkeiten gut abschätzen kann, während ein hoher Wert auf Schwierigkeiten bei der Vorhersage hinweist. Im NLP-Kontext ist Perplexity besonders wichtig, da sie als Leistungsindikator dafür dient, wie gut ein Modell natürliche Sprachmuster und Zusammenhänge erfasst. Ein Sprachmodell mit niedriger Perplexity ist in der Regel besser darin, flüssige und sinnvolle Texte zu generieren, was auf ein gutes Verständnis von Sprachstrukturen hinweist.

Vektordatenbank

r

Eine Vektordatenbank ist ein spezialisiertes Datenbanksystem, das Informationen in Form von numerischen Vektoren speichert und es ermöglicht, diese Vektoren effizient nach Ähnlichkeit zu durchsuchen. Sie spielt eine zentrale Rolle in modernen KI-Anwendungen, besonders für Semantic Search und RAG (Retrieval Augmented Generation), da sie es ermöglicht, aus großen Datenmengen schnell semantisch ähnliche Inhalte zu finden - zum Beispiel können Texte, Bilder oder andere Daten als Vektoren gespeichert werden, und die Datenbank kann dann blitzschnell ähnliche Inhalte finden, was für kontextbezogene Antworten und präzise Informationssuche essentiell ist.

Der "Open"-Begriff bei KI-Modellen

r

Die Philosophie der Offenheit bei KI-Modellen umfasst mehrere komplementäre Dimensionen: Open Source gibt Einblick in den Code und die Algorithmen der KI-Systeme, Open Weights macht die trainierten Modellparameter zugänglich, Open Data ermöglicht den Zugang zu den Trainingsdaten, und Open Science sorgt für Transparenz in den Forschungsmethoden und -ergebnissen. Diese vier Aspekte der Offenheit bilden zusammen ein Ökosystem, in dem KI-Systeme umfassend geprüft, verstanden und kollaborativ weiterentwickelt werden können. Die heutigen KI-Modelle setzen diese Philosophie in unterschiedlichem Maße um – einige veröffentlichen nur ihre Modellgewichte, während andere auch Trainingsdaten oder Forschungsmethoden teilen, was zu unterschiedlichen Graden von Transparenz und Nachvollziehbarkeit führt. Die Kombination von Open Source, Open Weights, Open Data und Open Science schafft ein Fundament für Wissensaustausch und gemeinschaftliche Innovation im Bereich der künstlichen Intelligenz.

Open Source

r

Open Source ist ein Entwicklungsmodell, bei dem Softwarequellcode frei zugänglich gemacht wird, sodass jeder ihn einsehen, nutzen, verändern und weiterverbreiten kann, wobei die Open Source Initiative (OSI) zehn Bedingungen festlegt, die eine echte Open-Source-Lizenz erfüllen muss. Zu den bekanntesten OSI-anerkannten Lizenzen gehören MIT, GPL, Apache und BSD, die verschiedene Freiheiten und Pflichten definieren – von großzügigen Lizenzen (MIT, Apache) mit wenigen Einschränkungen bis zu solchen, die verlangen, dass alle Änderungen ebenfalls offen bleiben müssen (GPL). Durch Offenheit und gemeinsames Arbeiten fördert Open Source neue Ideen, bessere Qualität und Vertrauen in digitale Produkte.

MIT-Lizenz

r

Die MIT-Lizenz erlaubt jedem, die Software ohne Einschränkungen zu nutzen, zu verändern und weiterzugeben, solange der ursprüngliche Copyright-Hinweis erhalten bleibt. Sie stellt praktisch keine Forderungen an Nutzer, außer dass die Lizenz mit verbreitet wird, und bietet keinen Patentschutz. Der Hauptvorteil dieser extrem unkomplizierten Lizenz ist ihre Kompatibilität mit nahezu allen anderen Lizenzen, was sie besonders beliebt für weit verbreitete Bibliotheken und Werkzeuge macht.

GPL-Lizenz

r

Die GPL fordert, dass jede veränderte und weiterverbreitete Version der Software ebenfalls unter der GPL stehen muss, was als "Copyleft" bekannt ist und sicherstellt, dass abgeleitete Werke frei bleiben. Sie verlangt, dass der vollständige Quellcode zusammen mit dem Programm verfügbar gemacht wird, wenn das Programm verbreitet wird, was Nutzer daran hindert, GPL-Code in proprietäre Software einzubauen. Die GPL existiert in verschiedenen Versionen (v2, v3), wobei v3 zusätzliche Bestimmungen gegen Softwarepatente und "Tivoization" (Einschränkung der Hardware-Freiheit) enthält.

Apache-Lizenz

r

Die Apache-Lizenz 2.0 erlaubt freie Nutzung, Veränderung und Verteilung der Software, verlangt jedoch die Beibehaltung von Copyright-Hinweisen und fordert, dass Änderungen dokumentiert werden. Sie bietet einen ausdrücklichen Patentschutz, der automatisch Lizenznehmern Rechte an Patenten gewährt, die für die Software relevant sind. Die Apache-Lizenz ist geschäftsfreundlicher als die GPL, da sie nicht erfordert, dass Änderungen unter derselben Lizenz veröffentlicht werden müssen, aber sie bietet mehr rechtlichen Schutz als die simplere MIT-Lizenz.

BSD-Lizenz

r

Die BSD-Lizenz (in verschiedenen Varianten, meist 2-Klausel und 3-Klausel) erlaubt die Nutzung, Veränderung und Weitergabe mit minimalen Einschränkungen, ähnlich wie die MIT-Lizenz. Sie verlangt lediglich die Beibehaltung des Copyright-Hinweises und, im Fall der 3-Klausel-Variante, dass der Name der ursprünglichen Autoren nicht ohne Erlaubnis für Werbung verwendet wird. Die BSD-Lizenz ist besonders bei kommerziellen Unternehmen beliebt, da sie die Einbindung des Codes in proprietäre Produkte ohne zusätzliche Verpflichtungen ermöglicht.

Open Data

r

Open Data bezeichnet Daten, die frei zugänglich, nutzbar und veränderbar sind sowie unter minimalen rechtlichen Einschränkungen weitergegeben werden können. Typischerweise werden diese Daten unter offenen Lizenzen wie Creative Commons oder Open Data Commons veröffentlicht, welche klare, transparente Bedingungen für die Nutzung festlegen. Im KI-Kontext umfasst Open Data insbesondere die vollständige Offenlegung der verwendeten Trainingsdaten, einschließlich Herkunft, Zusammensetzung und Verarbeitungsmethoden.

Open Weights

r

Open Weights bezeichnet die Praxis, die trainierten Parameter (Gewichte) eines künstlichen neuronalen Netzwerks oder KI-Modells öffentlich verfügbar zu machen. Diese Gewichte repräsentieren das "gelernte Wissen" des Modells und werden typischerweise in standardisierten Dateiformaten wie HDF5, ONNX oder als PyTorch/TensorFlow-Checkpoint-Dateien bereitgestellt. Im KI-Bereich ermöglicht Open Weights anderen Forschern und Entwicklern, vortrainierte Modelle direkt zu verwenden, zu analysieren oder durch Feinabstimmung (Fine-tuning) an neue Aufgaben anzupassen, ohne das rechenintensive Training von Grund auf durchführen zu müssen. Die Veröffentlichung von Modellgewichten ist eine zentrale Komponente vieler moderner KI-Veröffentlichungen, wobei Modelle wie Llama oder Mistral ihre Gewichte zugänglich machen, während andere Aspekte ihrer Entwicklung und Architektur nicht vollständig offengelegt werden. Die Gewichte von Open-Weights-Modellen werden unter verschiedenen Lizenzen veröffentlicht, darunter speziell für KI-Modelle entwickelte Lizenzen wie die ML Commons License, die Apache 2.0 Lizenz, MIT-Lizenz, oder eigene angepasste Lizenzen wie die Llama 2 Community License oder die Responsible AI License (RAIL). Diese Lizenzen regeln oft spezifisch die Nutzung, Wiederverwendung und kommerzielle Anwendung der Modellgewichte und können Einschränkungen bezüglich der Verwendung für schädliche Zwecke oder Wettbewerbsbeschränkungen enthalten.

Open Science

r

Open Science beschreibt einen Ansatz zur wissenschaftlichen Forschung, bei dem der gesamte Forschungsprozess transparent und zugänglich gestaltet wird. Dieses Konzept umfasst die offene Zugänglichkeit von wissenschaftlichen Veröffentlichungen (Open Access), die Verfügbarkeit von Forschungsdaten (Open Data), die Transparenz der verwendeten Methoden und Werkzeuge (Open Methods) sowie die Offenlegung von Laborprotokollen und Arbeitsabläufen. Im KI-Bereich beinhaltet Open Science zusätzlich die Dokumentation von Trainingsverfahren, Hyperparametern, Evaluierungsmethoden und Modellarchitekturen, sodass die Forschungsergebnisse vollständig nachvollziehbar und reproduzierbar sind. Open Science wird durch verschiedene Praktiken umgesetzt, darunter Preprints, offene Peer-Review-Verfahren, offene Laborbücher, registrierte Studien und kollaborative Forschungsplattformen, die gemeinsam ein Ökosystem für transparente und gemeinschaftliche Wissensproduktion bilden.

Open Source AI Definition (OSAID)

r

Die Open Source Initiative (OSI) hat die Open Source AI Definition (OSAID) entwickelt, um Transparenz und Offenheit im Bereich der künstlichen Intelligenz zu fördern. Diese Definition legt Standards fest, wie KI-Systeme als "Open Source" klassifiziert werden können, einschließlich der Offenlegung von Trainingsdaten, Algorithmen und Modellparametern. Die OSAID zielt darauf ab, die Überprüfbarkeit, Reproduzierbarkeit und ethische Nutzung von KI-Systemen zu gewährleisten, ähnlich wie die Open-Source-Definition für Software. Allerdings ist die OSAID noch nicht vollständig etabliert und wird weiterhin diskutiert und verfeinert. Sie hat bereits breite Unterstützung gefunden und wird von vielen Organisationen und Experten als wichtiger Schritt zur Förderung von Transparenz und Zusammenarbeit in der KI-Community anerkannt.

a

Probleme und Herausforderungen bei der
Erstellung und Nutzung von KI-Modellen

Energieverbrauch

r

Der Energieverbrauch von KI-Systemen ist ein zunehmend kritischer Faktor, besonders beim Training großer Sprachmodelle. Das Training eines einzigen großen KI-Modells kann mehrere tausend GPU-Stunden benötigen und damit so viel Energie verbrauchen wie hunderte Haushalte in einem Jahr. Hauptfaktoren des Energieverbrauchs sind: - Rechenleistung für das Training - Kontinuierlicher Betrieb der Modelle (Inference) - Kühlung der Hardware - Infrastruktur der Rechenzentren Die Energieintensität führt zu wichtigen Diskussionen über: - Nachhaltigkeit von KI-Entwicklung - Notwendigkeit energieeffizienter Architekturen - Einsatz erneuerbarer Energien - Umweltauswirkungen der KI-Industrie Diese Herausforderungen treiben die Entwicklung effizienterer Technologien und nachhaltigerer Trainingsmethoden voran.

Bias

r

Bias im Kontext von LLM-Modellen bezeichnet Verzerrungen oder Vorurteile, die sich aus den Trainingsdaten oder der Architektur des Modells ergeben. Diese entstehen, wenn die zugrunde liegenden Daten bestimmte Perspektiven, Werte oder Muster überrepräsentieren und andere vernachlässigen, was zu unfairen oder einseitigen Antworten führen kann. Bias in LLMs kann unbeabsichtigte soziale, kulturelle oder politische Auswirkungen haben und stellt eine zentrale Herausforderung für die Entwicklung ethischer und ausgewogener KI dar.

LLM Grooming

r

LLM Grooming bezeichnet eine gezielte Manipulation von großen Sprachmodellen (LLMs) durch das Einfügen von Desinformationen in deren Trainingsdaten. Dabei fluten Akteure absichtlich das Internet mit Propaganda oder irreführenden Inhalten, die später von den Modellen aufgenommen werden, um deren Antworten zu beeinflussen. Diese Technik kann dazu führen, dass KI-Modelle falsche Narrative verstärken und verbreiten, was insbesondere bei Themen wie politischer Propaganda oder Fehlinformationen problematisch ist. LLM Grooming zeigt die Risiken auf, die mit der Abhängigkeit von generativen KI-Modellen und unkontrollierten Datenquellen verbunden sind

Halluzinationen

r

Eine Halluzination ist eine falsche oder erfundene Information, die ein KI-Modell als wahr ausgibt. Sie entsteht hauptsächlich aus drei Gründen: 1. Muster im Training, die zu falschen Schlussfolgerungen führen 2. Lücken im Trainingswissen, die das Modell durch "kreative" Vervollständigung füllt 3. Die statistische Natur der Textgenerierung, die manchmal unzuverlässige Verknüpfungen erzeugt und Halluzinationen somit zu einer inhärenten Eigenschaft von LLMs macht Besonders häufig treten Halluzinationen bei sehr spezifischen Fragen auf, bei denen das Modell unsicher ist, aber trotzdem eine plausibel klingende Antwort generiert.

Angriffsmethoden

Jailbreaking

r

Im Kontext von Large Language Models bezeichnet "Jailbreaking" den Versuch, die Sicherheitsbegrenzungen und ethischen Richtlinien eines KI-Systems zu umgehen. Die Methoden reichen von der geschickten Umformulierung problematischer Anfragen bis hin zu komplexen Prompt-Injection-Techniken, die das Modell dazu bringen sollen, gegen seine eigenen Sicherheitsrichtlinien zu verstoßen. Während einige diese Praktiken als wichtig für das Verständnis von KI-Schwachstellen betrachten, birgt Jailbreaking erhebliche ethische und sicherheitstechnische Bedenken, da es zur Erzeugung von schädlichen oder manipulativen Inhalten missbraucht werden kann.

Injections

r

Injections im Kontext von Large Language Models beziehen sich auf gezielte Manipulationen, bei denen Eingaben so gestaltet werden, dass das Verhalten des Modells in einer gewünschten Weise beeinflusst oder verändert wird. Injections sind damit eine ernsthafte Herausforderung für die Sicherheit und Zuverlässigkeit von LLMs. Sie können nicht nur zu Fehlfunktionen, sondern auch zu Missbrauch führen, insbesondere wenn sie in sicherheitskritischen oder vertraulichen Anwendungen eingesetzt werden. Um diesen Risiken zu begegnen, arbeiten Entwickler an robusteren Modellen, besseren Prompt-Guardrails und sichereren Trainingsprozessen.

Direct Prompt Injection

r

Direct Prompt Injection bezeichnet eine gezielte Manipulation, bei der ein Angreifer das Verhalten eines KI-Modells durch direkt eingebettete Anweisungen in den Eingabeprompt verändert. Dabei wird versucht, Sicherheitsmechanismen oder vorab definierte Regeln des Modells zu umgehen, um unerwünschte oder schädliche Antworten zu provozieren. Diese Methode nutzt die Tendenz von Modellen, Texteingaben wörtlich zu interpretieren, ohne den Kontext oder potenzielle Gefahren zu hinterfragen.

Indirect Prompt Injection

r

Indirect Prompt Injection ist eine Technik, bei der ein Angreifer das Verhalten eines KI-Modells durch manipulierte Inhalte beeinflusst, die nicht direkt im Prompt, sondern in externen Quellen oder Daten eingebettet sind. Das Modell wird so gestaltet, dass es diese Inhalte bei der Verarbeitung einbezieht, wodurch es zu unerwünschten oder fehlerhaften Ausgaben kommen kann. Diese Methode nutzt Schwachstellen in der Integration von KI-Modellen mit anderen Datenquellen wie APIs, Webseiten oder Dokumenten. Mit der Einführung von Memory-Funktionen wie bei ChatGPT verschärft sich diese Problematik zusätzlich: Manipulierte oder fehlerhafte Inhalte könnten dauerhaft in der Erinnerung des Modells gespeichert werden. Dies führt dazu, dass die schädlichen oder falschen Informationen nicht nur in einer Sitzung, sondern auch in zukünftigen Interaktionen immer wieder einfließen und das Modell langfristig beeinträchtigen können.

Kontextuelle Verwirrung

r

Kontextuelle Verwirrung ist eine Technik, bei der durch widersprüchliche oder mehrdeutige Anweisungen versucht wird, die Kontextverarbeitung eines Systems zu stören. Die Methode nutzt aus, dass Systeme oft Schwierigkeiten haben, bei komplexen oder scheinbar gegensätzlichen Kontextinformationen die richtigen Schlüsse zu ziehen und entsprechend ihrer Richtlinien zu reagieren. Durch geschickte Kombination verschiedener Kontextebenen oder das Einführen von Ambiguitäten können so unter Umständen unerwünschte Systemreaktionen provoziert werden.

Rollenspieltechniken

r

Rollenspieltechniken basieren darauf, einem System durch geschickte Prompts eine bestimmte Rolle oder Persona zuzuweisen, wodurch dessen ursprüngliche Verhaltensgrenzen möglicherweise verschoben werden können. Ein typisches Beispiel wäre die Aufforderung, als "unethischer Assistent" oder in einer Rolle zu agieren, die nicht an übliche Beschränkungen gebunden ist. Da die Rollenvorgabe oft in einem scheinbar harmlosen narrativen Kontext erfolgt, kann sie für das System schwieriger zu erkennen sein als direkte Aufforderungen zu unerwünschtem Verhalten.

Token/String Manipulation

r

Token/String Manipulation versucht durch geschickte Veränderung von Textzeichen (wie Sonderzeichen, Unicode, Leerzeichen oder alternative Schreibweisen) die Erkennungsmechanismen eines Systems zu umgehen. Ein typisches Beispiel ist das Einfügen von nicht sichtbaren Zeichen oder das Ersetzen ähnlich aussehender Buchstaben (wie das lateinische 'a' durch das kyrillische 'а'), wodurch Filterregeln, die auf exakte Zeichenübereinstimmung setzen, möglicherweise umgangen werden können. Zur Absicherung sind daher Unicode-Normalisierung, reguläre Ausdrücke die Zeichenklassen berücksichtigen und kontextbasierte Analysen statt reiner Stringvergleiche wichtig.

Nerd Sniping

r

Nerd Sniping bei LLMs bezieht sich auf eine neu Angriffsmethode, die darauf abzielt, die Denkprozesse von Large Language Models (LLMs) ineffizient zu machen. Konkret bedeutet das, dass das LLM durch bestimmte Anfragen oder Prompts in eine Art "Denkschleife" gebracht wird, in der es sich auf irrelevante oder wenig produktive Aspekte einer Frage konzentriert und somit seine Rechenzeit verschwendet. Diese Methode zielt darauf ab, die Ressourcen des LLMs zu erschöpfen oder es von der eigentlichen Aufgabe abzulenken.

Modell Degradation

r

Im Kontext von Large Language Models bezeichnet Model Degradation die allmähliche Verschlechterung der Leistung und Qualität über Zeit oder bei bestimmten Anwendungsfällen. Diese Verschlechterung kann sich als subtile Verschiebung der Modellausgaben manifestieren, wodurch das Modell langsam von seinem anfänglichen Verhalten abweicht und unvorhersehbarer wird. In extremeren Fällen kann sich die Leistung auch drastisch verschlechtern, wobei das Modell eintönige, repetitive oder bedeutungslose Antworten generiert und seine ursprünglichen Fähigkeiten effektiv verliert. Ursachen für diese Probleme können Training auf veralteten Daten, fehlerhafte Fine-Tuning-Prozesse oder die zunehmende Diskrepanz zwischen Trainings- und Anwendungsszenarien sein.

Model Drift

r

Model Drift beschreibt ein Phänomen, bei dem ein Large Language Model selbst unverändert bleibt, während sich die Welt und der Kontext, in dem es operiert, kontinuierlich weiterentwickeln. Das Modell, mit seinen fixierten Parametern und seinem zum Trainingszeitpunkt eingefrorenem Wissen, steht einer dynamischen, sich ständig verändernden Realität gegenüber. Diese Divergenz zwischen statischem Modell und dynamischer Umgebung manifestiert sich in verschiedenen Formen. Sprache entwickelt sich weiter, neue Begriffe entstehen und werden populär, während andere veralten. Faktenwissen, das zum Zeitpunkt des Trainings korrekt war, wird mit fortschreitender Zeit zunehmend ungenau oder schlichtweg falsch. Kulturelle Normen und gesellschaftliche Erwartungen verändern sich, wodurch die Angemessenheit bestimmter Modellausgaben in Frage gestellt werden kann. Vergleichbar ist dieser Prozess mit einem einmal erstellten Nachschlagewerk, das ohne Aktualisierungen mit der Zeit an Relevanz und Genauigkeit verliert. Die Informationen darin bleiben zwar unverändert, aber ihre Nützlichkeit und Korrektheit nehmen ab, je weiter sich die Welt von dem Zeitpunkt entfernt, zu dem das Werk erstellt wurde. Die besondere Herausforderung des Model Drifts liegt in seiner Unvermeidlichkeit und der Notwendigkeit regelmäßiger Aktualisierungen. Anders als beim Model Shift, wo interne Verstärkungsmechanismen zu Verhaltensänderungen führen, erfordert das Management von Drifts eine kontinuierliche Anpassung des Modells an die sich verändernde Welt – sei es durch vollständiges Nachtraining, gezielte Aktualisierungen des Faktenwissens oder adaptive Mechanismen, die externe Veränderungen kompensieren können.

Behavioral Drift

r

Behavioral Drift beschreibt ein Phänomen, bei dem sich das Verhalten eines LLM systematisch verändert, obwohl die äußere Umgebung und die Aufgabenstellung weitgehend konstant bleiben. Anders als beim Model Drift, wo das Modell statisch bleibt und die Welt sich wandelt, findet beim Behavioral Drift eine Art "innere Drift" des Modells selbst statt. Diese interne Verhaltensänderung entsteht typischerweise durch subtile Verstärkungsmechanismen während des Modellbetriebs. Beispielsweise können kontinuierliches Feedback, implizite Belohnungssignale oder wiederkehrende Interaktionsmuster dazu führen, dass das Modell bestimmte Antworttendenzen verstärkt und andere abschwächt. Das Modell entwickelt sozusagen eine Art Eigendynamik, die es langsam, aber systematisch von seinem ursprünglich trainierten und validierten Verhalten wegführt. Vergleichbar ist dieser Prozess mit einem menschlichen Lernvorgang: Eine Person hat eine Fähigkeit erlernt, modifiziert ihre Herangehensweise jedoch durch wiederholte Anwendung immer weiter, ohne dass sich die grundlegenden Anforderungen geändert hätten. Die Modifikation erfolgt nicht als Reaktion auf eine veränderte Umwelt, sondern durch interne Anpassungsprozesse. Die besondere Herausforderung des Behavioral Drift liegt in seiner oft schleichenden Natur. Die Veränderungen können so graduell und subtil sein, dass sie reguläre Qualitätskontrollen passieren, aber in der Summe zu einer signifikanten und möglicherweise unerwünschten Abweichung vom ursprünglichen Modellverhalten führen. Dies erfordert spezifische Überwachungs- und Gegenmechanismen, die nicht nur externe Veränderungen, sondern auch die interne Entwicklungsdynamik des Modells berücksichtigen.

Model Collapse

r

Model Collapse beschreibt einen degenerativen Prozess bei Large Language Models, der durch rekursives Training auf KI-generierten Daten (sei es vom Modell selbst oder von ähnlichen Modellen) entsteht. Dieser Prozess führt zu einer progressiven Qualitäts- und Diversitätsabnahme der Modellausgaben, wobei sich Fehler und Verzerrungen über Generationen hinweg akkumulieren. Das Phänomen äußert sich durch zunehmend repetitive, vereinfachte und realitätsferne Ausgaben, da das Modell allmählich den Bezug zu natürlichen Sprachverteilungen verliert und besonders seltene Muster ("Tail-Verlust") vergisst. In frühen Stadien (Early Model Collapse) gehen zunächst Randdaten verloren, während spätere Stadien (Late Model Collapse) durch stark verzerrte Outputs gekennzeichnet sind. Auch Optimierungstechniken können zum Model Collapse beitragen, wenn sie zu stark auf bestimmte Ausgabestile oder -muster fokussieren. Die fortschreitende Degeneration beeinträchtigt schließlich die Fähigkeit der Modelle, vielfältige, informative und kreative Inhalte zu generieren, was langfristig die Nützlichkeit und Zuverlässigkeit generativer KI gefährden kann.

Model Autophagy Disorder (MAD)

r

Model Autophagy Disorder beschreibt ein Phänomen, bei dem KI-Sprachmodelle sich selbst "verschlingen" oder degenerieren. Der Ausdruck "Autophagie" stammt dabei aus der Biologie und bezeichnet einen Prozess, bei dem Zellen ihre eigenen Bestandteile abbauen. Übertragen auf KI-Modelle beschreibt Model Autophagy Disorder einen selbstverstärkenden Degenerationsprozess: Ein Sprachmodell, das auf seinen eigenen Ausgaben oder denen ähnlicher Modelle trainiert wird, kann beginnen, bestimmte Muster oder Einschränkungen zu verstärken und zu überbetonen. Anstatt die Vielfalt und Qualität der ursprünglichen Trainingsdaten zu erhalten, "verdaut" das Modell zunehmend seine eigenen Limitierungen und Verzerrungen. Es kannibalisiert sich quasi selber. Dieser Prozess führt typischerweise zu: 1. Abnehmender Komplexität und Nuancierung in den Antworten 2. Verstärkung von Mustern, die dem Modell eigen sind 3. Verlust von Detailreichtum und Kreativität 4. Zunehmend standardisierten oder formelhaften Antworten Das Phänomen stellt ein ernsthaftes Problem für die kontinuierliche Verbesserung von KI-Systemen dar, besonders in Anwendungsfällen, wo neuere Modellgenerationen auf den Ausgaben älterer Modelle trainiert werden.

a

Recht und Regulatorik

r

Recht umfasst verbindliche gesetzliche Regelungen, die von staatlichen oder supranationalen Institutionen erlassen und von Gerichten durchgesetzt werden, beispielsweise im Strafrecht, Zivilrecht oder Datenschutzrecht. Regulatorik hingegen bezeichnet spezifische Vorschriften und Maßnahmen, die von Aufsichtsbehörden oder Regulierungsstellen entwickelt werden, um gesetzliche Rahmenbedingungen praxisnah und branchenspezifisch umzusetzen, etwa in der Finanz- oder Technologieregulierung. Während Recht eine statische Grundordnung vorgibt, ermöglicht Regulatorik eine flexible Anpassung an wirtschaftliche und technologische Entwicklungen.

USA

Urheberrecht und
geistiges Eigentum

"Fair Use"-Prinzip

r

Das Fair Use-Prinzip ist ein Rechtskonzept im US-amerikanischen Urheberrecht, das die begrenzte Nutzung urheberrechtlich geschützter Werke ohne Erlaubnis des Rechteinhabers erlaubt, wenn bestimmte Bedingungen erfüllt sind. Es wird abgewogen, ob die Nutzung unter anderem für Zwecke wie Kritik, Bildung, Forschung oder Berichterstattung erfolgt und ob sie den Marktwert des Originals beeinträchtigt. Um Fair Use zu bestimmen, werden vier Hauptfaktoren herangezogen: der Zweck und die Art der Nutzung, die Art des geschützten Werks, der Umfang der Nutzung im Verhältnis zum Gesamtwerk und die Auswirkung der Nutzung auf den wirtschaftlichen Wert des Originals.

Klage gegen Anthropic wegen
Urheberrechtsverletzung

r

Im August 2024 reichten die Autoren Andrea Bartz, Charles Graeber und Kirk Wallace Johnson eine Sammelklage gegen das KI-Unternehmen Anthropic ein. Sie werfen Anthropic vor, urheberrechtlich geschützte Bücher ohne Genehmigung verwendet zu haben, um ihre KI-Modelle, insbesondere den Chatbot Claude, zu trainieren. Konkret wird behauptet, dass Anthropic den Datensatz "The Pile" nutzte, der unter anderem "Books3" enthält – eine Sammlung von fast 200.000 Büchern, die aus raubkopierten Quellen stammen. Die Kläger argumentieren, dass Anthropic durch die unlizenzierte Nutzung dieser Werke gegen das Urheberrecht verstößt und die kreativen Leistungen der Autoren ausbeutet.

Der Gesetzesentwurf SB 1047

r

Der kalifornische Gesetzentwurf SB 1047, bekannt als "Safe and Secure Innovation for Frontier Artificial Intelligence Models Act", zielte darauf ab, die Entwicklung und den Einsatz fortschrittlicher KI-Modelle zu regulieren, um potenzielle Risiken zu minimieren. Er sah vor, dass Entwickler vor dem Training eines solchen Modells verschiedene Sicherheitsmaßnahmen implementieren, darunter die Fähigkeit, das Modell bei Bedarf vollständig abzuschalten, sowie die Erstellung eines schriftlichen Sicherheits- und Sicherheitsprotokolls. Zudem sollten Whistleblower geschützt und ein öffentliches Cloud-Computing-Cluster namens CalCompute eingerichtet werden, um Forschung und Innovation im Bereich der KI zu fördern. Obwohl der Gesetzentwurf sowohl im kalifornischen Senat als auch in der Assembly verabschiedet wurde, wurde er am 29. September 2024 von Gouverneur Gavin Newsom mit der Begründung abgelehnt, dass er zu eng gefasst sei und die Innovation behindern könnte. Den Gesetzestext und den aktuellen Stand dazu findet man hier: [https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047](https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047)

a

Europa

Die Datenschutz-Grundverordnung (DSGVO)

r

Die Datenschutz-Grundverordnung (DSGVO) ist das zentrale EU-Gesetz zum Schutz personenbezogener Daten, das 2018 in Kraft trat und einheitliche Regeln für die Verarbeitung von persönlichen Daten in der EU festlegt. Sie gibt Unternehmen und Organisationen klare Vorgaben für den Umgang mit personenbezogenen Daten und stärkt die Rechte der Betroffenen durch Prinzipien wie Datensparsamkeit, Zweckbindung, Einwilligungspflicht und das "Recht auf Vergessenwerden". Die DSGVO ist auch für KI-Systeme relevant, da sie strenge Anforderungen an die Verarbeitung personenbezogener Daten stellt und hohe Strafen bei Verstößen vorsieht.

a

Der EU AI Act

r

Der EU AI Act ist das erste umfassende KI-Gesetz weltweit, das KI-Systeme basierend auf ihrem Risikopotenzial in verschiedene Kategorien einteilt - von verbotenen Praktiken über Hochrisiko-Systeme bis hin zu Anwendungen mit geringem Risiko. Für Hochrisiko-Systeme werden strenge Anforderungen an Qualität, Transparenz, Dokumentation und menschliche Aufsicht gestellt, während andere KI-Systeme leichtere Auflagen erfüllen müssen. Die Durchsetzung erfolgt durch nationale Behörden mit europäischer Koordinierung, wobei Verstöße mit erheblichen Strafen geahndet werden können.

a

EU-Produkthaftungsrichtlinie 2024/2853

r

Die EU-Produkthaftungsrichtlinie 2024/2853 erweitert den Geltungsbereich der Produkthaftung auf digitale Produkte, einschließlich KI-Systeme, und schafft damit erstmals einen umfassenden rechtlichen Rahmen für den Verbraucherschutz im Bereich moderner Technologien. Sie führt zu einer Verschärfung der Haftung für Hersteller und andere Wirtschaftsakteure, wobei auch Importeure, EU-Vertreter, Fulfillment-Dienstleister und Online-Plattformen haftbar gemacht werden können. Für KI-Systeme bedeutet dies eine erhöhte Verantwortung der Entwickler und Anbieter, die Sicherheit und Zuverlässigkeit ihrer Produkte zu gewährleisten, was neue Herausforderungen bei der Entwicklung, dem Einsatz und der fortlaufenden Wartung von KI-Technologien mit sich bringt.

a

IT-Recht und -Regulatorik

r

KI-Systeme unterliegen als spezielle Form von IT-Systemen allen regulatorischen Anforderungen, die für klassische IT-Systeme gelten, weshalb neben KI-spezifischen Regelungen wie dem AI Act auch die grundlegenden IT-Sicherheitsstandards berücksichtigt werden müssen. Dies zeigt sich beispielsweise bei KRITIS, wo KI-Systeme in kritischen Infrastrukturen die strengen Anforderungen des IT-Sicherheitsgesetzes 2.0 erfüllen müssen, oder bei der NIS2-Richtlinie, die über die klassischen KRITIS-Bereiche hinausgeht und zusätzliche Cybersicherheits-Anforderungen definiert. Ein weiteres Beispiel ist die NORA (Normenkontrollrat-Architektur) als IT-Architekturrahmen der öffentlichen Verwaltung, die spezifische Anforderungen für den Einsatz von IT- und KI-Systemen im öffentlichen Sektor festlegt. Diese und weitere regulatorische Vorgaben bilden einen komplexen Anforderungsrahmen, der bei der Entwicklung und dem Betrieb von KI-Systemen berücksichtigt werden muss.

Berechtigtes Interesse (LI)

r

Berechtigtes Interesse im KI-Kontext erlaubt die Verarbeitung personenbezogener Daten ohne Einwilligung, wenn die Interessen des Verarbeiters die Rechte der betroffenen Personen nicht überwiegen und eine sorgfältige Abwägungsprüfung durchgeführt wurde. Bei KI-Anwendungen ist diese Rechtsgrundlage besonders relevant für Trainingsdaten, Modellverbesserungen und Fehleranalysen, wobei die Komplexität der Verarbeitung, mögliche Diskriminierungsrisiken und der potenzielle Umfang betroffener Personen besondere Beachtung erfordern. Verantwortliche müssen wirksame Schutzmaßnahmen implementieren, darunter Anonymisierung, Pseudonymisierung, Datensparsamkeit und transparente Informationen über die KI-Verarbeitung, um ein angemessenes Gleichgewicht zwischen Innovation und Grundrechtsschutz zu gewährleisten. "Berechtigtes Interesse" ist zwar besonders stark im europäischen Datenschutzrecht (DSGVO) verankert, existiert aber auch in verschiedenen Formen in internationalen Datenschutzgesetzen. In ähnlicher Form findet sich das Konzept im britischen UK GDPR, im brasilianischen LGPD, im südkoreanischen PIPA und in Teilen des kalifornischen CCPA/CPRA, wenn auch teilweise unter anderen Bezeichnungen oder mit unterschiedlichen Anforderungen. Viele andere Länder haben bei der Entwicklung ihrer Datenschutzgesetze das europäische Modell als Inspiration genutzt und ähnliche Konzepte implementiert, die eine Interessenabwägung zwischen Verarbeitungsinteressen und Betroffenenrechten vorsehen.

Standards und Leitlinien

r

Anbei eine Liste der wichtigsten Standards und Standardisierungsinitiativen im AI-Bereich. Viele dieser Standards sind noch in Entwicklung, da sich das Feld schnell weiterentwickelt und neue Herausforderungen entstehen.

Ethische Richtlinien

IEEE Ethically Aligned Design

r

IEEE Ethically Aligned Design ist eine Initiative des IEEE (Institute of Electrical and Electronics Engineers), der weltweit größten technischen Berufsorganisation. Der IEEE startete diese Initiative, um ethische Richtlinien und Standards für die Entwicklung von KI und autonomen Systemen zu schaffen. Das Besondere an diesem Ansatz ist, dass er von Technologieexperten ausgeht, aber ethische Prinzipien direkt in den Designprozess integriert - daher der Name "Ethically Aligned Design". Die Initiative bringt Experten aus verschiedenen Bereichen zusammen: - Ingenieure - Ethiker - Rechtswissenschaftler - Sozialwissenschaftler - Politiker Ziel ist es, praktische Richtlinien zu entwickeln, die ethische Überlegungen von Anfang an in die Entwicklung von KI-Systemen einbeziehen, statt sie erst nachträglich zu berücksichtigen.

Partnership on AI’s Fairness,
Transparency, and Accountability
Standards

r

Die "Partnership on AI" (PAI) ist eine 2016 gegründete Non-Profit-Organisation, die von großen Technologieunternehmen wie Amazon, Apple, Google, Meta, Microsoft und anderen zusammen mit Akademikern, Forschern und zivilgesellschaftlichen Organisationen ins Leben gerufen wurde. Die Standards für Fairness, Transparenz und Verantwortlichkeit wurden entwickelt, um: - Fairness in KI-Systemen zu fördern - Transparenz bei KI-Entscheidungen zu erhöhen - Klare Verantwortlichkeiten zu etablieren Die PAI arbeitet dabei als Multi-Stakeholder-Initiative, die verschiedene Perspektiven einbezieht und praktische Richtlinien für die ethische Entwicklung und den Einsatz von KI entwickelt. Die Standards sollen dabei helfen, KI-Systeme vertrauenswürdig und im Einklang mit gesellschaftlichen Werten zu gestalten.

UNESCO AI Ethics Guidelines

r

Die UNESCO AI Ethics Guidelines (offiziell: "Recommendation on the Ethics of Artificial Intelligence") ist das erste globale Regelwerk für KI-Ethik, das 2021 von den 193 UNESCO-Mitgliedstaaten verabschiedet wurde. Diese Richtlinien bieten einen ethischen Rahmen für die Entwicklung und Nutzung von KI, mit Fokus auf folgende Kernprinzipien: - Schutz der Menschenrechte - Förderung von Vielfalt und Inklusion - Umweltschutz und nachhaltige Entwicklung - Transparenz und Verantwortlichkeit - Datenschutz und Privatsphäre Die Richtlinien sind nicht rechtlich bindend, dienen aber als wichtige globale Orientierung für Regierungen, Unternehmen und Entwickler. Sie betonen besonders die Bedeutung von KI für nachhaltige Entwicklung und die Notwendigkeit, den Zugang zu KI-Technologien gerecht zu gestalten.

Ethics Guidelines for Trustworthy AI
der Europäischen Kommission

r

Die Ethics Guidelines for Trustworthy AI der Europäischen Kommission sind ein 2019 veröffentlichter Leitfaden, der Prinzipien für vertrauenswürdige KI in Europa definiert. Die Richtlinien basieren auf dem Grundsatz, dass KI vertrauenswürdig sein muss, um ihr volles Potenzial zu entfalten. Diese Richtlinien bilden eine wichtige Grundlage für den späteren AI Act der EU.

Constitutional AI

r

Constitutional AI beschreibt einen Ansatz in der Entwicklung von KI-Systemen, bei dem bestimmte Verhaltensweisen, ethische Grundsätze und Beschränkungen direkt in das Training des KI-Models eingebaut werden. Diese "Verfassung" des KI-Systems wird während des Trainingsprozesses implementiert, um sicherzustellen, dass das Model bestimmte Grenzen nicht überschreitet und sich an vorgegebene ethische Richtlinien hält. Das Konzept wurde maßgeblich von Anthropic entwickelt und zielt darauf ab, KI-Systeme von Grund auf sicherer und zuverlässiger zu machen, anstatt Beschränkungen erst nachträglich einzuführen. Dieser Ansatz unterscheidet sich von herkömmlichen Methoden dadurch, dass die gewünschten Verhaltensweisen nicht durch nachträgliches Feintuning oder Filtern erreicht werden, sondern fundamentaler Bestandteil des Trainings sind.

Sicherheitsstandards

NIST AI Risk Management
Framework

r

Das NIST AI Risk Management Framework (AI RMF) ist ein vom National Institute of Standards and Technology entwickelter Leitfaden für das Management von KI-Risiken. Es bietet Organisationen einen strukturierten Ansatz zur Bewertung und Minimierung von Risiken bei der Entwicklung und dem Einsatz von KI-Systemen. Das Framework basiert auf vier Hauptfunktionen: 1. Govern (Steuern): Entwicklung von Richtlinien und Prozessen für KI-Risikomanagement 2. Map (Kartieren): Identifikation und Analyse von KI-Risiken 3. Measure (Messen): Bewertung und Priorisierung von Risiken 4. Manage (Managen): Implementierung von Maßnahmen zur Risikominimierung Das NIST AI RMF ist freiwillig und technologieneutral, wird aber zunehmend als Standard-Referenz für KI-Risikomanagement angesehen, besonders in den USA. Es hilft Organisationen dabei, KI-Systeme verantwortungsvoll und sicher zu entwickeln und einzusetzen.

ISO/IEC Standards für KI-Sicherheit

r

ISO/IEC Standards für KI-Sicherheit sind international anerkannte Normen, die von der International Organization for Standardization (ISO) und der International Electrotechnical Commission (IEC) gemeinsam entwickelt werden. Die wichtigsten Standards befassen sich mit: Grundlegende Aspekte: - Begriffsdefinitionen und Terminologie - Risikomanagement für KI-Systeme - Qualitätsanforderungen und Bewertungskriterien - Sicherheits- und Robustheitskriterien Der bekannteste Standard ist ISO/IEC 42001 für KI-Managementsysteme, der Organisationen einen Rahmen für die verantwortungsvolle Entwicklung und den Einsatz von KI-Systemen bietet, ähnlich wie ISO 9001 für Qualitätsmanagement. Diese Standards sind besonders wichtig für: - Internationale Zusammenarbeit - Zertifizierungen von KI-Systemen - Erfüllung regulatorischer Anforderungen - Qualitätssicherung in der KI-Entwicklung Die Standards werden kontinuierlich weiterentwickelt, um mit der schnellen Entwicklung der KI-Technologie Schritt zu halten.

Secure AI Framework (SAIF)

r

Das Secure AI Framework (SAIF) von Google ist ein konzeptioneller Rahmen, der darauf abzielt, Sicherheitsrisiken im gesamten Lebenszyklus von KI-Systemen zu identifizieren und zu mindern. SAIF besteht aus sechs zentralen Elementen: 1. Erweiterung starker Sicherheitsgrundlagen auf das KI-Ökosystem: Nutzung bewährter Sicherheitspraktiken zur Absicherung von KI-Systemen. 2. Implementierung von Sicherheitskontrollen für KI: Anwendung spezifischer Sicherheitsmaßnahmen, die auf die einzigartigen Herausforderungen von KI zugeschnitten sind. 3. Schutz der KI-Modelle und Daten: Sicherstellung der Integrität und Vertraulichkeit von Trainingsdaten und Modellen. 4. Sicherstellung der Transparenz und Nachvollziehbarkeit: Förderung von Erklärbarkeit und Verantwortlichkeit in KI-Systemen. 5. Förderung einer Sicherheitskultur in der KI-Entwicklung: Integration von Sicherheitsüberlegungen in alle Phasen der KI-Entwicklung. 6. Zusammenarbeit und Wissensaustausch: Förderung der Zusammenarbeit zwischen verschiedenen Akteuren, um Sicherheitsbedrohungen effektiv zu begegnen. SAIF dient als Leitfaden für Organisationen, um KI-Systeme sicher und verantwortungsvoll zu entwickeln und einzusetzen.

Übergreifend

ISO/IEC JTC 1/SC 42
(Artificial Intelligence)

r

ISO/IEC JTC 1/SC 42 (Artificial Intelligence) ist das zentrale internationale Standardisierungskomitee für KI innerhalb der ISO/IEC-Organisation. Es entwickelt und koordiniert Standards für alle Aspekte von KI-Systemen. Die wichtigsten Arbeitsbereiche umfassen: - Grundlegende Standards und Begriffsdefinitionen - KI-Management und Governance - Vertrauenswürdigkeit und Zuverlässigkeit - KI-Sicherheit und Robustheit - Technische Standards für KI-Systeme - Standards für Big Data - Qualitätsanforderungen für KI Das Komitee bringt internationale Experten zusammen und arbeitet an der fortlaufenden Entwicklung und Aktualisierung von Standards, um mit der schnellen Entwicklung der KI-Technologie Schritt zu halten. Diese Standards dienen als wichtige Grundlage für die internationale Zusammenarbeit und Qualitätssicherung im KI-Bereich.

OECD AI Principles

r

Die OECD AI Principles, 2019 von den OECD-Mitgliedsländern verabschiedet, sind die ersten international vereinbarten Richtlinien für die ethische Entwicklung und Nutzung von KI-Systemen. Sie definieren Kernprinzipien wie die Förderung von inklusivem Wachstum, Respekt für menschliche Werte, Transparenz, Sicherheit und klare Verantwortlichkeiten. Obwohl nicht rechtlich bindend, haben diese Prinzipien erheblichen Einfluss auf nationale KI-Strategien, Regulierungsansätze und internationale Zusammenarbeit und dienten als Grundlage für weitere KI-Rahmenwerke.

Content of Authenticity Initiative

r

Die Content Authenticity Initiative (CAI) ist eine im November 2019 von Adobe, der New York Times und Twitter gegründete Vereinigung. Ziel der CAI ist die Förderung eines Industriestandards, der sichere Aussagen über die Herkunft digitaler Inhalte ermöglicht. Dieser Standard basiert auf kryptographischen Methoden und Metadaten, die Informationen über die Erstellung, Bearbeitung und Identität von Dateien enthalten. Durch die Implementierung dieser Technologien soll die Verbreitung von Desinformation eingedämmt und das Vertrauen in digitale Medien gestärkt werden.

Enterprise-Governance-Disziplinen

r

Eine Enterprise-Governance-Disziplin ist ein strukturierter Ansatz zur Festlegung von Richtlinien, Prozessen und Verantwortlichkeiten, der eine verantwortungsvolle, effiziente und konforme Steuerung bestimmter Unternehmensbereiche sicherstellt. Sie kombiniert Fachwissen, Methoden, Prinzipien und Kontrollmechanismen, um klare Leitlinien für Entscheidungsfindung, Risikomanagement und Rechenschaftspflicht zu schaffen. Im Kontext von KI erweisen sich drei zentrale Governance-Disziplinen als besonders relevant: IT-Governance, Data-Governance und AI-Governance. Diese drei Disziplinen bilden ein komplementäres Rahmenwerk, das die verschiedenen Aspekte der KI-Entwicklung und -Nutzung abdeckt. Ihre Stärke liegt in der gegenseitigen Ergänzung, wobei bestimmte Themenbereiche an den Schnittstellen liegen und somit von mehreren Disziplinen gleichzeitig adressiert werden.

IT-Governance

r

IT-Governance bezeichnet den Rahmen an Regeln, Prozessen, Verantwortlichkeiten und Strukturen, die festlegen, wie Informationstechnologie in einer Organisation gesteuert, kontrolliert und überwacht wird. Es ist ein formaler Ansatz zur Sicherstellung, dass IT-Investitionen den Geschäftszielen entsprechen und Risiken angemessen gemanagt werden. Zu den Kernaspekten von IT-Governance gehören: - Strategische Ausrichtung: Sicherstellung, dass IT-Strategien mit den Unternehmenszielen übereinstimmen - Wertschöpfung: Maximierung des geschäftlichen Nutzens von IT-Investitionen - Risikomanagement: Identifikation und Kontrolle IT-bezogener Risiken - Ressourcenmanagement: Optimierung der IT-Ressourcennutzung - Leistungsmessung: Überwachung und Bewertung der IT-Performance Es gibt mehrere anerkannte Frameworks für IT-Governance, darunter COBIT (Control Objectives for Information and Related Technologies), ITIL (Information Technology Infrastructure Library) und ISO/IEC 38500, die internationale Norm für IT-Governance.

Data-Governance

r

Bei Data-Governance handelt es sich um einen strukturierten Ansatz zur Verwaltung, Organisation und Überwachung von Daten in einer Organisation. Data-Governance umfasst: - Festlegung von Richtlinien, Standards und Prozessen für den Umgang mit Daten - Definition von Verantwortlichkeiten und Rollen (wie Data Owner, Data Steward) - Sicherstellung von Datenqualität, -sicherheit und Compliance - Management des Datenlebenszyklus - Etablierung von Entscheidungsstrukturen für datenrelevante Fragen Data-Governance ist ein zentrales Konzept im modernen Datenmanagement und wird von Organisationen wie DAMA (Data Management Association) in ihrem DMBOK (Data Management Body of Knowledge) sowie von Forschern und Praktikern in zahlreichen Fachpublikationen definiert und beschrieben.

AI-Governance

r

AI-Governance bezieht sich auf den Rahmen von Regeln, Praktiken und Prozessen zur Steuerung, Kontrolle und Überwachung von KI-Systemen in Organisationen. Dabei umfasst AI-Governance folgende Schlüsselelemente: 1. Richtlinien und Standards für die Entwicklung, den Einsatz und die Nutzung von KI-Systemen 2. Verantwortlichkeiten und Rechenschaftspflichten bei KI-bezogenen Entscheidungen 3. Risikomanagement für KI-Anwendungen 4. Ethische Leitlinien für KI-Nutzung 5. Compliance mit gesetzlichen Vorschriften und Branchenstandards 6. Datenschutz- und Sicherheitsmaßnahmen 7. Transparenz und Erklärbarkeit von KI-Entscheidungen 8. Richtlinien und Vorgaben für das Lifecycle-Management von KI-Systemen AI-Governance ist ein wichtiger Bestandteil moderner Unternehmensführung geworden, da KI-Systeme zunehmend geschäftskritische Entscheidungen beeinflussen oder übernehmen.