Die wichtigsten KI-Updates des Monats

Artikel teilen

Auch in diesem Monat ist viel passiert: Neue Modelle, Tools, Funktionen – aber auch spannende Diskussionen über Denkfähigkeit, Regulierung, Ethik und den Einfluss von KI auf unsere Gesellschaft. Wir fassen wie immer kompakt und verständlich zusammen – von Microsoft über OpenAI bis Google, Apple, xAI, MiniMax, Canva, Higgsfield, ElevenLabs und viele mehr.

GPT-5, Claude 3.5 Sonnet & Grok 4: Neue Modellgenerationen

GPT-5 wurde von Sam Altman offiziell für den Sommer angekündigt – mit Fokus auf Langzeitgedächtnis, multimodale Fähigkeiten und Agentenverhalten. GPT-5 wird wahrscheinlich in mehreren Stufen erscheinen (z. B. 5.1, 5.2), vergleichbar mit GPT-4 Turbo. Auch wenn kein großer Technologiesprung erwartet wird, stehen wichtige Verbesserungen im Detail an – etwa Personalisierung, Genauigkeit und Anpassbarkeit. Besonders spannend: Das Modell soll sich „schleichend“ weiterentwickeln – ein „Big Bang“-Moment wie bei GPT-3 ist eher unwahrscheinlich.
Claude 3.5 Sonnet (Anthropic) überzeugt durch überragende Codierungsleistung, präzises Bildverständnis und die Fähigkeit, Webseiten aus Handskizzen zu generieren. Dank intelligenter Tool-Auswahl erkennt das Modell automatisch, welches Werkzeug bei einer Aufgabe sinnvoll ist. Ein interaktiver Kunstwettbewerb auf Claude.ai begleitete den Start. Die Tool-Auswahl erinnert an erste Agentenfähigkeiten – ein Trend, der sich bei fast allen großen Playern abzeichnet.
Grok 4 von xAI (Elon Musk) ist ebenfalls erschienen und übertrifft laut Benchmarks in einigen Bereichen GPT-4 Turbo. Besonders auffällig: Grok antwortet schnell, ist tief in X (Twitter) integriert und reagiert direkt auf Echtzeitdaten. Spannend (und kontrovers): Elon Musk kündigte nach inhaltlicher Kritik öffentlich an, Grok „neu zu trainieren“, nachdem das Modell rechte Gewalt als häufigste politische Gewaltform in den USA identifizierte. Ein Eingriff, der ethische Fragen aufwirft.

KI denkt (zu) anders? – Denkarchitekturen, Studien & Symbolverständnis

Microsoft arbeitet an KI-Architekturen, die echte kognitive Eigenschaften abbilden sollen – darunter Planen, Geduld, Frustrationstoleranz und vernetztes Denken. Ziel ist ein menschenähnlicher Problemlösungsprozess, nicht bloß textbasiertes Mustererkennen.
Google Project Astra steht für eine KI mit permanentem, multimodalem Gedächtnis. Sprache, Kamera und Kontext werden in Echtzeit kombiniert. Astra markiert Googles Vision eines digitalen Assistenten mit Weltverständnis – der auch über längere Zeiträume konsistent denkt und agiert.
Googles robotisches Gehirn bringt diese Idee in physische Körper. Es verarbeitet Sprache, Bild, Ton und Sensorik in Echtzeit und erlaubt autonomen Robotern, sich durch Räume zu bewegen und Aufgaben auszuführen. Roboter mit eigenem Gedächtnis, Aufmerksamkeit und Entscheidungsfähigkeit rücken näher.
Apple-Studie zu Large Reasoning Models (LRMs): Eine umfassende Analyse zeigt, dass viele aktuelle Sprachmodelle an mehrstufigem, symbolischem Denken scheitern. Beispiele wie der „Turm von Hanoi“ oder „Blocks World“ zeigen, dass die Modelle oft nur oberflächlich Lösungen imitieren, aber keine stabile Denkstruktur besitzen.
MIT-Studie zu KI und Denken: 54 Studierende schrieben Essays – teils mit ChatGPT, teils mit Google, teils ohne Hilfsmittel. Ergebnis: 83 % der ChatGPT-Nutzer konnten sich wenige Minuten später nicht mehr an die Inhalte erinnern. Gehirnscans zeigten eine Halbierung aktiver Verbindungen, mehr Frustration und schlechteres kritisches Denken. Die Forscher warnen vor einem „kognitiven Schuldenberg“.

KI-Agenten, Kontextmonster & End-to-End-Systeme

MiniMax Agent ist ein neuer intelligenter Assistent, der komplexe Aufgaben eigenständig erledigt – inklusive Codierung, Tool-Nutzung und Datenverständnis. Ein echter „End-to-End-Agent“, der Aufgaben über Stunden oder Tage verfolgen kann.
MiniMax M1 ist ein Open-Source-Modell mit einem Kontextfenster von 1 Million Tokens (Input) und 80.000 Token Output – aktuell weltweiter Spitzenwert. Trotz dieses enormen Umfangs war das Training laut Angaben mit rund 535.000 USD vergleichsweise kostengünstig.

Google Gemini 2.5 Pro & Deep Research

Gemini 2.5 Pro wurde offiziell veröffentlicht – samt schneller Flash-Variante und stromsparendem „Flash-Light“-Modell.
Neu ist die Fähigkeit, eigene Dateien (PDFs, Slides, Webseiten) hochzuladen und daraus:
- strukturierte Berichte,
- Lernspiele, Quizzes,
- Audio-Zusammenfassungen,
- Infografiken,
- Webseiten oder Präsentationen zu erzeugen.
Besonders spannend: Die Fähigkeit, Inhalte automatisch zu transformieren – etwa ein PDF in eine PowerPoint, ein Text in eine Webseite, ein Artikel in ein Lernquiz.

Microsoft Copilot – das Juni-Update im Überblick

Neue Oberfläche:
- Linksseitige Navigation mit Tabs für Chat, Agenten, Loop, Notebooks, Prompts & Apps.
Agenten-Verwaltung:
- Bestehende Agenten können direkt editiert werden, ohne Neuanlage.
Word & Loop Integration:
- Inhalte lassen sich aus Copilot-Chats in Loop übertragen – inklusive Echtzeitbearbeitung im Team. Loop-Seiten sind exportierbar nach Word, mit durchgängiger Copilot-Unterstützung.
Notebooks & OneNote:
- Copilot Notebooks funktionieren nun auch in OneNote. Prompts, Daten, Antworten und Folgeaktionen lassen sich dort strukturieren.
- Highlight: Audio-Zusammenfassungen im Interviewstil zwischen zwei KI-Stimmen.
PowerPoint & Outlook:
- PowerPoint: Automatischer Foliensatz aus einem PDF – mit Quellenverweisen.
- Outlook: Neue Priorisierungsfunktion für E-Mails und Zusammenfassung von Anhängen.
Prompt-Automatisierung & Shortcuts:
- Nutzer können wiederkehrende Prompts timen. Zudem erlaubt Edge (Strg+F) nun das extraktive Zusammenfassen von Webseiten.

Commerce & Medien: KI bricht Rekorde

Live Commerce in China: Zwei KI-Avatare, gesteuert vom Ernie-Modell, erzielten in einem 6-Stunden-Stream über 7 Mio. Euro Umsatz – bei 13 Millionen Zuschauern. Produktionskosten sanken um 80 %, Conversion Rates stiegen um 62 %. Ein Weckruf für alle im Marketing.

Werbespot für 2.000 $: Während der NBA-Finals wurde ein Spot für eine Wettplattform innerhalb von zwei Tagen mit Gemini und GPT produziert. Rund 300 KI-generierte Szenen wurden zu einem 30-Sekunden-Clip montiert. Das spart bis zu 95 % Produktionskosten.

Kreativ mit KI: Video, Bilder, Inpainting

Midjourney Video V1 bringt erstmals animierte Clips im bekannten Midjourney-Stil. Ein Clip kostet etwa das Achtfache eines Einzelbildes, ist aber deutlich günstiger als Konkurrenzprodukte. Videos lassen sich auch aus alten Midjourney-Bildern generieren.

Google Veo 3 in Canva: 8-Sekunden-Clips mit Ton lassen sich direkt aus Text generieren. Nutzer können Stil, Tempo und Sound nachträglich anpassen. Noch nicht in Deutschland verfügbar, aber via VPN nutzbar.

Higgsfield Soul bietet präzises Video-Inpainting – Objekte lassen sich in vorhandene Videos einfügen. Die Lichtstimmung, Struktur und Perspektive wird automatisch angepasst.

Recht & Regulierung

Harvey ist eine spezialisierte Legal-KI und wird zunehmend in Kanzleien eingesetzt. Sie versteht juristische Sprache, analysiert Fälle und hilft bei Recherche und Textentwürfen.
US-Kongress debattiert über Risiken autonomer KI-Systeme. Die Experten (u. a. Jack Clark, Thomas Manken) warnen vor Superintelligenz, AGI-Sicherheitsrisiken, internationalem Wettlauf mit China und Kontrollverlust durch autonome Systeme.
OpenAI vs. Microsoft: Wegen Uneinigkeit über Datenzugriff und IP-Rechte scheint OpenAI über eine Kartellklage gegen Microsoft nachzudenken. Gleichzeitig nähert sich OpenAI strategisch Google an – ein klares Signal für einen Richtungswechsel.

Fazit: Was bleibt?

Wir stehen an einem Wendepunkt. KI ist nicht länger nur Werkzeug, sondern beginnt, Kontext zu behalten, Werkzeuge auszuwählen, Inhalte umzuwandeln und sich an Menschen anzupassen. Mit Agenten, multimodalem Gedächtnis, emotionaler Sprache und roboterischer Umsetzung verschwimmen die Grenzen zwischen Tool, Assistent und digitalem Wesen.

Wer jetzt beobachtet, testet und reflektiert, wird diese Transformation aktiv gestalten können.

Wie immer gilt: Fragen, Ideen oder Anwendungsbeispiele? Wir freuen uns auf den Austausch!

<< Zurück

Die wichtigsten KI-Updates des Monats

Inhaltsverzeichnis

GPT-5, Claude 3.5 Sonnet & Grok 4: Neue Modellgenerationen

KI denkt (zu) anders? – Denkarchitekturen, Studien & Symbolverständnis

KI-Agenten, Kontextmonster & End-to-End-Systeme

Google Gemini 2.5 Pro & Deep Research

Microsoft Copilot – das Juni-Update im Überblick

Commerce & Medien: KI bricht Rekorde

Kreativ mit KI: Video, Bilder, Inpainting

Recht & Regulierung

Fazit: Was bleibt?

Marcus Wuest

Kontakt

Informationen

Unternehmen

Social Media