AI-Update März: KI bekommt Hände, Arme und Augen

Die Webseite der Zukunft

Romans These: Webseiten werden nicht mehr statisch aufgebaut, sondern in Echtzeit von einem LLM generiert – individuell, für jede Person anders, basierend auf strukturierten Daten im Hintergrund. Als Beweis zeigte er einen Prototyp aus Google AI Studios: Kein vorgebauter Content, alles entsteht on the fly. Das neue Modell Gemini 2.1 Flash Lite ist genau für diesen Anwendungsfall gemacht.

Die Architektur dahinter besteht aus fünf Schichten: einer strukturierten Wissensbasis (Preise, Verfügbarkeiten, DMO-Inhalte), Style- und Designregeln, spezialisierten Sub-Agents, einem LLM als Orchestrator – und einem Agentic Loop, der das Ergebnis laufend bewertet und verbessert. Das Interface selbst wird multimodal: Sprache, Text, Geste, irgendwann vielleicht AR oder Hologramm.

➡️ Die Konsequenz für Organisationen: Wer keine sauberen, strukturierten Daten hat, wird in dieser Welt unsichtbar sein.

Anthropic zieht davon

Die Verschiebung der Kräfte im KI-Markt war ein weiteres zentrales Thema. Anthropic hat OpenAI inzwischen in vielen Bereichen überholt – technisch und in der Außenwahrnehmung. Der Wendepunkt war der Pentagon-Deal: OpenAI übernahm einen Vertrag für zivile Überwachung und autonome Kriegsführung, den Anthropic zuvor abgelehnt hatte. Das kostete OpenAI massiv an Reputation – die App-Downloads brechen ein, während Anthropic seinen Jahresumsatz seit Dezember verdoppelt hat.

Dazu kommt die sogenannte "SaaSpokalypse": Jedes neue Claude-Feature, das klassische Softwarefunktionen ersetzt, erschüttert ganze Branchen.

Claude Code – nicht nur für Programmierer

Das vielleicht wichtigste praktische Update: Claude Code ist längst kein reines Entwickler-Tool mehr. Das Prinzip ist einfach – du beschreibst, was du willst, Claude programmiert sich die Lösung selbst und führt sie aus. Im Hintergrund. Ohne dass du eine Zeile Code verstehen musst.

Konkrete Anwendungen:

Content-Pipelines automatisieren
Reviews analysieren
Reports aus 20 Excel-Dateien zusammenführen
Wettbewerbsrecherchen erstellen
Neu: die Möglichkeit, Claude Code per Sprachsteuerung oder über Telegram zu steuern
...

Auch Microsoft hat das verstanden: Hinter dem neuen Copilot Cowork in Microsoft 365 steckt Anthropic, nicht mehr OpenAI. Claude lässt sich jetzt direkt als Plugin in Excel und PowerPoint integrieren.

Subagents und das Ende der Context Pollution

Ein Konzept, das gerade richtig Fahrt aufnimmt: Subagents. Statt ein großes Modell mit immer mehr Kontext zu überladen, übernimmt ein Orchestrator die Steuerung – und verteilt Aufgaben an spezialisierte Unteragenten. Jeder davon hat seinen eigenen Fokus und Kontext. Das Ergebnis: schneller, effizienter und deutlich robuster.

Das Spannende daran: Dieses Prinzip ist längst kein Nischenthema mehr, sondern zieht sich durch fast alle großen Plattformen – von Gemini über Claude Code bis hin zu Azure AI. Wer einmal versteht, wie diese Zusammenarbeit von Agents funktioniert, kann sie flexibel in unterschiedlichsten Setups einsetzen.

Google Maps wird zum Gesprächspartner

Das größte Update von Google Maps seit über einem Jahrzehnt - und wieder spielt Gemini eine zentrale Rolle. Mit „Ask Maps“ wird aus der klassischen Suche ein Dialog: Statt Keywords einzugeben, stellt man ganz einfach Fragen wie "Wo kann ich gut frühstücken und danach spazieren gehen?". Maps versteht den Kontext, kombiniert verschiedene Informationen und antwortet direkt - fast wie ein persönlicher Guide.

Dazu kommen neue 3D-Karten und eine deutlich stärkere lokale Suche, die Inhalte nicht nur anzeigt, sondern sinnvoll miteinander verknüpft.

Gerade für den Tourismus ist das ein echter Gamechanger. Google Maps ist für viele Reisende der erste Touchpoint in der Planung – und genau dieser Einstiegspunkt wird gerade komplett neu gedacht. Wer hier sichtbar sein will, muss verstehen, wie Inhalte in diesem neuen, konversationellen Umfeld funktionieren.

Die unterschätzten News: Gemini Embedding 2

Roman nannte es die spannendste Entwicklung seit einem halben Jahr – und trotzdem redet kaum jemand darüber. Gemini Embedding 2 ist das erste multimodale Embedding-Modell, das Text, Bild, Video und Audio in einem einzigen Vektorraum vereint.

Was das bedeutet: Eine einzige Suchanfrage findet gleichzeitig relevante Texte, Bilder, Podcasts und Videos – weil alles semantisch im gleichen Raum liegt. Die KI-Suche wird damit über alle Medienformate hinweg neu gedacht.

Physical AI: KI bekommt einen Körper 🦾

Zum Abschluss wurde es noch einmal ziemlich greifbar: KI verlässt den Bildschirm. Roman zeigte einen humanoiden Roboter, der selbstständig ein Wohnzimmer aufräumt - ohne vorprogrammierte Abläufe, sondern durch echtes Verstehen der Umgebung.

Das Spannende: Alle Roboter teilen ihre Erfahrungen. Heißt, sie lernen nicht einzeln, sondern gemeinsam - weltweit und in Echtzeit. Genau das beschreibt „Physical AI“: KI, die nicht nur denkt, sondern auch sieht, greift und handelt.

Damit wird klar, wohin die Reise geht – KI bekommt buchstäblich Hände, Arme und Augen.

Fazit 💡

Die Richtung ist klar: Weg von statischen Webseiten, hin zu dynamischen, KI-generierten Erlebnissen. Inhalte entstehen in Echtzeit - individuell für jede Person und basierend auf den Daten im Hintergrund.

Parallel dazu verschiebt sich auch die technologische Basis: KI läuft zunehmend lokal – Stichwort Apple M5 (Apple M5 kann 70-Milliarden-Parameter-Modelle offline auf dem Handy ausführen), der große Modelle direkt am Gerät ausführen kann - während Agenten im Hintergrund Aufgaben übernehmen und neue Interfaces wie konversationelle Suche oder Maps den Zugang zu Informationen neu definieren.

Dieser Inhalt ist eingeschränkt. Bitte registrieren Sie sich oder melden Sie sich an, um den vollständigen Beitrag zu lesen.