Google hat Gemini 2.5 Flash als Vorschauversion veröffentlicht und bietet Entwicklern beispiellose Kontrolle über die Reasoning-Fähigkeiten des KI-Modells. Diese neue Version ermöglicht es Nutzern, „Thinking“ (das Denken des Modells) ein- oder auszuschalten und spezifische „Thinking-Budgets“ festzulegen, um Qualität, Kosten und Antwortzeit zu optimieren.
Die Preisstruktur zeigt die Kostenauswirkungen des Reasonings deutlich: Die Eingabe kostet 0,15 $ pro Million Tokens, während die Ausgabe 0,60 $ pro Million Tokens kostet, wenn Thinking deaktiviert ist, und drastisch auf 3,50 $ steigt, wenn es aktiviert wird – ein fast sechsfacher Unterschied. Dieser hybride Ansatz ermöglicht es Entwicklern erstmals, die Reasoning-Fähigkeiten an ihre spezifischen Bedürfnisse und Budgets anzupassen.
Laut Tulsee Doshi, Googles Produktmanagement-Direktorin für Gemini, bestimmt das Modell intelligent, wie viel seines Thinking-Budgets es je nach Komplexität der Aufgabe nutzt. „Wir veröffentlichen das Modell als Vorschau, um Feedback von Entwicklern zu erhalten, wo das Modell ihre Erwartungen erfüllt“, erklärte Doshi gegenüber Ars Technica.
Das neue Modell ist über mehrere Kanäle verfügbar:
- Für Entwickler über Google AI Studio und Vertex AI
- Für Verbraucher in der Gemini-App als „2.5 Flash (Experimental)“
- Mit Unterstützung für Googles Canvas-Funktion zur Arbeit mit Text oder Code
Leistungsbenchmarks zeigen, dass Gemini 2.5 Flash mehrere Konkurrenzmodelle bei Reasoning-Aufgaben übertrifft und dabei wettbewerbsfähige Geschwindigkeit und Kosten beibehält. Google positioniert es mit „einem erstaunlichen Leistungs-Kosten-Verhältnis“ an der sogenannten „Pareto-Grenze“ der KI-Modelle.
Quellen: Google, Ars Technica, VentureBeat