OpenAI hat heute seinen Webbrowser ChatGPT Atlas veröffentlicht. Laut OpenAI-CEO Sam Altman ist es „eine seltene, einmalige Gelegenheit, neu zu überdenken, was ein Browser sein kann“. Mit dieser Einführung tritt OpenAI in direkten Wettbewerb mit etablierten Anbietern wie Google Chrome und neuen, auf KI ausgerichteten Browsern.
Das Herzstück von Atlas ist natürlich die tiefe Integration von ChatGPT. Die „Neuer Tab“-Seite zeigt einen vertrauten Chat-Prompt, der Nutzer dazu anregt, Fragen zu stellen, anstatt URLs einzugeben. Die Chat-Oberfläche kann zugleich als ständiger Begleiter dienen und in einer geteilten Bildschirmansicht neben Websites erscheinen. Dies ermöglicht es den Nutzern, Fragen zum Inhalt der aktuellen Seite zu stellen, ohne Text kopieren und einfügen zu müssen. Laut einem Bericht von The Verge erlaubt eine Funktion namens „Cursor-Chat“ Nutzern, Text auf einer Seite, zum Beispiel in einer E-Mail, zu markieren und von ChatGPT direkt an Ort und Stelle bearbeiten zu lassen.
Schlüsselfunktionen
Browser Memories
Atlas führt eine Funktion namens „Browser Memories“ ein, die es ChatGPT ermöglicht, den Kontext von besuchten Websites zu speichern. Damit lassen sich dann Fragen stellen, die sich über mehrere Browsing-Sitzungen erstrecken, wie zum Beispiel: „Finde alle Stellenanzeigen, die ich mir letzte Woche angesehen habe, und erstelle eine Zusammenfassung der Branchentrends.“ Das Unternehmen betont, dass diese Funktion optional ist und vom Nutzer kontrolliert wird. Nutzer können Memories und den Browserverlauf einsehen, archivieren oder löschen. Ein erster Test von VentureBeat ergab jedoch, dass die Funktion „unzuverlässig“ war („hit or miss“), da sie ein häufig gesuchtes Thema aus dem importierten Browserverlauf nicht wiedererkennen konnte.
Agent Mode
Ein zentrales Feature ist der „Agent Mode“, der als Vorschau für zahlende Abonnenten von ChatGPT Plus, Pro und Business verfügbar ist. In diesem Modus kann ChatGPT mehrstufige Aufgaben im Auftrag des Nutzers ausführen. Die Ankündigung von OpenAI nennt Beispiele wie die Planung einer Dinnerparty, bei der ein Rezept gefunden, eine Einkaufsliste erstellt und die Artikel in einen Online-Warenkorb gelegt werden.
Während einer Live-Demonstration zeigten Mitarbeiter von OpenAI, wie der Agent durch Websites navigierte, verzichteten jedoch darauf, einen Kauf abzuschließen. Das Unternehmen gibt an, dass der Agent pausieren und um Bestätigung bitten wird, bevor er Aktionen auf sensiblen Websites durchführt, wie etwa von Finanzinstituten. Laut Simon Willison kann sich die Benutzererfahrung langsam anfühlen; er verglich sie damit, „einem Computeranfänger dabei zuzusehen, wie er mühsam lernt, eine Maus zu benutzen“.
Sicherheit, Datenschutz und Expertenbedenken
Die offiziellen Informationen von OpenAI beschreiben mehrere Datenschutzkontrollen. Nutzer können mithilfe eines Schalters in der Adressleiste beispielsweise verhindern, dass ChatGPT bestimmte Seiten sieht, einen Inkognito-Modus verwenden, der keine Aktivitäten speichert, und müssen zustimmen (Opt-in), damit ihre Browserdaten für das Training von Modellen verwendet werden dürfen.
Für den Agent Mode listet OpenAI spezifische Schutzmaßnahmen auf. So kann der Agent keinen Code ausführen, keine Dateien herunterladen, nicht auf das Dateisystem des Computers zugreifen und keine gespeicherten Passwörter verwenden. Trotz dieser Maßnahmen räumt das Unternehmen ein, dass der Agent „weiterhin ein Risiko birgt“, einschließlich des Risikos, Fehler zu machen oder anfällig für bösartige Anweisungen zu sein, die auf Webseiten versteckt sind – eine Technik, die als Prompt Injection bekannt ist.
Dieses Risiko war ein zentraler Kritikpunkt für einige Experten. Simon Willison beschrieb die Sicherheits- und Datenschutzrisiken als „nahezu unüberwindbar hoch“ („insurmountably high“) und erklärte, er würde solchen Produkten nicht vertrauen, bis sie einer gründlichen Sicherheitsprüfung unterzogen wurden. Er merkte an, dass die wichtigste Verteidigung von OpenAI darin zu bestehen scheint, „vom Nutzer zu erwarten, dass er jederzeit sorgfältig beobachtet, was der Agent Mode tut.“
Marktkontext und technische Details
Die Einführung von Atlas wird von Publikationen wie The Verge und VentureBeat als OpenAI’s „erste Salve in den KI-Browser-Kriegen“ gesehen. Der Schritt fordert die Dominanz von Googles Chrome heraus, der ebenfalls seine Gemini-KI tiefer integriert. Er konkurriert auch mit anderen KI-nativen Browsern wie Perplexity’s Comet, der ähnliche Funktionen bietet. VentureBeat kommentierte, dass Atlas „das Rad nicht gerade neu erfindet“ und wies auf seine vertraute Benutzeroberfläche hin, die den ChatGPT-Look mit einer traditionellen Tab-Struktur kombiniert.
Ein von Simon Willison hervorgehobenes technisches Detail: Atlas verwendet ARIA-Tags, um die Struktur von Webseiten zu verstehen. Dies sind dieselben Barrierefreiheits-Tags, die von Screenreadern verwendet werden, um sehbehinderten Nutzern die Navigation im Web zu erleichtern. Dies deutet darauf hin, dass die barrierefreie Gestaltung von Websites auch deren Kompatibilität mit KI-Agenten verbessert. Willison stellte außerdem fest, dass der User-Agent-String des Browsers mit dem von Google Chrome auf macOS identisch ist, was bedeutet, dass er sich gegenüber Websites als Chrome ausgibt.
ChatGPT Atlas ist weltweit für macOS für alle Nutzerstufen (Free, Plus, Pro, Go) verfügbar. Für Business-, Enterprise- und Edu-Kunden befindet er sich in der Beta-Phase. OpenAI hat angekündigt, dass Versionen für Windows, iOS und Android „bald verfügbar“ sein werden.
Quellen: OpenAI, Simon Willison, The Verge, VentureBeat
