OpenAI hat ein neues Werkzeug namens ChatGPT Agent veröffentlicht. Es soll komplexe, mehrstufige Aufgaben für Nutzer autonom erledigen, indem es einen virtuellen Computer bedient. Dies berichten Hayden Field für The Verge und Reece Rogers für Wired. Der Agent kann demnach eine Vielzahl von Aktivitäten übernehmen, von persönlicher Planung bis hin zu beruflichen Aufgaben.
Laut OpenAI kann das neue Werkzeug beispielsweise den Kalender eines Nutzers analysieren, um einen Abend zu planen, einschließlich der Suche nach freien Restaurantplätzen auf externen Webseiten. Es kann auch Rechercheberichte erstellen, darauf basierend PowerPoint-Präsentationen anfertigen und Online-Formulare ausfüllen. In einer Demonstration zeigten Yash Kumar, Produktleiter bei OpenAI, und Forschungsleiterin Isa Fulford, wie der Agent vom Nutzer unterbrochen und neu ausgerichtet werden kann.
Der ChatGPT Agent basiert auf einem neuen, nicht namentlich genannten KI-Modell. Es kombiniert die Fähigkeiten zweier früherer OpenAI-Werkzeuge: Operator, das Webseiten visuell navigiert, und Deep Research, das große Textmengen für Analysen verarbeitet. Isa Fulford erklärte gegenüber The Verge, dass die Teams hinter beiden Werkzeugen zusammengelegt wurden, um das neue Produkt zu entwickeln. Das Modell wurde mittels Reinforcement Learning trainiert, um Werkzeuge wie einen visuellen Browser, einen textbasierten Browser und ein Terminal für Daten zu nutzen.
Das Unternehmen betont, dass der Agent nicht auf Geschwindigkeit, sondern auf die Erledigung schwieriger Aufgaben ausgelegt ist. Eine einfache Anfrage kann fünf Minuten dauern, während die Erstellung einer auf Recherche basierenden Präsentation etwa 25 Minuten in Anspruch nehmen kann. „Selbst wenn es 15 Minuten oder eine halbe Stunde dauert, ist das eine erhebliche Beschleunigung im Vergleich dazu, wie lange man selbst dafür brauchen würde“, sagte Fulford zu The Verge. Nutzer sollen eine Aufgabe starten und den Agenten im Hintergrund arbeiten lassen.
Um die Kontrolle durch den Nutzer zu gewährleisten, muss der Agent vor irreversiblen Aktionen wie dem Senden einer E-Mail oder einer Buchung um Erlaubnis fragen. Eine Funktion namens „Watch Mode“ erfordert, dass der Nutzer im Browser-Tab verbleibt, wenn der Agent auf sensible Webseiten, etwa Finanzportale, zugreift. Finanzielle Transaktionen sind vorerst eingeschränkt. Das Unternehmen hat zudem erweiterte Sicherheitsvorkehrungen für potenziell gefährliche Fähigkeiten aktiviert, obwohl es nach eigenen Angaben keine Beweise dafür gibt, dass das Modell bei der Herstellung biologischer oder chemischer Waffen helfen könnte.
Der ChatGPT Agent wird zunächst für zahlende Abonnenten von ChatGPT Plus, Pro und Team eingeführt. Nutzer von Enterprise und Education sollen im weiteren Verlauf des Sommers Zugriff erhalten. Mit dieser Veröffentlichung positioniert sich OpenAI im wachsenden Markt für KI-Agenten. Dies ist ein wichtiger Trend in der Technologiebranche, in dem Unternehmen Assistenten entwickeln, die proaktiv Aufgaben für Menschen erledigen.