OpenAI hat Operator eingeführt, einen KI-gestützten Agenten, der webbasierte Aufgaben eigenständig über eine eigene Browser-Schnittstelle ausführen kann. Das Tool, das derzeit als Forschungsvorschau für ChatGPT-Pro-Abonnenten in den Vereinigten Staaten verfügbar ist, stellt den ersten Vorstoß des Unternehmens in Richtung KI-Agenten dar, die direkt mit Computeroberflächen interagieren können.
Das System basiert auf einem neuen Computer-Using Agent (CUA) Modell, das die Bilderkennungsfähigkeiten von GPT-4o mit Reinforcement Learning kombiniert, um Websites zu navigieren und Aufgaben wie Restaurantreservierungen, Lebensmittelbestellungen und Ticketkäufe durchzuführen. Operator funktioniert, indem er Screenshots von Webseiten macht und die grafischen Benutzeroberflächen-Elemente wie Schaltflächen, Textfelder und Menüs interpretiert, wodurch eine Interaktion mit Websites ohne spezielle API-Integrationen möglich ist.
OpenAI hat mehrere Sicherheitsmaßnahmen in Operators Design implementiert. Das System erfordert Benutzereingriffe für sensible Operationen wie die Eingabe von Zahlungsinformationen oder Anmeldedaten und sammelt oder screenshottet solche Daten nicht. Zusätzlich bittet Operator um Benutzerbestätigung vor dem Abschluss wichtiger Aktionen wie Bestellungen oder E-Mail-Versand und enthält Schutzmaßnahmen gegen potentiellen Missbrauch durch Prompt-Injektionen oder böswillige Websites.
Das Unternehmen hat Partnerschaften mit mehreren Unternehmen wie DoorDash, Instacart, OpenTable, Priceline, StubHub und Uber geschlossen, um sicherzustellen, dass das System innerhalb etablierter Nutzungsbedingungen operiert. Diese Zusammenarbeit zielt darauf ab, eine ordnungsgemäße Integration zu ermöglichen und dabei Geschäftsnormen und Datenschutzanforderungen zu respektieren.
Aktuelle Einschränkungen des Systems umfassen Schwierigkeiten mit komplexen Schnittstellen wie der Erstellung von Präsentationen und Kalenderverwaltung. Das Tool unterliegt auch Beschränkungen auf bestimmten Websites, die KI-Agenten blockieren, und OpenAI hat Limits für die tägliche Nutzung und Aufgabenausführung implementiert. Benutzer können über operator.chatgpt.com auf Operator zugreifen, wo Aufgaben in einem Remote-Browser auf OpenAIs Servern ausgeführt werden.
OpenAI gibt an, dass das System im Vergleich zu ähnlichen Tools von Wettbewerbern bessere Leistungen bei Industriebenchmarks erzielt hat, mit einer Erfolgsrate von 87% bei WebVoyager für die Live-Website-Navigation. Das Unternehmen plant, den Zugang für Plus-, Team- und Enterprise-Nutzer zu erweitern und beabsichtigt, Operators Fähigkeiten direkt in ChatGPT zu integrieren, sobald Sicherheit und Benutzerfreundlichkeit im großen Maßstab bestätigt sind.
Quellen: OpenAI, VentureBeat, Every, TechCrunch, Technology Review, The Verge