OpenAI hat einen umfassenden Leitfaden für die Prompt-Erstellung bei der neuen GPT-4.1-Modellfamilie veröffentlicht. Der Leitfaden hebt bedeutende Verbesserungen in den Bereichen Programmierung, Befolgung von Anweisungen und Verarbeitung langer Kontexte im Vergleich zu GPT-4o hervor. Laut der Veröffentlichung müssen Entwickler ihre Prompts möglicherweise anpassen, da GPT-4.1 Anweisungen wörtlicher befolgt als frühere Versionen, die Benutzerabsichten freier interpretierten.
Der Leitfaden betont, dass GPT-4.1 sehr gut steuerbar und reaktionsfreudig bei präzise formulierten Prompts ist. Dies macht das Modell besonders geeignet für agentenbasierte Arbeitsabläufe. Bei der Implementierung von Agentenfähigkeiten empfiehlt OpenAI, drei Schlüsselkomponenten in Systemprompts aufzunehmen: Erinnerungen zur Ausdauer, um sicherzustellen, dass das Modell Aufgaben mit mehreren Nachrichten abschließt, Anweisungen zum Werkzeugaufruf, um Halluzinationen zu verhindern, und optionale Planungshinweise für explizite Denkprozesse.
Für die Werkzeugnutzung rät das Unternehmen Entwicklern, das offizielle Tools-Feld in API-Anfragen zu verwenden, anstatt Werkzeugbeschreibungen manuell in Prompts einzufügen. Tests zeigten, dass dieser Ansatz die Leistung bei Benchmark-Aufgaben um 2% verbesserte. Klare Benennung und detaillierte Beschreibungen für Werkzeuge und Parameter werden ebenfalls empfohlen, um eine angemessene Nutzung zu gewährleisten.
Die Fähigkeiten von GPT-4.1 für lange Kontexte erstrecken sich auf 1 Million Token. Dies macht es effektiv für Dokumentenanalyse, Neurangierung und mehrstufige Argumentationsaufgaben. OpenAI merkt jedoch an, dass die Leistung nachlassen kann, wenn komplexe Überlegungen über den gesamten Kontext erforderlich sind. Für optimale Ergebnisse bei langen Kontexten sollten Anweisungen sowohl am Anfang als auch am Ende der bereitgestellten Materialien platziert werden.
Obwohl GPT-4.1 nicht als Reasoning-Modell klassifiziert ist, kann das Auffordern zu „Schritt-für-Schritt-Denken“ (Chain of Thought) die Ausgabequalität verbessern, indem Probleme in überschaubare Teile zerlegt werden. Der Nachteil sind höhere Kosten und Latenzzeiten aufgrund des erhöhten Token-Verbrauchs. Der Leitfaden bietet spezifische Prompt-Vorlagen für die Implementierung von Chain-of-Thought-Reasoning, einschließlich Strategien zur Analyse von Anfragen und relevanten Kontexten.
Der Leitfaden behandelt die Befolgung von Anweisungen und betont die außergewöhnliche Leistung von GPT-4.1 in diesem Bereich. Entwickler können Ausgaben präzise steuern, indem sie explizite Vorgaben zum gewünschten Verhalten machen. Wenn bestehende Prompts nicht wie erwartet funktionieren, empfiehlt OpenAI, widersprüchliche Anweisungen zu überprüfen, Beispiele für gewünschtes Verhalten hinzuzufügen und sicherzustellen, dass Anweisungen klar und spezifisch sind.
Für strukturierte Prompts schlägt OpenAI vor, mit Abschnitten für Rolle und Ziel, Anweisungen (mit Unterkategorien nach Bedarf), Denkschritte, Ausgabeformat, Beispiele, Kontext und abschließende Anweisungen zu beginnen. Das Unternehmen gibt auch Hinweise zur Auswahl effektiver Trennzeichen und empfiehlt Markdown als Ausgangspunkt, mit XML und JSON als Alternativen je nach Anwendungsfall.
Der Leitfaden schließt mit einem Anhang zur Generierung und Anwendung von Dateidiffs ab und hebt die deutlich verbesserten Fähigkeiten von GPT-4.1 in diesem Bereich im Vergleich zu früheren Modellen hervor. Es werden mehrere empfohlene Diff-Formate vorgestellt, wobei der Schwerpunkt auf Ansätzen liegt, die Zeilennummern vermeiden und ersetzten und Ersetzungscode klar abgrenzen.