Transformer sind eine bahnbrechende Architektur für künstliche neuronale Netze, die 2017 von Google entwickelt wurde und heute die Grundlage für moderne KI-Sprachmodelle wie ChatGPT, Claude oder Googles Gemini bildet.
Der Name „Transformer“ bezieht sich auf die Fähigkeit dieser Systeme, Eingabedaten (zum Beispiel Texte) in eine andere Form zu transformieren.
Das Besondere an Transformern ist ihre Fähigkeit, Zusammenhänge in Texten zu erfassen, auch wenn die relevanten Informationen weit voneinander entfernt stehen. Dies gelingt durch einen Mechanismus namens „Attention“ (Aufmerksamkeit), bei dem das System alle Wörter eines Textes gleichzeitig betrachtet und ihre Beziehungen zueinander analysiert – ähnlich wie ein Mensch beim Lesen eines Satzes die Bedeutung aller Wörter im Kontext erfasst. Im Gegensatz zu älteren KI-Modellen, die Texte Wort für Wort sequenziell verarbeiten mussten, können Transformer parallel arbeiten, was sie deutlich effizienter macht.
Diese Architektur ermöglicht es modernen KI-Systemen, Texte zu verstehen, zu übersetzen, zusammenzufassen oder selbst zu generieren.