Das KI-Unternehmen Thinking Machines, mitgegründet von der früheren OpenAI-Technikchefin Mira Murati, hat eine Forschungsvorschau sogenannter „Interaction Models“ veröffentlicht. Diese KI-Systeme sollen in Echtzeit wahrnehmen und antworten, anstatt auf das Ende einer Eingabe zu warten.
Bisherige KI-Modelle arbeiten im Wechsel: Der Nutzer schickt eine Eingabe, das Modell verarbeitet sie und antwortet. Thinking Machines sieht darin eine Einschränkung, weil echte Zusammenarbeit oft laufendes Feedback erfordert. Der neue Ansatz verarbeitet Audio, Video und Text in Blöcken von 200 Millisekunden gleichzeitig. So kann das Modell gleichzeitig zuhören und antworten.
Das vorgestellte System heißt TML-Interaction-Small. Es hat 276 Milliarden Parameter, von denen jeweils 12 Milliarden aktiv sind. Es besteht aus zwei Teilen:
- Ein Interaktionsmodell, das durchgehend mit dem Nutzer in Kontakt bleibt
- Ein Hintergrundmodell, das aufwändige Aufgaben im Hintergrund erledigt und die Ergebnisse ins Gespräch einfließen lässt
Im Benchmark FD-bench, der Interaktionsqualität misst, erreichte TML-Interaction-Small einen Wert von 77,8. GPT-realtime-2.0 kam auf 46,8, Gemini-3.1-flash-live auf 54,3. Die Reaktionszeit beim Sprecherwechsel lag bei 0,40 Sekunden und damit unter der beider Vergleichssysteme.
Das Modell zeigte laut Thinking Machines außerdem visuelle Reaktionsfähigkeit: Es sprach auf Ereignisse im Bild an, ohne dazu aufgefordert zu werden. Diese Fähigkeit fehlt aktuellen Echtzeitsystemen nach Unternehmensangaben.
Die Vorschau ist noch nicht öffentlich verfügbar. Thinking Machines plant zunächst eine begrenzte Forschungsveröffentlichung.
Quellen: Thinking Machines Blog, VentureBeat
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
