Multimodal

Multimodal (aus dem Lateinischen: multi = viel, mehrere und modus = Art und Weise) bezeichnet im Kontext der Künstlichen Intelligenz die Fähigkeit eines KI-Systems, verschiedene Arten von Eingaben oder „Modalitäten“ gleichzeitig zu verarbeiten und zu verstehen.

Während frühere KI-Systeme sich meist auf eine einzige Form der Kommunikation beschränkten – etwa Text oder Bilder -, können multimodale Systeme mehrere Ausdrucksformen parallel verarbeiten. Ein multimodales KI-System kann beispielsweise gleichzeitig Text, Bilder, Videos, Sprache und sogar Gesten verstehen und miteinander in Beziehung setzen.

Ein praktisches Beispiel ist GPT-4V (früher GPT-4 Vision), das sowohl Texteingaben als auch Bilder „verstehen“ und darüber kommunizieren kann.

Diese Fähigkeit macht multimodale KI-Systeme besonders alltagstauglich, da sie der menschlichen Art der Wahrnehmung und Kommunikation ähnlicher sind – auch Menschen nehmen ihre Umwelt über verschiedene Sinneskanäle wahr und verknüpfen diese Informationen zu einem Gesamtbild. Die multimodale Technologie gilt als wichtiger Entwicklungsschritt in Richtung fortgeschrittener und natürlicherer Mensch-Maschine-Interaktion.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen