Multimodal

Multimodal (aus dem Lateinischen: multi = viel, mehrere und modus = Art und Weise) bezeichnet im Kontext der Künstlichen Intelligenz die Fähigkeit eines KI-Systems, verschiedene Arten von Eingaben oder „Modalitäten“ gleichzeitig zu verarbeiten und zu verstehen.

Während frühere KI-Systeme sich meist auf eine einzige Form der Kommunikation beschränkten – etwa Text oder Bilder -, können multimodale Systeme mehrere Ausdrucksformen parallel verarbeiten. Ein multimodales KI-System kann beispielsweise gleichzeitig Text, Bilder, Videos, Sprache und sogar Gesten verstehen und miteinander in Beziehung setzen.

Ein praktisches Beispiel ist GPT-4V (früher GPT-4 Vision), das sowohl Texteingaben als auch Bilder „verstehen“ und darüber kommunizieren kann.

Diese Fähigkeit macht multimodale KI-Systeme besonders alltagstauglich, da sie der menschlichen Art der Wahrnehmung und Kommunikation ähnlicher sind – auch Menschen nehmen ihre Umwelt über verschiedene Sinneskanäle wahr und verknüpfen diese Informationen zu einem Gesamtbild. Die multimodale Technologie gilt als wichtiger Entwicklungsschritt in Richtung fortgeschrittener und natürlicherer Mensch-Maschine-Interaktion.

Mehr zum Thema:

Bleib up-to-date: