Mistral OCR 4: Neues Modell erkennt nicht nur Text, sondern auch seine Rolle im Dokument

Das KI-Unternehmen Mistral AI schreibt auf seiner Website über die Veröffentlichung von Mistral OCR 4. Das Modell extrahiert Inhalte aus Dokumenten und liefert dabei mehr als reinen Text. Es gibt auch zurück, wo sich jedes Element auf der Seite befindet, welche Rolle es spielt und wie zuverlässig die Erkennung ist.

Was OCR 4 anders macht

Klassische OCR-Tools wandeln Seiten in Text um. OCR 4 geht weiter. Das Modell klassifiziert jeden erkannten Block nach Typ, etwa Titel, Tabelle, Gleichung oder Unterschrift. Zusätzlich liefert es sogenannte Bounding Boxes, also Koordinaten, die genau zeigen, wo ein Textelement auf der Seite sitzt. Für automatisierte Workflows und Suchsysteme macht das die Ergebnisse deutlich nutzbarer.

Das Modell unterstützt 170 Sprachen in 10 Sprachgruppen. Mistral hebt besonders die Leistung bei seltenen Sprachen hervor, bei denen viele konkurrierende Systeme deutlich schlechter abschneiden. Unterstützte Formate sind unter anderem PDF, DOC, PPT und OpenDocument.

Im öffentlichen Benchmark OlmOCRBench erreichte OCR 4 einen Spitzenwert von 85,20. In einer menschlichen Bewertung bevorzugten unabhängige Testerinnen und Tester die Ausgabe von OCR 4 in durchschnittlich 72 Prozent der Fälle gegenüber Konkurrenzprodukten. Mistral weist darauf hin, dass automatisierte Benchmark-Ergebnisse bekannte Schwächen haben und nur als Orientierung gelten sollten.

Preise und Verfügbarkeit

  • OCR API: 4 US-Dollar pro 1.000 Seiten, oder 2 US-Dollar über die Batch-API
  • Document AI (ergänzt strukturiertes JSON und individuelle Anweisungen): 5 US-Dollar pro 1.000 Seiten
  • Self-Hosting für Unternehmen mit strengen Datenschutzanforderungen verfügbar

Das Modell ist über Mistral Studio, Amazon SageMaker und Microsoft Foundry abrufbar. Die Unterstützung durch Snowflake wurde angekündigt. OCR 4 ist außerdem Teil von Mistrals Open-Source-Framework Search Toolkit, das für Enterprise-Suche und sogenannte Retrieval-Augmented-Generation-Pipelines (RAG) gedacht ist. Mistral sieht Einsatzmöglichkeiten besonders in der Rechts- und Finanzbranche sowie im Gesundheitswesen.

Bleib auf dem Laufenden

KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:

 

Weitere Infos …

Über den Autor

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (3. Ausgabe, Januar 2026)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklich gewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen

×