Mistral AI hat Mistral OCR eingeführt, eine neue API für optische Zeichenerkennung, die komplexe PDF-Dokumente in KI-gerechte Markdown-Dateien umwandelt. Wie Romain Dillet von TechCrunch berichtet, hat der französische Entwickler von Large Language Models dieses Tool am Donnerstag als Lösung für Unternehmen vorgestellt, die ihre Dokumentenbestände für KI-Systeme zugänglich machen wollen.
Im Gegensatz zu herkömmlichen OCR-Tools ist Mistral OCR multimodal und kann sowohl Text als auch visuelle Elemente in Dokumenten erkennen und beibehalten. Die API erstellt Begrenzungsrahmen um Bilder und Illustrationen und integriert sie in das Endergebnis, anstatt nur Text zu extrahieren. Der resultierende Markdown-formatierte Inhalt ist für Large Language Models (LLMs) optimiert, die stark auf diese Formatierungssyntax für Training und Ausgabegenerierung angewiesen sind.
„Im Laufe der Jahre haben Organisationen zahlreiche Dokumente angesammelt, oft in PDF- oder Präsentationsformaten, die für LLMs, insbesondere RAG-Systeme, unzugänglich sind. Mit Mistral OCR können unsere Kunden jetzt komplexe Dokumente in lesbaren Inhalt in allen Sprachen umwandeln“, erklärte Guillaume Lample, Mitbegründer und wissenschaftlicher Leiter von Mistral.
Das Unternehmen behauptet, dass seine OCR-Lösung ähnliche Angebote von Technologieriesen wie Google, Microsoft und OpenAI übertrifft, besonders bei der Verarbeitung von Dokumenten mit komplexen Elementen wie mathematischen Ausdrücken, anspruchsvollen Layouts, Tabellen und nicht-englischen Inhalten. Mistral betont auch eine überlegene Geschwindigkeit, die auf den spezialisierten Fokus des Tools im Vergleich zu allgemeineren multimodalen Modellen wie GPT-4o zurückzuführen ist.
Mistral OCR ist über mehrere Kanäle verfügbar, darunter die eigene API-Plattform des Unternehmens und Cloud-Partner wie AWS, Azure und Google Cloud Vertex. Für Organisationen, die sensible oder klassifizierte Informationen verarbeiten, bietet Mistral Optionen für den Einsatz vor Ort.
Die API lässt sich nahtlos in Retrieval-Augmented Generation (RAG)-Systeme integrieren, wodurch Unternehmen multimodale Dokumente als Eingabe für Large Language Models verwenden können. Diese Fähigkeit eröffnet zahlreiche potenzielle Anwendungen in verschiedenen Branchen, mit besonderer Relevanz für Sektoren, die mit großen Mengen komplexer Dokumentation arbeiten, wie etwa Rechtsdienstleistungen.
Mistral nutzt die OCR-Technologie bereits in seinem KI-Assistenten Le Chat, wo hochgeladene PDF-Dateien verarbeitet werden, um Dokumentinhalte zu extrahieren und zu verstehen, bevor eine weitere KI-Verarbeitung erfolgt.