Strukturierte, mehrsprachige Datenerfassung
„Le Chat“-App von Mistral mit neuer KI-Dokumentenerkennung
Das französische KI-Unternehmen Mistral hat eine neue KI-Dokumentenerkennung vorgestellt, die eine erweiterte Dokumentenerfassung ermöglichen soll. Laut Mistral kann das Modell nicht nur reinen Text aus Bildern und PDFs extrahieren, sondern auch komplexe Elemente wie Tabellen, mathematische Formeln und eingebettete Bilder in einer strukturierten Form erfassen.
Mistral OCR sei nativ mehrsprachig und unterstütze eine Vielzahl von Schriftarten und Sprachsystemen, wodurch eine globale Nutzung problemlos möglich sein soll. Das Modell sei außerdem speziell auf die Verarbeitung multimodaler Dokumente ausgelegt, beispielsweise von wissenschaftlichen Arbeiten, Präsentationen oder technischen Dokumentationen.
Anwendungsbereiche und Verfügbarkeit
Das Unternehmen nennt verschiedene Anwendungsmöglichkeiten für die Technologie. Forschungseinrichtungen könnten das Modell beispielsweise zur Digitalisierung wissenschaftlicher Arbeiten nutzen, um den Zugriff auf Fachwissen zu erleichtern. Auch Institutionen, die historische Dokumente archivieren, könnten von einer verbesserten Erfassung profitieren. Weitere mögliche Einsatzgebiete sieht Mistral in der Automatisierung von Kundenservice-Prozessen, indem Betriebsanleitungen und Dokumentationen in durchsuchbare Wissensdatenbanken umgewandelt werden.
Das neue Modell, das deutlich bessere Ergebnisse als konkurrierende KI-Anbieter liefern soll, ist bereits für Nutzer der Mistral-Applikation „Le Chat“ verfügbar und kann über die Entwicklerplattform des Unternehmens genutzt werden.
Über „Le Chat“ direkt ausprobieren
Laut Mistral sei das Modell in der Lage, bis zu 2.000 Seiten pro Minute zu verarbeiten, was es besonders für den Einsatz in datenintensiven Umgebungen interessant machen könnte. Der neue Dienst wird zu einem Preis von 1.000 Seiten pro US-Dollar angeboten, Privatanwender können die neuen Kapazitäten kostenlos ausprobieren.
Die Dokumentenerkennung erfolge durch eine Kombination aus Bilderkennung und strukturierter Textverarbeitung. Durch den sogenannten „Doc-as-Prompt“-Ansatz sollen Nutzer gezielt Informationen aus Dokumenten extrahieren und diese in strukturierten Formaten wie JSON weiterverarbeiten können.
Bin mit der App sehr zufrieden. Ist mehr oder weniger egal ob ich ChatGPT oder Lechat benutze, nur die Beschränkung an Zeichen pro Nachricht ist bei Lechat eben unbegrenzt. Macht es teilweise interessanter.
Geht mir auch so.
Plus Perplexity
Vorratsdatenspeicherung einschalten, Mistral nutzen, perfekt.
Da kommen ganz tolle Sachen für unsere Politiker und Behörden zusammen , jetzt noch der Sonderfond und die Finanzierung ist gesichert.
Wie meinst Du das? Ich verstehe die Zusammenhänge nicht ganz.
Zusammenhänge sind nicht so deins…oder?
Falls Du mich meinst: deshalb frage ich ja. So offensichtlich ist mir das nicht
Ich verstehe den Zusammenhang auch nicht. Inwiefern ist Mistral „datenschutzunsicherer“ als ChatGPT?
Hallo Garth,
Ich gehe mal davon aus, dass hier jemand Buzzwordbingo gespielt hat. Ich für meinen Teil mache einen Haken dran und schenke wichtigerem meine Aufmerksmkeit.
Nein
Don’t feed the troll.
Wer unterliegt dem DMA? Mistral oder OpenAI?
Ich für meinen Teil habbda ne Meinung
Gerne mehr EU-Alternativen (btw. fckafd). Le Chat hat bei mir ChatGPT ersetzt und es klappt sehr gut.
+1
Das könnte im Bereich Barrierefreiheit sehr interessant sein. Zum Beispiel die Umsetzung in verständliche Sprache und bessere Strukturierung von Inhalten bis zu Umwandlung von Tabellen und Bildelemente in lesbaren Text auch für Braille-Nutzer:innen.
Jegliche Erfahrung und Tests in diese Richtung würde mich sehr interessieren!
Ich habe Mistral eben das erste Mal mit einer komplexen Berechnung, die mechanisches, physikalisches und elektrotechnisches Verständnis erfordert, getestet und kann sagen, dass man Mistral dafür nicht gebrauchen kann.
Ich habe für diesen Test eine Standard Aufgabe aus meinem beruflichen Alltag um die KI Modelle zu testen und sowohl Grok V3, die OpenAI Modelle o1, o3-mini und GPT-4o, Microsoft Copilot, DeepSeek R1 und Claude 3.7 Sonnet Reasoning, Perplexity Sonar Reasoning Pro und Google Gemini 2.0 Flash (mit und ohne Thinking) lösen die Aufgabe korrekt und geben je nach Model mehr oder weniger umfangreiche Erklärungen zu ihren Rechenschritten und den physikalischen Grundlagen mit dazu.
Ich habe natürlich nicht alle Modelle am Markt getestet. Hier aber nochmal eine Auflistung der Modelle, die an der Aufgabe gescheitert sind: Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini 2.0 Pro, OpenAI GPT-4o-mini, o1-mini, Mistral Le Chat Free und Perplexity Sonar Reasoning (ohne Pro).
Sehr interessant!
Laaaaaaangsam und genauso falsche Antworten, wie die Mitbewerber…..