Vergleich zwischen Parsee Dokumenten Loader und Langchain Dokumenten Loader für PDFs
Mit den Datensätzen in diesem Ordner wollen wir testen, wie sich die Ergebnisse eines LLM für die Extraktion strukturierter Daten aus Rechnungen für verschiedene Dokumentenlader unterscheiden.
Beide Datensätze haben ihre eigenen Readme-Dateien mit weiteren Informationen über die Methodik, Notebooks für die Erstellung des Datensatzes und Evaluierungsergebnisse:
1. Rechnungsdatensatz - Langchain Loader
parsee-core Version verwendet: 0.1.3.11
Dieser Datensatz wurde auf der Grundlage von 15 Beispielrechnungen (PDF-Dateien) erstellt.
Alle PDF-Dateien sind auf parsee.ai öffentlich zugänglich. Um auf sie zuzugreifen, kopieren Sie den "source_identifier" (erste Spalte) und fügen Sie ihn in diese URL ein (ersetzen Sie "{SOURCE_IDENTIFIER}" durch den tatsächlichen Identifikator):
https://app.parsee.ai/documents/view/{SOURCE_IDENTIFIER}
Zum Beispiel:
https://app.parsee.ai/documents/view/1fd7fdbd88d78aa6e80737b8757290b78570679fbb926995db362f38a0d161ea
Die Rechnungen wurden nach dem Zufallsprinzip ausgewählt und sind entweder in deutscher oder englischer Sprache verfasst.
Der folgende Code wurde zur Erstellung des Datensatzes verwendet: jupyter notebook
Die richtigen Antworten für jede Zeile wurden aus der Parsee Cloud geladen, wo sie von einem Menschen überprüft und korrigiert wurden, bevor dieser Code ausgeführt wurde.
1.1 LLM-Bewertung
Für die Bewertung verwenden wir das Modell mistralai/mixtral-8x7b-instruct-v0.1 von replicate.
Die Ergebnisse der Evaluierung sind hier zu finden: jupyter notebook
1.2 Ergebnis
Obwohl der Parsee PDF Reader ursprünglich nicht für Rechnungen entwickelt wurde (die oft sehr bruchstückhafte Textstücke und Tabellen enthalten, die schwer zu strukturieren sind), ist er dennoch in der Lage, den langchain PyPDF Reader mit einer Gesamtgenauigkeit von 88% gegenüber 82% für den langchain Reader zu übertreffen.
2. Umsatzdatensätze - Tabellenanalyse
Dieser Datensatz besteht aus 15 Seiten aus Jahres- und Quartalsberichten deutscher Unternehmen (PDF-Dateien), die jedoch in englischer Sprache abgefasst sind.
Das Ziel ist es, zwei Dinge zu bewerten:
Wie gut kann ein modernes LLM komplexe strukturierte Informationen aus den Dokumenten abrufen?
Wie schneidet der Parsee.ai-Dokumenten-Loader gegenüber dem Langchain PyPDF-Loader für diesen Dokumententyp ab?
Wir verwenden hier das Modell Claude 3 Opus für alle Läufe, da dieses Modell in unseren früheren Experimenten am leistungsfähigsten war (es schlug GPT 4).
Für beide Datensätze gibt es eigene Readme-Dateien mit weiteren Informationen über die Methodik, Notebooks für die Erstellung des Datensatzes und Bewertungsergebnisse:
2.1 Ergebnisse
Erläuterung der Ergebnisse:
Completeness: Hier wird gemessen, wie oft das Modell die erwartete Anzahl von Antworten gegeben hat. Zum Beispiel gibt es in dieser Datei 5 Spalten mit einer "Umsatz"-Zahl in ihnen. Wir erwarten also, dass das Modell 5 verschiedene "Antworten" liefert, jede mit einer der Umsatzzahlen (Sie können diese auf der Registerkarte "Extrahierte Daten" in der Parsee Cloud sehen).
Revenues Correct: Wie oft das Modell eine gültige "Revenues"-Zahl extrahiert hat. Wenn die Antwort vollständig fehlte, wird dies hier ebenfalls gezählt (dies berücksichtigt also sowohl falsche als auch fehlende Antworten).
Revenues Correct (excluding missing answers): Fälle, in denen das Modell einfach nicht die richtige Zahl extrahiert hat, werden hier nicht berücksichtigt. Wenn es also die Zahl extrahiert hat (basierend auf den Metainformationen), war es dann die richtige Zahl?
Meta Items Correct: Wie oft hat das Modell alle erwarteten Metainformationen extrahiert? (Zeiträume, Währungen usw.; fehlende Antworten werden hier ebenfalls gezählt)
Meta Items Correct (excluding missing answers): Wenn das Modell eine gültige Verkaufsnummer gefunden hat, wie oft waren alle zugehörigen Metainformationen korrekt? (fehlende Antworten werden hier nicht gezählt)
Parsee Cloud kostenlos testen
- ParseeParsee LaunchParsee aims to be a simple, opinionated framework for easily structuring data from the most common sources of unstructured data. These are in our opinion: pdfs, HTML files and images.
- Data ExtractionExtraction Templates vs. Prompt TemplatesExploring the advantages of Parsee extraction templates over simple prompt templates.