Zurück zum Blog
Data Extraction

Vergleich zwischen Parsee Dokumenten Loader und Langchain Dokumenten Loader für PDFs

March 18, 2024 - 5 min
Vergleich zwischen Parsee Document Loader  und Langchain Document Loader für PDFs
Im Folgenden werden wir die Ergebnisse des Parsee Document Loader mit denen des PyPDF Langchain Document Loader für verschiedene Datensätze vergleichen. Alle hier verwendeten Datensätze sind auf Huggingface zu finden (Links unten), so dass die Ergebnisse alle reproduzierbar sind.

Mit den Datensätzen in diesem Ordner wollen wir testen, wie sich die Ergebnisse eines LLM für die Extraktion strukturierter Daten aus Rechnungen für verschiedene Dokumentenlader unterscheiden.

Beide Datensätze haben ihre eigenen Readme-Dateien mit weiteren Informationen über die Methodik, Notebooks für die Erstellung des Datensatzes und Evaluierungsergebnisse:


1. Rechnungsdatensatz - Langchain Loader

parsee-core Version verwendet: 0.1.3.11

Dieser Datensatz wurde auf der Grundlage von 15 Beispielrechnungen (PDF-Dateien) erstellt.

Alle PDF-Dateien sind auf parsee.ai öffentlich zugänglich. Um auf sie zuzugreifen, kopieren Sie den "source_identifier" (erste Spalte) und fügen Sie ihn in diese URL ein (ersetzen Sie "{SOURCE_IDENTIFIER}" durch den tatsächlichen Identifikator):

https://app.parsee.ai/documents/view/{SOURCE_IDENTIFIER}

Zum Beispiel:

https://app.parsee.ai/documents/view/1fd7fdbd88d78aa6e80737b8757290b78570679fbb926995db362f38a0d161ea

Die Rechnungen wurden nach dem Zufallsprinzip ausgewählt und sind entweder in deutscher oder englischer Sprache verfasst.

Der folgende Code wurde zur Erstellung des Datensatzes verwendet: jupyter notebook

Die richtigen Antworten für jede Zeile wurden aus der Parsee Cloud geladen, wo sie von einem Menschen überprüft und korrigiert wurden, bevor dieser Code ausgeführt wurde.

1.1 LLM-Bewertung

Für die Bewertung verwenden wir das Modell mistralai/mixtral-8x7b-instruct-v0.1 von replicate.

Die Ergebnisse der Evaluierung sind hier zu finden: jupyter notebook

1.2 Ergebnis

Obwohl der Parsee PDF Reader ursprünglich nicht für Rechnungen entwickelt wurde (die oft sehr bruchstückhafte Textstücke und Tabellen enthalten, die schwer zu strukturieren sind), ist er dennoch in der Lage, den langchain PyPDF Reader mit einer Gesamtgenauigkeit von 88% gegenüber 82% für den langchain Reader zu übertreffen.

Parsee PDF Reader im Vergleich zu Langchain PyPDF

2. Umsatzdatensätze - Tabellenanalyse

Dieser Datensatz besteht aus 15 Seiten aus Jahres- und Quartalsberichten deutscher Unternehmen (PDF-Dateien), die jedoch in englischer Sprache abgefasst sind.

Das Ziel ist es, zwei Dinge zu bewerten:

  1. Wie gut kann ein modernes LLM komplexe strukturierte Informationen aus den Dokumenten abrufen?

  2. Wie schneidet der Parsee.ai-Dokumenten-Loader gegenüber dem Langchain PyPDF-Loader für diesen Dokumententyp ab?

Wir verwenden hier das Modell Claude 3 Opus für alle Läufe, da dieses Modell in unseren früheren Experimenten am leistungsfähigsten war (es schlug GPT 4).

Für beide Datensätze gibt es eigene Readme-Dateien mit weiteren Informationen über die Methodik, Notebooks für die Erstellung des Datensatzes und Bewertungsergebnisse:

2.1 Ergebnisse

Vergleich der Extraktionsergebnisse der Einnahmetabellen
Erläuterung der Ergebnisse:

  • Completeness: Hier wird gemessen, wie oft das Modell die erwartete Anzahl von Antworten gegeben hat. Zum Beispiel gibt es in dieser Datei 5 Spalten mit einer "Umsatz"-Zahl in ihnen. Wir erwarten also, dass das Modell 5 verschiedene "Antworten" liefert, jede mit einer der Umsatzzahlen (Sie können diese auf der Registerkarte "Extrahierte Daten" in der Parsee Cloud sehen).

  • Revenues Correct: Wie oft das Modell eine gültige "Revenues"-Zahl extrahiert hat. Wenn die Antwort vollständig fehlte, wird dies hier ebenfalls gezählt (dies berücksichtigt also sowohl falsche als auch fehlende Antworten).

  • Revenues Correct (excluding missing answers): Fälle, in denen das Modell einfach nicht die richtige Zahl extrahiert hat, werden hier nicht berücksichtigt. Wenn es also die Zahl extrahiert hat (basierend auf den Metainformationen), war es dann die richtige Zahl?

  • Meta Items Correct: Wie oft hat das Modell alle erwarteten Metainformationen extrahiert? (Zeiträume, Währungen usw.; fehlende Antworten werden hier ebenfalls gezählt)

  • Meta Items Correct (excluding missing answers): Wenn das Modell eine gültige Verkaufsnummer gefunden hat, wie oft waren alle zugehörigen Metainformationen korrekt? (fehlende Antworten werden hier nicht gezählt)

Diesen Artikel teilen
Open Source Framework Data Extraction and Structuring

Parsee Cloud kostenlos testen

Entdecken Sie die Gratis-Funktionen der Parsee Cloud für die Dokumentenverarbeitung.
Verwandte Beiträge
  • Parsee
    Parsee Launch
    Parsee aims to be a simple, opinionated framework for easily structuring data from the most common sources of unstructured data. These are in our opinion: pdfs, HTML files and images.
  • Data Extraction
    Extraction Templates vs. Prompt Templates
    Exploring the advantages of Parsee extraction templates over simple prompt templates.