Open Source Framework für Datenextraktion und -Strukturierung

Revolutionieren Sie die Datenextraktion mit Parsee.ai: Nutzen Sie LLMs und benutzerdefinierte KI-Modelle, um PDFs, HTMLs und Bilder in vollständig strukturierte Daten zu verwandeln.

Open Source framework for data structuring
Extraktionsvorlagen erstellen und Aufträge lokal ausführen
Vollständig gehostete Version und visuelle Benutzeroberfläche, keine Programmierkenntnisse erforderlich

Wesentliche Merkmale

Parsee stellt ein einfaches Framework für die Strukturierung von Daten aus den gängigsten unstrukturierten Datenquellen bereit.

Sie können sofort mit der Strukturierung von Daten beginnen, indem Sie LLMs verwenden, die als "universelle" Modelle dienen können. Sobald Sie einige Daten extrahiert haben, können Sie Datensätze erstellen und benutzerdefinierte, aufgabenspezifische Modelle trainieren, die LLMs in Bezug auf Genauigkeit und Kosteneffizienz übertreffen können.

Custom Extraction Templates
Extraktionsvorlagen
Definieren Sie typsichere Extraktionsvorlagen, die garantieren, dass Ihre Daten genau in das von Ihnen gewünschte Format geparst werden.
Model Agnostic
Modell-Agnostisch
Verwenden Sie je nach Aufgabe jedes LLM (ChatGPT, Open-Source-Modelle usw.) oder auch Nicht-LLM-Modelle nebeneinander
create-answers
Datasets erstellen
Erstellen von Datensätzen zum Trainieren oder Bewerten von Modellen, entweder LLMs oder benutzerdefinierte Modelle, die auf Ihre Aufgabe zugeschnitten sind
Compare AI Models
Modelle vergleichen
Vergleichen Sie die Leistung einer Reihe von LLMs und benutzerdefinierten Modellen auf Ihren Datensätzen

Parsee Cloud

Einfaches Erstellen und Freigeben von Extraktionsvorlagen in der Parsee Cloud, Ausführen von Extraktionsaufträgen und Teilen der Ergebnisse mit Ihren Teammitgliedern. Ohne technische Vorkenntnisse nutzbar. Nutzungsbasierte, 100% transparente Abrechnung, kostenloser Start.
Total of documents uploaded to Parsee cloud and extraction jobs executed.

Beispiel für Extraktionsvorlagen

Erstellen Sie mühelos typsichere Extraktionsvorlagen und speichern Sie diese in der Parsee Cloud. Alternativ können Sie die Vorlagen auch im visuellen Editor der Parsee Cloud erstellen und lokal laden.


# Define questions in free text form
question = "What is the invoice total?"

# Define output types
output_type = OutputType.NUMERIC

# Define meta items: information that is associated with the main question we are asking, such as time periods, currencies, units etc.
meta_currency = "What is the currency?"
meta_currency_output_type = OutputType.LIST
meta_item = MetaItem(meta_currency_question, meta_currency_output_type, list_values=["USD", "EUR", "Other"])

invoice_total = StructuringItem(question_to_be_answered, output_type, meta_info=[meta_item])

job_template = create_template([invoice_total])

# Optional: save template to Parsee Cloud
cloud = ParseeCloud("YOUR_KEY")
template_id = cloud.save_template(job_template)

# Or load any template from Parsee Cloud (templates are shareable in your organisation)
template = cloud.get_template(template_id)

Finden Sie die in diesem Beispiel definierte Vorlage auf Parsee Cloud

Dokumente laden und Aufträge lokal oder in der Parsee Cloud ausführen

Extrahieren Sie strukturierte Daten einfach mit dem Parsee Document Loader und einer großen Auswahl an vordefinierten Modellen:


 # Use default loader to determine the document type automatically:
document = load_document("../tests/fixtures/Midjourney_Invoice-DBD682ED-0005.pdf")

# you can also build a custom document converter of course if needed for your use-case

# define a model, here you can use all open source models from Replicate for example: https://replicate.com/
replicate_api_key = os.getenv("REPLICATE_KEY")
replicate_model = replicate_config(replicate_api_key, "mistralai/mixtral-8x7b-instruct-v0.1")

# run the extraction using an extraction template (see steps above)
_, _, answers = run_job_with_single_model(document, job_template, replicate_model)

answers[0].class_value
>> 11.9
answers[0].meta[0].class_value
>> 'USD'

Vollständige Tutorials finden Sie auf Github