Datensätze
Die folgenden Datensätze wurden vom parsee.ai-Team zusammengestellt und sind auf Anfrage erhältlich. Sie sind speziell für das LLM-Training (insbesondere Instruct Models und RAG) konzipiert und so aufbereitet, dass keine weitere Vorverarbeitung notwendig ist. Alle Einträge in unseren Datensätzen können einfach in einer visuellen Benutzeroberfläche auf der Parsee Cloud überprüft werden. Für eine Demo oder weitere Informationen, schreiben Sie bitte eine E-Mail an sales@parsee.ai.
Finanz-/Rechnungswesen-Datensätze
Unsere Finanzdaten-Datensätze wurden mit den Daten zusammengestellt, die wir bei SimFin (Muttergesellschaft von parsee.ai) in den letzten 8 Jahren gesammelt haben. Die Basis sind über 300k Quartals- und Jahresfinanzberichte, die frei zugänglich sind (und somit keinen urheberrechtlichen Beschränkungen unterliegen). Wir haben die Daten mit unseren benutzerdefinierten Modellen extrahiert, die in einem mehrjährigen, iterativen Prozess der Beschriftung und Korrektur von Daten erstellt wurden. Jetzt haben wir unsere Daten mit Parsee transformiert und stellen die Ergebnisse Unternehmen zur Verfügung, die an einem sehr großen, qualitativ hochwertigen Datensatz für RAG-Anwendungen interessiert sind, insbesondere für Fälle, in denen LLMs ein Quelldokument wie ein PDF verstehen und daraus strukturierte Daten extrahieren müssen.
Wir haben 4 verschiedene Finanzdatensätze zur Verfügung (die verschiedene Aufgaben abdecken), die alle direkt für das Training von benutzerdefinierten LLM-Modellen mit der vollständigen Aufforderung und der erwarteten (richtigen) Antwort, die ein LLM geben kann, verwendet werden können.
Die Datensätze können mit den vollständigen Eingabeaufforderungen (die im Grunde alle Daten des Quelldokuments enthalten) oder mit Eingabeaufforderungen geliefert werden, die auf z. B. 4k Token (oder eine beliebige andere Zahl) begrenzt sind.
Um die Prompts zu kappen, können wir entweder eine Vektorsuche nach den relevantesten Elementen durchführen oder eine zufällige Anzahl von Fragmenten "vor" und "nach" der eigentlichen Quelle einfügen, die für die Beantwortung der Frage erforderlich ist. Wenn die Prompts über die Vektorsuche gekappt werden, filtern wir Zeilen heraus, in denen die richtige "Quelle" (Textpassage im Dokument, die für die Beantwortung der Frage entscheidend ist) herausgeschnitten wurde, um sicherzustellen, dass der LLM nur auf Proben trainiert wird, in denen alle notwendigen Informationen im Text enthalten sind, da die Vektorsuche zusammen mit einer Token-Begrenzung nicht garantiert, dass die notwendigen Informationen zur Beantwortung der Frage im Prompt enthalten sind.
Anstelle von Prompts können wir für multimodale Modelle auch Bilder des Ausgangsdokuments liefern.
Datensatz Beispiele lassen sich auf Huggingface finden: https://huggingface.co/parsee-ai
Auf unserem Github repository zeigen wir außerdem die Methodik hinter unseren Datensätzen: https://github.com/parsee-ai/parsee-datasets
Insgesamt haben die Datensätze mehrere Millionen Zeilen und sind mehrere Terabytes groß. Der Preis ist pro Zeile, so dass Sie mit einem kleineren Teil beginnen und auf Anfrage mehr Daten erhalten können. Für ein detailliertes Angebot, kontaktieren Sie bitte sales@parsee.ai
Juristische Datensätze (in Kürze)
Wir entwickeln derzeit einen Datensatz mit Verträgen und anderen rechtlichen Dokumenten im gleichen Format wie unser Finanzdatensatz. Dieser Datensatz wird mehrere Terabyte groß sein und mehr als 10 Millionen Zeilen enthalten. Wie unser Finanzdatensatz unterliegt auch der Rechtsdatensatz keinen rechtlichen Beschränkungen und wird ebenfalls entweder als Text oder als Bild für multimodale Modelle zur Verfügung stehen.
Bitte kontaktieren Sie sales@parsee.ai, um mehr zu erfahren.