LLM-Datensätze für RAG

Unsere Finanzdaten-Datensätze wurden mit den Daten zusammengestellt, die wir bei SimFin (Muttergesellschaft von parsee.ai) in den letzten 8 Jahren gesammelt haben. Die Basis sind über 300k Quartals- und Jahresfinanzberichte, die frei zugänglich sind (und somit keinen urheberrechtlichen Beschränkungen unterliegen). Wir haben die Daten mit unseren benutzerdefinierten Modellen extrahiert, die in einem mehrjährigen, iterativen Prozess der Beschriftung und Korrektur von Daten erstellt wurden. Jetzt haben wir unsere Daten mit Parsee transformiert und stellen die Ergebnisse Unternehmen zur Verfügung, die an einem sehr großen, qualitativ hochwertigen Datensatz für RAG-Anwendungen interessiert sind, insbesondere für Fälle, in denen LLMs ein Quelldokument wie ein PDF verstehen und daraus strukturierte Daten extrahieren müssen.

Wir haben 4 verschiedene Finanzdatensätze zur Verfügung (die verschiedene Aufgaben abdecken), die alle direkt für das Training von benutzerdefinierten LLM-Modellen mit der vollständigen Aufforderung und der erwarteten (richtigen) Antwort, die ein LLM geben kann, verwendet werden können.

Die Datensätze können mit den vollständigen Eingabeaufforderungen (die im Grunde alle Daten des Quelldokuments enthalten) oder mit Eingabeaufforderungen geliefert werden, die auf z. B. 4k Token (oder eine beliebige andere Zahl) begrenzt sind.

Um die Prompts zu kappen, können wir entweder eine Vektorsuche nach den relevantesten Elementen durchführen oder eine zufällige Anzahl von Fragmenten "vor" und "nach" der eigentlichen Quelle einfügen, die für die Beantwortung der Frage erforderlich ist. Wenn die Prompts über die Vektorsuche gekappt werden, filtern wir Zeilen heraus, in denen die richtige "Quelle" (Textpassage im Dokument, die für die Beantwortung der Frage entscheidend ist) herausgeschnitten wurde, um sicherzustellen, dass der LLM nur auf Proben trainiert wird, in denen alle notwendigen Informationen im Text enthalten sind, da die Vektorsuche zusammen mit einer Token-Begrenzung nicht garantiert, dass die notwendigen Informationen zur Beantwortung der Frage im Prompt enthalten sind.

Anstelle von Prompts können wir für multimodale Modelle auch Bilder des Ausgangsdokuments liefern.

Datensatz Beispiele lassen sich auf Huggingface finden: https://huggingface.co/parsee-ai

Auf unserem Github repository zeigen wir außerdem die Methodik hinter unseren Datensätzen: https://github.com/parsee-ai/parsee-datasets

Insgesamt haben die Datensätze mehrere Millionen Zeilen und sind mehrere Terabytes groß. Der Preis ist pro Zeile, so dass Sie mit einem kleineren Teil beginnen und auf Anfrage mehr Daten erhalten können. Für ein detailliertes Angebot, kontaktieren Sie bitte sales@parsee.ai