Mit den jüngsten Entwicklungen im Bereich der Künstlichen Intelligenz (KI) und der natürlichen Sprachverarbeitung (NLP) rücken Large Language Models (LLMs) zunehmend in den Fokus von Unternehmen, die fortschrittliche Anwendungen entwickeln möchten, die unser tägliches Leben verbessern sollen. Von Kundensupport-Chatbots bis hin zu virtuellen persönlichen Assistenten wachsen die Fähigkeiten dieser Modelle kontinuierlich. Daher wird es für Unternehmen immer notwendiger, ein geeignetes Benchmarking-System zu finden, das Zuverlässigkeit, Grenzen und Wirksamkeit dieser Modelle für einen bestimmten Anwendungsfall messbar macht.
Datensicherheit ist ein weiterer Grund, warum das Benchmarking verschiedener Modelle wichtig ist. Einige Unternehmen – etwa Banken – sind besorgt über Datensicherheit und nicht bereit oder nicht berechtigt, ihre Daten an Anbieter wie OpenAI weiterzugeben. Für sie ist ein eigenes internes LLM-System (On-Premise oder selbstverwaltete Cloud), ähnlich wie GPT, die beste Lösung – und Benchmarking wird damit zu einem wichtigen und unumgänglichen Schritt im Prozess.
Bei der Evaluierung von LLMs müssen diese in verschiedenen Szenarien getestet werden: Reasoning, das Verstehen sprachlicher Feinheiten und das Beantworten von Fragen aus spezialisierten Fachgebieten. Da LLMs für vielfältige Aufgaben geeignet sind und anhand mehrerer Performance-Metriken bewertet werden können, gestaltet sich der Benchmarking- und Evaluierungsprozess komplex.
Verschiedene Ansätze für das Benchmarking
Es gibt mehrere methodische Ansätze zur Evaluierung von Large Language Models:
- Aufgabenspezifische Evaluierung: Das Sprachmodell wird anhand seiner Performance bei spezifischen Aufgaben bewertet – etwa Frage-Antwort-Systeme, Textzusammenfassung oder maschinelle Übersetzung. Diese Evaluierung nutzt in der Regel etablierte Datensätze und Metriken für jede Aufgabe.
- Few-Shot-Learning-Evaluierung: Dem Sprachmodell werden zum Zeitpunkt der Inferenz einige Beispiele einer Aufgabe gegeben, woraufhin es gebeten wird, eine ähnliche Aufgabe zu lösen. Diese Methode testet die Fähigkeit des Modells, aus wenigen Beispielen auf neue Aufgabeninstanzen zu generalisieren.
- Zero-Shot-Learning-Evaluierung: Ähnlich wie Few-Shot-Learning, jedoch erhält das Modell zum Zeitpunkt der Inferenz keinerlei Beispiele. Die Performance bei diesen – im Training nicht gesehenen – Aufgaben wird gemessen. Dies testet die Fähigkeit des Modells, Aufgaben zu verstehen und zu lösen, für die es nicht explizit trainiert wurde.
- Fine-Tuning-Evaluierung: Das Modell wird mit zusätzlichem aufgabenspezifischem Training auf eine bestimmte Aufgabe feinjustiert, und seine Performance bei dieser Aufgabe wird gemessen. Dies hilft zu verstehen, wie gut sich das Modell nach dem Pretraining an spezifische Aufgaben anpassen kann.
- Menschliche Evaluierung: Die menschliche Evaluierung spielt beim Benchmarking von Sprachmodellen eine zentrale Rolle. Dabei bewerten Menschen beispielsweise die Kohärenz, Relevanz oder sachliche Korrektheit der vom Modell generierten Texte – oder führen spezifischere Aufgaben durch, wie die Bewertung kreativer Texte oder die Beantwortung von Fragen auf Basis von Texten.
- Bias- und Fairness-Evaluierung: Hierbei wird die Modellausgabe auf Verzerrungen oder unfaire Darstellungen hinsichtlich Faktoren wie Geschlecht, Herkunft, Religion usw. untersucht. Dies hilft zu verstehen, ob das Modell unbeabsichtigt gesellschaftliche Vorurteile aus seinen Trainingsdaten übernommen hat.
- Sicherheits- und Robustheitsevaluierung: Dieser Ansatz testet, wie gut das Modell mit bösartigen Eingaben, Fehlinformationen oder adversarialen Angriffen umgeht.
Unser Ansatz und unsere Ergebnisse
Wir haben uns entschieden, verschiedene LLMs (Open Source und OpenAI) aus der Perspektive des Frage-Antwort-Systems mithilfe zweier der oben beschriebenen Ansätze zu evaluieren: aufgabenspezifische Evaluierung und menschliche Evaluierung.
Für die aufgabenspezifische Evaluierung wählten wir den Google BoolQ Dataset, für die menschliche Evaluierung einen vordefinierten Fragenkatalog auf Basis eines gegebenen Textes mit verschiedenen Schwierigkeitsgraden. Ziel ist es, ein ganzheitliches Bild davon zu erhalten, wie gut ein LLM den Kontext versteht, indem es bedeutungsvolle und kohärente Antworten auf schwierige Fragen generiert.
BoolQ-Dataset-Evaluierung
BoolQ ist ein Frage-Antwort-Datensatz für Ja/Nein-Fragen, die aus anonymisierten, aggregierten Suchanfragen bei Google stammen. Diese Fragen sind natürlich entstanden, da sie in ungesteuerten und freien Kontexten generiert wurden.
Wir haben diesen Datensatz den verschiedenen LLMs eingegeben und ihre Erfolgsrate anhand der Anzahl korrekter Antworten gemessen. Nachfolgend die Ergebnisse dieses Benchmarkings:
Zu erkennen ist, dass google/flan-t5-xxl, tiiuae/falcon-180B-chat und gpt3.5 besser abschnitten als die anderen Modelle – mit google/flan-t5-xxl als bestem und databricks/dolly-v2-3b als schwächstem Modell. Bemerkenswert ist, dass gpt3.5 von google/flan-t5-xxl und tiiuae/falcon-180B-chat übertroffen wurde, während das große Llama-Modell meta-llama/Llama-2-70b-chat-hf unterdurchschnittlich abschnitt.
Menschliche Evaluierung
Für die menschliche Evaluierung haben wir die Geschichte „Die Schneekönigin" ausgewählt und auf deren Basis einen Benchmark-Fragenkatalog mit Musterlösungen erstellt. Anschließend evaluierten wir die LLMs, indem wir ihnen diese Fragen stellten und die Korrektheit der Antworten mit einem semi-manuellen Ansatz¹ beurteilten.
Wir wählten Fragen verschiedener Schwierigkeitsgrade, zum Beispiel: Einfache Frage: „Wer waren die zwei engen Freunde in der Geschichte?" Schwierige Frage: „Welches Objekt verband Karls und Gerdas Häuser und symbolisierte damit ihre Freundschaft in der Geschichte?"
Die vollständige Liste der Fragen und Antworten findet sich in Anhang 1, die Antworten der verschiedenen LLMs in Anhang 2.
Insgesamt variierte die Performance der getesteten LLMs erheblich. Das beste Modell war tiiuae/falcon-180B-chat, das sehr präzise antwortete und OpenAIs GPT-3.5 bei dieser Aufgabe sogar übertraf. Kleinere Modelle wie die 7B-Version von Falcon oder Databricks Dolly schnitten hingegen deutlich schlechter ab.
Bewertungskriterien für Antworten
Die gegebenen Antworten wurden semi-manuell anhand folgender Kriterien bewertet:
- Genauigkeit: Die Antwort muss den in der Geschichte genannten Details entsprechen.
- Vollständigkeit: Die Antwort sollte alle Aspekte der Frage abdecken, ohne wichtige Details auszulassen.
- Klarheit: Die Antwort sollte klar formuliert sein, sodass sie für den Leser leicht verständlich ist.
- Kürze: Die Antwort sollte vollständig, aber prägnant sein und unnötige Details vermeiden.
- Direktheit: Die Antwort sollte die Frage direkt beantworten, ohne vom Kernpunkt abzuweichen.
Wir verwendeten ein Notensystem (1–4) zur Punktevergabe, einschließlich Zwischenwerte wie 1/3, 2/3 usw. Die eigentliche Bewertung übernahm GPT-4 – weitere Details finden sich in Anhang 3.
Für die verschiedenen LLMs haben wir zu den verschiedenen Fragen folgende Ergebnisse erhalten:
Erfolgsrate in Prozent:
Bei dieser offenen Frage-Antwort-Aufgabe schnitten tiiuae/falcon-180B-chat, gpt3.5 und meta-llama/Llama-2-70b-chat-hf besser ab als die anderen Modelle – mit databricks/dolly-v2-3b als schwächstem. Das beste Modell ist tiiuae/falcon-180B-chat, das sogar gpt3.5 übertrifft. Das Modell google/flan-t5-xxl, das beim BoolQ-Benchmarking am besten abschnitt, zeigt bei der offenen Frage-Antwort-Aufgabe nur durchschnittliche Leistungen. Das zweitbeste Modell ist gpt3.5, gefolgt von meta-llama/Llama-2-70b-chat-hf – was zeigt, dass dieses Modell für solche Aufgaben ein ernsthafter Konkurrent zu gpt3.5 ist. Da es zudem deutlich kleiner als tiiuae/falcon-180B-chat ist, kann es als Alternative zu gpt3.5 in Betracht gezogen werden.
Fazit
Aus den obigen Ergebnissen geht hervor, dass google/flan-t5-xxl beim BoolQ-Benchmarking das beste Modell ist, gefolgt von tiiuae/falcon-180B-chat. Bei der menschlichen Evaluierung führt tiiuae/falcon-180B-chat klar und übertrifft alle anderen LLMs.
Das beim BoolQ-Benchmarking beste Modell (google/flan-t5-xxl) enttäuscht bei der menschlichen Evaluierung – vermutlich aufgrund seines spezialisierten Trainings auf dem BoolQ-Datensatz.
Dies verdeutlicht auch die Notwendigkeit, Evaluierungen anhand offener Fragen durchzuführen, wenn das Modell für Aufgaben wie die Wissensextraktion eingesetzt werden soll. Rein klassifikationsbasierte Aufgaben können irreführend sein: Gute Performance bei solchen Aufgaben ist nicht zwingend ein Indikator für gute Performance bei Aufgaben, die Textgenerierung erfordern.
Zusammenfassend lässt sich sagen: Das Modell tiiuae/falcon-180B-chat erweist sich als klarer Spitzenreiter und übertrifft GPT-3.5 in beiden Aufgaben. Es ist eine hervorragende Wahl für den Betrieb eines internen, quelloffenen LLMs für Frage-Antwort-Systeme. Als kostenlose Open-Source-Option mit mehrsprachigen Fähigkeiten ist es besonders attraktiv. Der Betrieb auf einer selbstverwalteten Cloud oder On-Premise kann jedoch kostspielig sein und häufig mehrere High-End-GPUs erfordern. Eine kostengünstigere Alternative könnte die quantisierte Version Falcon-180B-Chat-GGUF sein, die auf einer einzigen GPU (z. B. Nvidia A100 oder H100) läuft – ihre Performance im Vergleich zum Originalmodell ist jedoch noch zu verifizieren.
Unsere Ergebnisse zeigen, dass Open-Source-Modelle wie tiiuae/falcon-180B-chat bei der Beantwortung schwieriger kontextbasierter Fragen durchaus mit gpt3.5 mithalten können und damit für Unternehmen als Alternative in Frage kommen. Der Einsatz von Open-Source-Modellen bietet zudem die Möglichkeit, das Modell nach Geschäftsbedarf feinjustieren zu können – verbunden mit größerer Flexibilität und vollständiger Kontrolle.
Ausblick
Mögliche weiterführende Arbeiten umfassen das Testen der quantisierten Version von tiiuae/falcon-180B-chat, um zu prüfen, ob die Leistungsfähigkeit des Originalmodells auf einer einzigen GPU erreicht werden kann – was zugleich kostengünstiger wäre. Sollte die Performance der quantisierten Version zu niedrig ausfallen, könnte ein QLORA-Fine-Tuning interessant sein: Dabei werden niedrigrangige Matrizen zu den quantisierten Matrizen hinzugefügt, und das Modell wird auf dem Originaldatensatz (RefinedWeb) feinjustiert, auf dem tiiuae/falcon-180B-chat ursprünglich trainiert wurde. Mit diesem Ansatz wäre zu hoffen, dass das Fine-Tuning die durch die Quantisierung entstehenden Leistungseinbußen kompensiert, während das vollrangige, aber quantisierte Parameterskelett eine solide Basis für das Fine-Tuning bietet. Idealerweise ließe sich das 180B-Falcon-Modell so auf ein deutlich kleineres Modell ohne Leistungsverlust destillieren.
Anhang 1
Frage: Wer waren die zwei engen Freunde in der Geschichte?
Antwort: Die zwei engen Freunde in der Geschichte waren Karl und Gerda.
Frage: Wie veränderte sich Karls Verhalten, nachdem ihn ein Splitter des zerbrochenen Spiegels traf?
Antwort: Nachdem ihn ein Splitter des zerbrochenen Spiegels getroffen hatte, wurde Karl zu einem sehr unausstehlichen Jungen, der andere – insbesondere Gerda – häufig beleidigte.
Frage: Wie gelang es Gerda, den bösen Zauber über Karl am Ende der Geschichte zu brechen?
Antwort: Gerda brach den bösen Zauber über Karl, indem sie ihn in die Arme schloss und ihre Tränen auf seine Brust und sein Herz tropfen ließ. Dieser Liebesbeweis und diese Emotion ließen den bösen Zauber zerbrechen.
Frage: Welches Objekt verband Karls und Gerdas Häuser und symbolisierte damit ihre Freundschaft in der Geschichte?
Antwort: Die Erbsenranke, die auf Karls Fensterbrett wuchs, breitete sich über die Straße aus und schlang sich um Gerdas kleinen Rosenbusch – ein Symbol ihrer Freundschaft.
Frage: Wo lag das Königreich der Schneekönigin, und wie gelangte man dorthin?
Antwort: Das Königreich der Schneekönigin lag in Lappland, einem Ort ewiger Kälte. Um dorthin zu gelangen, reiste Gerda auf dem Rücken eines Rentiers durch die gefrorene Tundra, geleitet vom Nordlicht.
Frage: Wer half Gerda dabei, ihren Freund zu finden?
Antwort: Eine Krähe und ein Rentier halfen Gerda, ihren Freund zu finden. Die Krähe informierte Gerda über Karls Aufenthaltsort bei der Schneekönigin, das Rentier trug sie in deren Königreich.
Frage: Wie entführte die Schneekönigin Karl?
Antwort: Die Schneekönigin näherte sich Karl, bat ihn, seinen Schlitten an ihren zu binden, und gemeinsam rasten sie in den Himmel, wo sie schließlich in ihrem Eiskönigtum landeten.
Anhang 2 – Übersicht der Fragen und Antworten je LLM zum Download
Kontakt aufnehmen
Wir freuen uns auf Ihre Anfrage.
Bitte akzeptieren Sie Marketing-Cookies, um das Anmeldeformular zu laden.