Was sind Trainingsdaten? (Definition)
Trainingsdaten sind die Informationen, mit der ein KI-Modell, insbesondere ein Large Language Model (LLM), während des Trainingsprozesses lernt. Sie ermöglichen es dem Modell, sprachliche Muster, Zusammenhänge, Bedeutungen und statistische Wahrscheinlichkeiten zu erkennen und anzuwenden.
Bei großen Sprachmodellen wie ChatGPT, Claude oder Gemini bestehen die Trainingsdaten typischerweise aus riesigen Mengen an Text, zum Beispiel:
- Webseiten (ein Großteil des öffentlichen Internets)
- Bücher und wissenschaftliche Artikel
- Wikipedia und andere Wissensdatenbanken
- Code von Plattformen
- Nachrichtenartikel, Foren, soziale Medien
Moderne LLMs werden zudem häufig in mehreren Stufen trainiert. Das Modell analysiert die Texte und lernt dabei statistische Muster: Welche Wörter folgen aufeinander? Wie hängen Konzepte zusammen? Wie sieht eine gute Antwort auf eine Frage aus? Es speichert dabei keine Texte wörtlich, sondern verdichtet das Wissen in Milliarden von Parametern (Zahlenwerten).

