Large Language Model (LLM)
18. Januar 2026

Trainingsdaten (KI)

Was sind Trainingsdaten? (Definition)

Trainingsdaten sind die Informationen, mit der ein KI-Modell, insbesondere ein Large Language Model (LLM), während des Trainingsprozesses lernt. Sie ermöglichen es dem Modell, sprachliche Muster, Zusammenhänge, Bedeutungen und statistische Wahrscheinlichkeiten zu erkennen und anzuwenden.

Bei großen Sprachmodellen wie ChatGPT, Claude oder Gemini bestehen die Trainingsdaten typischerweise aus riesigen Mengen an Text, zum Beispiel:

  • Webseiten (ein Großteil des öffentlichen Internets)
  • Bücher und wissenschaftliche Artikel
  • Wikipedia und andere Wissensdatenbanken
  • Code von Plattformen
  • Nachrichtenartikel, Foren, soziale Medien

Moderne LLMs werden zudem häufig in mehreren Stufen trainiert. Das Modell analysiert die Texte und lernt dabei statistische Muster: Welche Wörter folgen aufeinander? Wie hängen Konzepte zusammen? Wie sieht eine gute Antwort auf eine Frage aus? Es speichert dabei keine Texte wörtlich, sondern verdichtet das Wissen in Milliarden von Parametern (Zahlenwerten).

Vernetz Dich mit mir

So kontaktierst du mich am besten

Möchtest Du...

Mehr zum Thema erfahren? Oder dich mit mir dazu austauschen?

Kontaktiere mich gerne auf LinkedIn: