Training

RLHF

RLHF steht für Reinforcement Learning from Human Feedback, also bestärkendes Lernen aus menschlichem Feedback. Dabei bewerten Menschen verschiedene Antworten eines Modells, und das Modell lernt, künftig die bevorzugten Antworten zu erzeugen. Diese Methode trägt dazu bei, dass Sprachmodelle hilfreicher und weniger problematisch antworten.

Verwandte Begriffe

Reinforcement Learning Alignment Fine-Tuning