Zum Glossar
Grundlagen

Tokenisierung

Tokenisierung ist der Schritt, in dem ein Text in kleine Einheiten zerlegt wird, sogenannte Tokens, die ein Modell verarbeiten kann. Ein Token ist oft ein ganzes Wort, manchmal nur eine Silbe oder ein Zeichen. Diese Zerlegung ist die Grundlage dafür, dass ein Sprachmodell Text überhaupt lesen und erzeugen kann.