Infrastruktur

Latenz

Latenz ist die Zeit, die ein KI-System braucht, um auf deine Anfrage zu antworten. Sie wird oft in Millisekunden oder Sekunden gemessen und reicht vom Absenden des Prompts bis zur ersten oder vollständigen Antwort. Bei großen Sprachmodellen hängt sie unter anderem von Modellgröße, Auslastung und Antwortlänge ab. Niedrige Latenz fühlt sich für dich flüssiger an, hohe Latenz wirkt zäh.

Verwandte Begriffe

Large Language Model (LLM) Inferenz Rate Limit