LLM

Multimodales Modell

Ein multimodales Modell kann mehrere Arten von Eingaben verarbeiten, etwa Text, Bilder, Audio oder Video, statt nur einer. Es lernt, Zusammenhänge zwischen diesen Formen herzustellen, und kann zum Beispiel ein Bild beschreiben oder eine Frage zu einem Foto beantworten. Manche dieser Modelle erzeugen auch verschiedene Ausgaben. Dadurch wird die Bedienung flexibler, weil du nicht auf reinen Text beschränkt bist.

Verwandte Begriffe

Large Language Model (LLM) Computer Vision Speech-to-Text