KI-Agenten im Unternehmen: Was sie heute leisten — und was nicht
Realistischer Blick auf KI-Agenten im Mittelstand 2026: drei produktive Einsatzmuster, klare Grenzen, ehrliche Kostenrechnung für die ersten 90 Tage.
Von Aleksey Rogalev
KI-Agenten im Unternehmen: Was sie heute leisten — und was nicht
Der Begriff “KI-Agent” hat 2025 eine erstaunliche Karriere hingelegt. Jede zweite Software, die ein Sprachmodell anruft, nennt sich heute Agent. Diese Inflation der Begriffe macht es schwer, eine nüchterne Entscheidung zu treffen — vor allem, wenn man im Mittelstand vor der Frage steht, ob ein Agenten-Projekt das Geld wert ist oder nicht.
Dieser Beitrag versucht, den Begriff scharf zu fassen, drei realistische Einsatzmuster zu skizzieren und die Grenzen so klar zu benennen, wie man sie heute kennt. Ziel ist nicht, Agenten zu verkaufen oder schlechtzureden — sondern eine Grundlage zu liefern, mit der du eine fundierte Investitionsentscheidung treffen kannst.
Was ein Agent ist — und was nicht
Ein Agent in unserem Verständnis ist ein System, das drei Eigenschaften hat: Es kann eigene Schritte planen, es kann externe Werkzeuge aufrufen (also nicht nur Text zurückgeben, sondern auch Aktionen auslösen), und es kann anhand der Ergebnisse seiner Aktionen seinen Plan anpassen.
Ein Chatbot, der auf Knopfdruck eine vorgegebene Antwort holt, ist kein Agent. Ein Assistent, der einen Termin erstellt, ein Dokument liest, eine Suche ausführt und am Ende eine Mail entwirft — entscheidend in eigenständiger Reihenfolge —, ist einer.
Diese Unterscheidung ist nicht akademisch. Ein einfacher Bot kostet vier Wochen Aufwand, ein echter Agent eher vier Monate, und die Erwartungshaltung an Robustheit, Sicherheit und Governance ist eine andere. Wenn ein Anbieter dir einen “KI-Agenten” in vier Wochen verspricht, frag nach dem Plan-Schritt — sehr oft fehlt er.
Einsatzmuster 1: Der Co-Pilot am Arbeitsplatz
Das einfachste produktive Muster: Ein Agent läuft als Erweiterung neben einer bestehenden Anwendung — typischerweise in Microsoft 365, im Browser oder im CRM. Die Mitarbeiterin bleibt am Steuer, der Agent erledigt Vor- und Nacharbeiten.
Ein praxistauglicher Co-Pilot im Vertriebsalltag bereitet vor einem Kundentermin die wichtigsten Eckdaten zusammen (Bestellhistorie, offene Vorgänge, letzte Marketing-Kontakte), schlägt drei Gesprächsthemen vor und erstellt nach dem Termin auf Basis einer Sprachnotiz ein CRM-konformes Protokoll. Der Mehrwert ist nüchtern, aber konsistent: 30 bis 60 Minuten pro Außendiensttag, plus deutlich höhere CRM-Datenqualität.
Aufwandseinschätzung für einen ersten produktiven Co-Pilot: 12 bis 20 Wochen, je nach Anbindungstiefe an CRM und Telefonie. Kostenseite: 40 bis 90 k EUR Einmal, 5 bis 15 EUR pro Nutzer und Monat laufend.
Einsatzmuster 2: Der Workflow-Runner im Hintergrund
Das zweite Muster läuft ohne direktes Nutzergesicht. Ein Agent übernimmt eine Folge von Bearbeitungsschritten, die heute manuell durch ein oder mehrere Systeme wandern: Rechnungs-Vorprüfung, Bewerbungssichtung, Reklamationsbearbeitung, Daten-Konsolidierung zwischen Systemen.
Der typische Pattern: Ein Vorgang trifft ein, der Agent prüft Standardfelder, extrahiert Inhalte, ordnet sie zu, eskaliert nur die Fälle, in denen er nicht sicher ist. Der Mitarbeiter sieht das System nur, wenn ein menschliches Urteil notwendig ist.
Workflow-Runner sind oft die wirtschaftlich attraktivsten Agenten, weil sie Volumen ohne Skalierung der Belegschaft bewältigen. Sie sind gleichzeitig auch die anspruchsvollsten in der Einführung: Die Bearbeitungsregeln müssen sauber dokumentiert sein, der Eskalationspfad muss zuverlässig funktionieren, und die Akzeptanz im Fachbereich entscheidet darüber, ob das System nach drei Monaten noch genutzt wird oder umgangen.
Aufwandseinschätzung: 16 bis 28 Wochen, 80 bis 180 k EUR Einmal, plus laufende Kosten für Modell-Nutzung (typisch 0,05 bis 0,50 EUR pro Vorgang, abhängig vom verwendeten Modell).

Einsatzmuster 3: Der autonome Spezialist
Das dritte Muster ist heute eine Wette mehr als eine Investition. Ein Agent erhält ein größeres Aufgabengebiet — beispielsweise die eigenständige Recherche für eine Wettbewerbsanalyse, die initiale Vertrags-Prüfung oder die Erstellung eines mehrseitigen Vorschlags — und arbeitet weitgehend ohne menschliche Zwischenstufen.
Diese Klasse von Agenten ist technisch machbar, in der Produktion aber selten zuverlässig. Die Modelle halluzinieren, die Plan-Schritte sind nicht immer nachvollziehbar, und die Fehlerquote ist deutlich höher als bei den ersten beiden Mustern. Wir sehen produktive autonome Spezialisten heute fast nur in Nischen mit starkem menschlichem Review-Schritt am Ende.
Wer dieses Muster ernsthaft erwägt, sollte zwei Bedingungen prüfen: Erstens, gibt es einen klaren Qualitätssicherungs-Schritt durch eine menschliche Fachkraft am Ende? Zweitens, ist die Verantwortlichkeit für das Endergebnis eindeutig geklärt, auch wenn der Agent gefehlt hat? Wer diese Fragen nicht klar beantworten kann, sollte mit Muster 1 oder 2 beginnen und das Vertrauen schrittweise ausbauen.
Drei Grenzen, die heute real sind
Erste Grenze: Konsistenz. Sprachmodelle liefern bei identischem Input nicht immer identischen Output. Für viele Anwendungen ist das egal, für regulatorisch sensible Prozesse oft nicht. Wer einen Agenten in einer Compliance-relevanten Schleife einsetzt, braucht zusätzliche Validierungs-Mechanismen — meist deterministische Regelwerke, die das Modell-Ergebnis prüfen.
Zweite Grenze: Werkzeug-Vielfalt. Ein Agent ist nur so gut wie die Werkzeuge, die er sicher bedienen kann. In vielen Mittelstandsunternehmen liegen die kritischen Daten in älteren ERP-Systemen ohne moderne API. Bevor ein Agent dort sinnvoll arbeiten kann, braucht es entweder einen Daten-Layer (Lese-Replikation, ETL) oder einen pragmatischen Workaround. Diese Vorarbeit wird in Aufwandsplanungen häufig unterschätzt.
Dritte Grenze: Verantwortung. Wenn ein Agent eigenständig einen Vorgang abschließt — eine Rechnung freigibt, eine Auskunft erteilt, eine Bestellung auslöst —, muss klar sein, wer im Fehlerfall haftet. Diese Frage ist juristisch noch nicht überall sauber geklärt. In der Praxis bedeutet das: Ein menschlicher Bestätigungs-Schritt für alles, was nach außen Bindung erzeugt, ist heute der vernünftige Default.
Aufwand, Kosten und realistische Erwartung für die ersten 90 Tage
Wer mit einem Agenten-Projekt startet, sollte die ersten 90 Tage nicht als Implementierungs-, sondern als Vorbereitungsphase betrachten. Der Aufwand liegt in drei Themen.
Tage 1–30: Daten-Inventur und Use-Case-Schärfung. Welche Daten muss der Agent sehen können? Wie aktuell, wie vollständig sind sie? Welche Werkzeuge soll der Agent bedienen, welche Berechtigungen braucht er? Welcher konkrete Use-Case wird als erstes produktiv? Antworten auf diese Fragen sind selten an einem Tag erarbeitet.
Tage 30–60: Prototyp und kontrollierter Test. Ein erster funktionierender Agent läuft in einem geschlossenen Bereich, sieht keine Produktivdaten, wird von einem kleinen Kernteam beobachtet. Ziel: Die häufigsten Fehlermodi sichtbar machen, bevor sie Geld kosten.
Tage 60–90: Erster produktiver Pilot mit echtem Geschäftskontakt. Engmaschiger Review, klare Stop-Kriterien, dokumentierte Lerneffekte. Nach 90 Tagen sollte eine ehrliche Entscheidung möglich sein: Skalieren, anpassen oder beenden.
In Summe bewegen sich realistische Investitionen für einen ersten produktiven Agenten im Mittelstand zwischen 60 und 150 k EUR im ersten Jahr. Wer mit weniger startet, baut einen Demo-Bot. Wer mit deutlich mehr startet, ohne diese drei Phasen sauber abgearbeitet zu haben, verbrennt das Geld in den Detailfragen, die später ohnehin entstehen.
Wann sich ein Agent rechnet — und wann nicht
Ein Agent rechnet sich, wenn drei Bedingungen zusammenkommen: hohes Bearbeitungsvolumen pro Monat, klar definierte Prozessregeln, und ein messbarer Engpass in der menschlichen Bearbeitung (Wartezeiten, Fehlerquoten, fehlende Konsistenz).
Er rechnet sich nicht, wenn das Volumen klein ist (zehn Vorgänge pro Woche werden auch in fünf Jahren keine 200 k EUR Investition tragen), wenn die Bearbeitungsregeln in Wahrheit Auslegungssache sind (dann ist der Agent kein Werkzeug, sondern ein dauerhafter Streitgegenstand), oder wenn der Engpass kein Bearbeitungs-, sondern ein Entscheidungs-Engpass ist (das löst kein Agent, das löst nur eine bessere Aufbauorganisation).
Diese drei Filter ersparen die meisten der teuren Fehlinvestitionen, die wir in unserer Beratungspraxis sehen.
Wenn du konkret werden möchtest
Wenn du einen konkreten Anwendungsfall im Kopf hast und prüfen möchtest, ob er die genannten Bedingungen erfüllt, ist eine strukturierte Vorprüfung in zwei bis drei Stunden machbar. Wir nutzen dazu einen festen Bewertungsrahmen, der die genannten Dimensionen (Volumen, Regeln, Engpass, Datenlage, Verantwortung) durchgeht und am Ende eine ehrliche Empfehlung gibt — auch wenn diese Empfehlung lautet, vorerst nichts zu tun.