Warum die Bescheidprüfung liegen bleibt.

Steuerbescheide kommen gestaffelt, oft mitten in der Heißphase rund um ESt-Stichtage und Jahresabschlüsse. Position für Position gegen die eingereichte Erklärung abgleichen, FA-Begründungen verstehen, prüfen ob Einspruch lohnt — das frisst pro Bescheid 30 bis 60 Minuten und liegt deshalb regelmäßig zwei, drei Wochen auf dem Stapel. Mandanten merken die Erstattung nicht, kleine Korrekturen werden übersehen, Einspruchsfristen wackeln.

Die Big-Four-Lösungen — Workiva, Thomson Reuters ONESOURCE, Deloitte-interne Tools — sind für 11–50-MA-Kanzleien Enterprise-Overkill: sechsstellige Jahreslizenzen, monatelange Einführung, Plattform-Lock-in. Das andere Extrem ist DIY mit Copy-Paste in ChatGPT — schnell, aber §203-StGB-Sprengstoff, weil der Bescheid Steuer-ID, Einkommen, Vermögen enthält. Der Mid-Market-Weg liegt dazwischen: ein schlanker Self-Build-Workflow mit Claude (Anthropic, EU-Region, AVV) und DATEV-XML-Schnittstelle. Das ist die Bescheidprüfung mit KI, die in eurer Kanzlei tatsächlich läuft.

5 Schritte

So sieht die Bescheidprüfung in der Praxis aus.

Bescheid-PDF einlesen — Festsetzungs-Tabelle extrahieren.

Steuerbescheid als PDF oder Scan ins System geben (Drag-and-Drop oder Kanzlei-Postfach-Trigger). Claude mit Vision liest die Festsetzungs-Tabelle Position für Position: zu versteuerndes Einkommen, Werbungskosten, Sonderausgaben, außergewöhnliche Belastungen, anrechenbare Steuern, festgesetzte ESt. Ergebnis ist ein strukturiertes JSON, das die Bescheid-Werte spaltengetreu abbildet — inklusive Begründungstext und Korrektur-Codes des Finanzamts.

DATEV-XML-Export der eingereichten Erklärung laden.

Aus DATEV Steuern professional (oder DATEV ESt-Programm) den XML-Export der eingereichten Erklärung ziehen — Standard-Schnittstelle, kein Custom-Integrations-Aufwand. Ein Python-/n8n-Parser bringt die Erklärungswerte in dasselbe Schema wie den Bescheid-Output aus Schritt 1. Damit liegen Soll-Wert (erklärt) und Ist-Wert (festgesetzt) nebeneinander in einer Struktur, die Claude vergleichen kann.

Soll-Ist-Vergleich mit Diff-Schwelle und Korrektur-Codes.

Claude vergleicht jede Position aus Erklärung und Bescheid, markiert Abweichungen ab 50 € (konfigurierbar) und ordnet jede Differenz einer FA-Begründung zu — gestrichene Werbungskosten, geänderter Sonderausgabenabzug, abweichende Anlage-V-Position. Bei unsicheren Stellen (schlechter Scan, ambivalente Begründungstexte) setzt die KI ein PRÜFEN-Flag und zitiert die Original-Textstelle aus dem Bescheid für die Audit-Trail-Spalte.

Strukturierter Bericht — Position, Differenz, Begründung.

Ergebnis ist eine Diff-Tabelle: pro Abweichung Position, erklärter Wert, festgesetzter Wert, Differenz in €, FA-Begründung als Zitat, Einspruchs-Erfolg geschätzt (hoch / mittel / niedrig) mit Begründung. Der Report wird als PDF in die Mandantenakte gelegt — kein Copy-Paste, kein Excel-Hin-und-Her. StB-Lesezeit pro Bescheid: 3 bis 5 Minuten statt 30 bis 60.

Entscheidungs-Vorlage — Einspruch, Anfrage oder Akte.

Drei Aktions-Empfehlungen: Einspruch lohnt sich (mit Entwurf des Einspruchsschreibens, vorbefüllt mit FA-Aktenzeichen, Bescheid-Datum, Streit-Positionen), Mandant fragen (mit Nachfrage-Mail-Entwurf zu fehlenden Belegen) oder Akte schließen, festgesetzt korrekt (kurze Notiz in die Akte). Der StB klickt die Empfehlung an, prüft den Entwurf, gibt frei — danach geht die Einspruchsfrist im Wiedervorlage-System nicht mehr verloren.

Position

Erklärt

Festgesetzt

Differenz

FA-Begründung

Empfehlung

Werbungskosten

4.823 €

3.612 €

−1.211 €

Arbeitsmittel ohne Belege gestrichen

Einspruch (70 %)

Sonderausgaben

876 €

0 €

—

Akte schließen

Außergew. Belastungen

2.140 €

1.890 €

−250 €

Eigenanteil nicht abgezogen

Mandant fragen

Anrechenbare KapESt

312 €

178 €

−134 €

Bescheinigung Bank XY fehlte

Einspruch (90 %)

Edge-Cases & Vorsicht.

Drei Stellen, an denen die KI-Bescheidprüfung kippen kann — und wie wir das im Workflow auffangen, damit Mandanten-Vertrauen und Berufsrecht intakt bleiben:

Halluzination bei Zahlen-Extraktion. Bei einem unscharfen Scan oder zerschossener Spaltenstruktur kann die KI Zahlen in die falsche Position einsortieren — aus 3.612 € werden plötzlich 36.120 €, oder eine Position rutscht eine Zeile. Lösung: 2-Pass-Prüfung mit unterschiedlichen Prompts, Diff-Vergleich der beiden Pässe, bei Confidence unter 0.9 hartes PRÜFEN-Flag mit manueller Sichtung. Die Original-Textstelle wird in jeder Diff-Zeile zitiert — der StB sieht im Audit-Trail genau, woher die KI ihren Wert hatte.

OCR-Falsch-Lesung bei Kommastellen und Vorzeichen. Klassisches OCR-Fail: aus "1.211,00 €" wird "1211,00" ohne Tausenderpunkt, oder ein negatives Vorzeichen wird übersehen. Lösung: regelbasierter Post-Processor prüft jede extrahierte Zahl gegen ein Format-Schema (deutsches Zahlenformat) und macht einen Plausibilitäts-Check gegen den Erklärungs-Wert. Eine Werbungskosten-Position von 36.120 € bei einem Bruttogehalt von 50.000 € löst automatisch ein PRÜFEN-Flag aus, bevor die Empfehlung an den StB geht.

§203 StGB — Mandanten-Bescheid in Cloud-KI. Ein Steuerbescheid ist Mandantengeheimnis im Kernbereich des §203 StGB. Standard-ChatGPT-Setup (kein AVV, US-Region, Training-Default) ist hier ein Berufsrechts-Risiko. Lösung: AVV mit Anthropic (EU-Region Frankfurt, kein Training auf Mandantendaten — Default bei Anthropic-API), Pseudonymisierung der Mandanten-Identifikatoren (Mandant_A123 statt "Schmidt") vor LLM-Aufruf, Re-Identifikation erst im finalen Bericht. Bei höchst-sensitiven Mandaten (Prominenz, laufende Steuerstrafverfahren) optional lokales LLM via Ollama mit Llama 3.1 — kein externer Datenfluss.

Lest auch: BMF-Schreiben in 5 Minuten verstehen — Recherche-Workflow mit KI. Der Recherche-Zwilling zur Bescheidprüfung, wenn der Einspruch eine BFH-Streit-Frage trifft.

Lohnt sich das bei eurer Mandanten-Struktur?

45 Minuten reichen, um zu prüfen, welcher DATEV-Datenexport euer ESt-Programm erlaubt (XML-Schnittstelle DATEV Steuern professional ab Comfort-Paket) und ob ein Pilot-Mandant für 5–10 Bescheide den ROI bestätigt. Wir bauen heute live mit, kein Verkaufsgespräch.

Erstgespräch sichern →

45 Minuten · per Video oder Telefon

Bescheidprüfung per KI in 10 Minuten.

Warum die Bescheidprüfung liegen bleibt.

So sieht die Bescheidprüfung in der Praxis aus.

Was am Ende rauskommt.

Edge-Cases & Vorsicht.

Lohnt sich das bei eurer Mandanten-Struktur?