Walkthrough · Use-Case 3

Bescheidprüfung per KI in 10 Minuten.

Eure Sachbearbeiterin braucht 45 Minuten pro Steuerbescheid, um die festgesetzten Werte mit der eingereichten Erklärung abzugleichen — und übersieht trotzdem manchmal die kleinen Korrekturen des Finanzamts, die dem Mandanten 800 € kosten.

Kurzfassung

Mit Claude (200k Context) und DATEV-XML-Export prüft ihr einen Steuerbescheid in 10 Minuten statt 45 — inklusive Einspruchs-Empfehlung mit Begründung und Audit-Trail für die Mandantenakte.

Warum die Bescheidprüfung liegen bleibt.

Steuerbescheide kommen gestaffelt, oft mitten in der Heißphase rund um ESt-Stichtage und Jahresabschlüsse. Position für Position gegen die eingereichte Erklärung abgleichen, FA-Begründungen verstehen, prüfen ob Einspruch lohnt — das frisst pro Bescheid 30 bis 60 Minuten und liegt deshalb regelmäßig zwei, drei Wochen auf dem Stapel. Mandanten merken die Erstattung nicht, kleine Korrekturen werden übersehen, Einspruchsfristen wackeln.

Die Big-Four-Lösungen — Workiva, Thomson Reuters ONESOURCE, Deloitte-interne Tools — sind für 11–50-MA-Kanzleien Enterprise-Overkill: sechsstellige Jahreslizenzen, monatelange Einführung, Plattform-Lock-in. Das andere Extrem ist DIY mit Copy-Paste in ChatGPT — schnell, aber §203-StGB-Sprengstoff, weil der Bescheid Steuer-ID, Einkommen, Vermögen enthält. Der Mid-Market-Weg liegt dazwischen: ein schlanker Self-Build-Workflow mit Claude (Anthropic, EU-Region, AVV) und DATEV-XML-Schnittstelle. Das ist die Bescheidprüfung mit KI, die in eurer Kanzlei tatsächlich läuft.

5 Schritte

So sieht die Bescheidprüfung in der Praxis aus.

Bescheid-PDF einlesen — Festsetzungs-Tabelle extrahieren.

Steuerbescheid als PDF oder Scan ins System geben (Drag-and-Drop oder Kanzlei-Postfach-Trigger). Claude mit Vision liest die Festsetzungs-Tabelle Position für Position: zu versteuerndes Einkommen, Werbungskosten, Sonderausgaben, außergewöhnliche Belastungen, anrechenbare Steuern, festgesetzte ESt. Ergebnis ist ein strukturiertes JSON, das die Bescheid-Werte spaltengetreu abbildet — inklusive Begründungstext und Korrektur-Codes des Finanzamts.

DATEV-XML-Export der eingereichten Erklärung laden.

Aus DATEV Steuern professional (oder DATEV ESt-Programm) den XML-Export der eingereichten Erklärung ziehen — Standard-Schnittstelle, kein Custom-Integrations-Aufwand. Ein Python-/n8n-Parser bringt die Erklärungswerte in dasselbe Schema wie den Bescheid-Output aus Schritt 1. Damit liegen Soll-Wert (erklärt) und Ist-Wert (festgesetzt) nebeneinander in einer Struktur, die Claude vergleichen kann.

Soll-Ist-Vergleich mit Diff-Schwelle und Korrektur-Codes.

Claude vergleicht jede Position aus Erklärung und Bescheid, markiert Abweichungen ab 50 € (konfigurierbar) und ordnet jede Differenz einer FA-Begründung zu — gestrichene Werbungskosten, geänderter Sonderausgabenabzug, abweichende Anlage-V-Position. Bei unsicheren Stellen (schlechter Scan, ambivalente Begründungstexte) setzt die KI ein PRÜFEN-Flag und zitiert die Original-Textstelle aus dem Bescheid für die Audit-Trail-Spalte.

Strukturierter Bericht — Position, Differenz, Begründung.

Ergebnis ist eine Diff-Tabelle: pro Abweichung Position, erklärter Wert, festgesetzter Wert, Differenz in €, FA-Begründung als Zitat, Einspruchs-Erfolg geschätzt (hoch / mittel / niedrig) mit Begründung. Der Report wird als PDF in die Mandantenakte gelegt — kein Copy-Paste, kein Excel-Hin-und-Her. StB-Lesezeit pro Bescheid: 3 bis 5 Minuten statt 30 bis 60.

Entscheidungs-Vorlage — Einspruch, Anfrage oder Akte.

Drei Aktions-Empfehlungen: Einspruch lohnt sich (mit Entwurf des Einspruchsschreibens, vorbefüllt mit FA-Aktenzeichen, Bescheid-Datum, Streit-Positionen), Mandant fragen (mit Nachfrage-Mail-Entwurf zu fehlenden Belegen) oder Akte schließen, festgesetzt korrekt (kurze Notiz in die Akte). Der StB klickt die Empfehlung an, prüft den Entwurf, gibt frei — danach geht die Einspruchsfrist im Wiedervorlage-System nicht mehr verloren.

Beispiel-Output

Was am Ende rauskommt.

Konkretes Resultat aus einem ESt-Bescheid 2024, anonymisierter Mandant Schmidt — vier Abweichungen, eine klare Einspruchs-Empfehlung in unter zehn Minuten:

Diff-Report — Bescheid 2024, Mandant Schmidt

4 Abweichungen gefunden — geschätzte Erstattung bei Einspruch: ~450 €.

Position Erklärt Festgesetzt Differenz FA-Begründung Empfehlung
Werbungskosten 4.823 € 3.612 € −1.211 € Arbeitsmittel ohne Belege gestrichen Einspruch (70 %)
Sonderausgaben 876 € 876 € 0 € Akte schließen
Außergew. Belastungen 2.140 € 1.890 € −250 € Eigenanteil nicht abgezogen Mandant fragen
Anrechenbare KapESt 312 € 178 € −134 € Bescheinigung Bank XY fehlte Einspruch (90 %)

Empfehlung gesamt: Einspruch lohnt sich. Mandant Schmidt hat Arbeitsmittel-Belege im Belege-Ordner Q3/2024, KapESt-Bescheinigung Bank XY liegt vor. Einspruchs-Entwurf (Frist 12.06.2026) ist vorbefüllt und liegt im Postausgang zur StB-Freigabe.

Bearbeitungszeit Claude + StB-Review: 9 Minuten 14 Sekunden.

Wo es kompliziert wird

Edge-Cases & Vorsicht.

Drei Stellen, an denen die KI-Bescheidprüfung kippen kann — und wie wir das im Workflow auffangen, damit Mandanten-Vertrauen und Berufsrecht intakt bleiben:

  • Halluzination bei Zahlen-Extraktion. Bei einem unscharfen Scan oder zerschossener Spaltenstruktur kann die KI Zahlen in die falsche Position einsortieren — aus 3.612 € werden plötzlich 36.120 €, oder eine Position rutscht eine Zeile. Lösung: 2-Pass-Prüfung mit unterschiedlichen Prompts, Diff-Vergleich der beiden Pässe, bei Confidence unter 0.9 hartes PRÜFEN-Flag mit manueller Sichtung. Die Original-Textstelle wird in jeder Diff-Zeile zitiert — der StB sieht im Audit-Trail genau, woher die KI ihren Wert hatte.
  • OCR-Falsch-Lesung bei Kommastellen und Vorzeichen. Klassisches OCR-Fail: aus "1.211,00 €" wird "1211,00" ohne Tausenderpunkt, oder ein negatives Vorzeichen wird übersehen. Lösung: regelbasierter Post-Processor prüft jede extrahierte Zahl gegen ein Format-Schema (deutsches Zahlenformat) und macht einen Plausibilitäts-Check gegen den Erklärungs-Wert. Eine Werbungskosten-Position von 36.120 € bei einem Bruttogehalt von 50.000 € löst automatisch ein PRÜFEN-Flag aus, bevor die Empfehlung an den StB geht.
  • §203 StGB — Mandanten-Bescheid in Cloud-KI. Ein Steuerbescheid ist Mandantengeheimnis im Kernbereich des §203 StGB. Standard-ChatGPT-Setup (kein AVV, US-Region, Training-Default) ist hier ein Berufsrechts-Risiko. Lösung: AVV mit Anthropic (EU-Region Frankfurt, kein Training auf Mandantendaten — Default bei Anthropic-API), Pseudonymisierung der Mandanten-Identifikatoren (Mandant_A123 statt "Schmidt") vor LLM-Aufruf, Re-Identifikation erst im finalen Bericht. Bei höchst-sensitiven Mandaten (Prominenz, laufende Steuerstrafverfahren) optional lokales LLM via Ollama mit Llama 3.1 — kein externer Datenfluss.

Lest auch: BMF-Schreiben in 5 Minuten verstehen — Recherche-Workflow mit KI. Der Recherche-Zwilling zur Bescheidprüfung, wenn der Einspruch eine BFH-Streit-Frage trifft.

Nächster Schritt

Lohnt sich das bei eurer Mandanten-Struktur?

45 Minuten reichen, um zu prüfen, welcher DATEV-Datenexport euer ESt-Programm erlaubt (XML-Schnittstelle DATEV Steuern professional ab Comfort-Paket) und ob ein Pilot-Mandant für 5–10 Bescheide den ROI bestätigt. Wir bauen heute live mit, kein Verkaufsgespräch.

45-Min-Erstgespräch buchen
45 Minuten · per Video oder Telefon