Loading...

ZFA-Logo

Früherkennung, Screening – Zielsetzung und Gesetzmäßigkeiten, Teil II*

DOI: 10.3238/zfa.2010.0053

Heinz Harald Abholz, Christian Lerch

Heinz-Harald Abholz1, Christian Lerch1

Zusammenfassung: In dem Text werden die wesentlichen Punkte dargestellt und erklärt, die eine Früherkennung/Screening von herkömmlicher Diagnostik unterscheiden. Anhand von Ergebnissen aus Screening-Studien werden insbesondere die biostatistischen Hintergründe und ethischen Aspekte von Screenings erklärt. Schlussfolgerungen für die Gesundheitsversorgung werden gezogen. Der Text hat 2 Teile; Teil I ist in Heft 1/2010 erschienen.

Schlüsselworte: Früherkennung, Screening, Biostatistik, Ethik, Versorgungssystem

Beurteilungs-Fallen bei der Nutzenabschätzung

Screening-Untersuchungen selektieren aufgrund der Logik der Untersuchungen bestimmte Personengruppen und Krankheitscharakteristika innerhalb einer diagnostischen Entität, also dem, was die Zielpathologie oder die Zielerkrankung genannt wird. Solche Selektionen im Hintergrund lassen bei fehlender Kenntnisnahme den Nutzen von Früherkennung immer überschätzen.

Solche methodisch systematischen Verzerrungen – also z. B. durch Selektion – nennt man bias, Fallgruben bei der Beurteilung des Nutzens.

Lead-time bias

Hierunter versteht man das einfache Phänomen, dass mittels einer Früherkennung Krankheiten immer früher erkannt werden als über eine Symptomatik, die beim Patienten bemerkt wird – dies ist ja auch das Ziel von Früherkennung. Damit aber hat man es – einmal grundsätzlich betrachtet – vom Zeitpunkt der Entdeckung bis zum Tode oder dem Auftreten bestimmter Krankheitskomplikationen immer mit einer längeren Zeitspanne zu tun, als es bei Erkennung der Krankheit außerhalb eines Screenings, also z. B. bei Abklärung einer Symptomatik, der Fall wäre.

Daher verbietet es sich sowohl „Lebenserwartung nach Diagnosestellung“ als auch „Sterberaten“ in Kollektiven, die in einem Screening gewonnen wurden, mit denen außerhalb von Screenings entdeckten Patienten zu vergleichen.

In Abbildung 3 ist dies dargestellt: Im 1. und 2. Fall führt das Karzinom zum gleichen Zeitpunkt zum Tode. Scheinbar kommt es doch im 2. Fall zu einer Verlängerung der Überlebenszeit, da durch das Screening die Diagnose auf Zeitpunkt S vorverlegt wurde.

Immer wieder liest man auch heute noch, dass bei einem – meist selbst entwickelten – Früherkennungsprogramm die Sterblichkeit reduziert sei, weil die mittlere Überlebenszeit nach Diagnosestellung in der Früherkennung „deutlich länger als aus der Literatur bei nicht in einer Früherkennnung erkannten Patienten“ sei. Dies kann stimmen, kann aber eben auch nur aufgrund des lead-time bias zustande gekommen sein. Daher ist heute die allgemein anerkannte Forderung: Der Nutzen einer Früherkennungsmaßnahme kann nur in einer randomisierten Vergleichsstudie belegt werden – hier wird die Lebenserwartung oder Sterberate ab Randomisierung verglichen, ein lead-time bias somit vermieden.

Nur in Ausnahmefällen sind als Annäherung auch Kohortenstudien, selbst Registerstudien, für einen solchen Nutzennachweis heranziehbar.

Length-time bias

Screenings werden in regelmäßigen Abständen durchgeführt, da keinerlei Orientierung an einer Symptomatik erfolgen kann. Bei fast allen Erkrankungen, die für ein Screening geeignet sind, gibt es innerhalb einer Krankheitsentität immer unterschiedlich „aggressive“ und schnell verlaufende Krankheitsausprägungen.

In Abbildung 4 ist dies schematisch mit einem Modell vorgestellt: Es gibt eine sich schnell aus der asymptomatischen in die symptomatische Form entwickelnde Krankheitsausprägung (kurzer Pfeil, der die Zeit von Entstehungsbeginn bis zur Symptomatik symbolisiert). Daneben gibt es eine langsame Form (langer Pfeil).

Durch die in Intervallen durchgeführten Screenings werden überrepräsentiert viele sich langsam entwickelnde, weniger aggressive Formen identifiziert.

Diese beiden Selektionserklärungen können zu einer deutlichen Überschätzung von Screening-Nutzen führen, wenn dies nicht methodisch berücksichtigt wird. Randomisierte prospektive Studien lassen eine Fehlbeurteilung auf Basis dieser Selektionen umgehen.

Personenselektion

Zu einer Selektion der Personen, die an einem Screening teilnehmen, kommt es bei Früherkennungsuntersuchungen nicht selten: Diejenigen, die am meisten präventiv orientiert sind (meist Mittel- und Oberschicht), gehen eher zur Früherkennung als wenig präventiv orientierte Menschen (häufiger Angehörige der sozialen Unterschicht). Da sich aber die Krankheitsinzidenz in der Regel und für alle häufigen Erkrankungen umgekehrt zum sozialen Status verhält, kommt es zu einer Selektion besonders gesunder Personen – eher aus Mittel- und Oberschicht – unter den Screening-Teilnehmern.

In einer der ersten Screening-Studien auf Mammakarzinom konnte eine solche Selektion eindrücklich belegt werden [23]: Das Screening brachte mit den damalig geltenden Bedingungen gar nichts; es hatte nur die untersuchte Bevölkerung auseinanderdividiert: Die Rate später Formen des Mammakarzinoms blieb bei rund 11 % (Tabelle 3).

Nutzen von Screening-Untersuchungen

Aufgrund der bis zu diesem Punkt schon erwähnten Selektionsfaktoren sowie der Tatsache, dass nicht aus jeder frühen Veränderung eine klinische Erkrankung resultiert, ist eine Nutzenbestimmung von Screenings nur mit methodisch sehr zuverlässigen, diese Einflussfaktoren berücksichtigenden Studien möglich. Dies sind randomisierte kontrollierte prospektive Studien.

Hinzu kommt, dass ein Screening nicht allein an seinen Entdeckungsergebnissen – also dem diagnostischen Teil – gemessen werden darf, sondern möglichst an den therapeutischen Erfolgen, die aus früherer Entdeckung resultieren sollen. Dies ist unter anderem auch damit begründet, dass Früherkennung nur dort betrieben werden darf, wo auch therapeutische Konsequenzen mit Nutzen bestehen. Randomisierte, kontrollierte Studien zum Nutzen von Screenings haben also immer am Outcome verminderter Krankheit oder Tod – im Vergleich zu einer randomisierten Gruppe ohne Screening – die Nutzenbestimmung vorzunehmen.

Gründe für die Minderung eines Screening-Nutzens

Es gibt mehrere, methodisch unterschiedlich begründete Erklärungen, warum ein Screening-Programm nie das leistet, was a) nach Studiendaten zu erwarten ist und b) bei alleiniger Betrachtung der Zahl früh erkannter Fälle nahegelegt erscheint. Die Gründe sind im Einzelnen:

a)  Bei der Durchführung von Früherkennung außerhalb von Studienbedingungen ist sowohl der diagnostische Ablauf als auch das, was an Abklärungsdiagnostik (Assessment) gemacht wird, sowie schließlich auch das angeschlossene therapeutische Vorgehen weniger ideal organisiert als es in der Regel in Studien der Fall ist. Daher geht man immer davon aus, dass der Nutzen, der in Studien belegt ist (efficacy), in der Versorgungswirklichkeit nennenswert vermindert sein wird (effectiveness).
b)  Nicht die entdeckten Fälle stehen bei einem Früherkennungsprogramm im Fokus, sondern die aufgrund von Früherkennung besser behandelbaren Fälle und – wichtiger noch – die darüber verminderte Morbidität und Mortalität. Diese aber ist nur zum Teil überhaupt durch das Screening beeinflussbar.
c)  Denn Morbidität und Mortalität werden – neben dem Screening-Einfluss – noch durch die folgenden Dinge beeinflusst:

Konkurrierende Todesursachen

Screenings werden oft in älteren Bevölkerungsgruppen durchgeführt, da die Krankheitsprävalenz dort in der Regel höher liegt – und damit auch alle oben genannten biostatistischen Probleme zur Prädiktion von Befunden geringer werden.

Diese Altersgruppen haben außer der Zielerkrankung eines Screenings noch verschiedene andere Erkrankungen – an Letzteren versterben diese Altersgruppen häufig eher und wahrscheinlicher als an der Zielerkrankung des Screenings. Man spricht hier von konkurrierenden Todesursachen. Damit ist es nennenswert häufig so, dass bei einem bestimmten Teil derjenigen, die von einem Screening einen Nutzen hätten, es nicht zur Realisierung des Nutzens kommt, weil über konkurrierende Todesursachen – z. B. Unfall, Herzinfarkt etc. – Menschen vor Erreichen des Nutzens an diesen anderen Erkrankungen versterben.

Versterben an Abklärungsdiagnostik oder Therapie

Screenings führen zu abklärungsbedürftigen Befunden. Dies sind zudem ganz überwiegend Befunde, die sich über eine Abklärungsdiagnostik dann als falsch-positive Befunde herausstellen. Abklärungsdiagnostik hat aber ihre Nebenwirkungen; dies gilt insbesondere dann, wenn sie ab einem Punkt zu eingreifender Abklärungsdiagnostik wird. Selbst wenn bedrohliche Nebenwirkungen nur im niedrigen Prozent- oder Promillebereich liegen, so werden sie in der Absolutzahl erheblich und zudem auf ganz überwiegend eigentlich Gesunde konzentriert: Denn die erdrückende Mehrzahl derjenigen, die einen positiven Befund haben, sind ja falsch-positiv (=geringe ppV (positive predictive value) von Screening-Untersuchungen). Zudem muss man die als eher gering anzusehende Zahl von Geschädigten auch der eher als gering anzusehenden Absolutzahl derjenigen, die vom Screening profitieren, gegenüberstellen.

Ebenfalls gibt es aufgrund therapeutischer Interventionen auch schwere Nebenwirkungen – bis hin zum Tod –, die nur durch das Entdecken eines Tumors, einer Hyperlipidämie oder einer anderen Erkrankung (Hüftdysplasie, Polypen etc.) zustande kommen. Dies gilt z. B. auch für den Tod durch Unterzuckerung bei früh entdeckter und dann „scharf eingestellter“ Zuckerkrankheit.

So ist der wichtigste Grund gegen die Einführung eines Prostatakarzinom-Screenings mittels eines Laborwertes (PSA-Screening) die Tatsache, dass darüber sehr viele sehr alte Menschen entdeckt werden würden, die aufgrund der von ihnen eingebrachten Multimorbidität und Fragilität des Alters eine relativ hohe perioperative Mortalität haben; diese überträfe die „verhinderten“ Todesfälle auf Basis eines PSA-Screenings [24, 25].

Vorformen von Krankheit

Die über das Screening entdeckten Vorformen von Krankheit entwickeln sich nicht alle zur Krankheit. Daher werden immer auch viele Vorformen entdeckt, die keiner Therapie bedürften. Es ist fast immer nicht möglich, zwischen diesen unterschiedlichen Gruppen zu differenzieren. Also müssen alle behandelt werden – obwohl man weiß, dass nur ein Teil der Behandelten davon profitieren wird. Ein Beispiel hierfür sind die beim Mammographie-Screening in etwa 20 % zu findenden ductalen Carcinoma in situ. Man weiß, ohne dies für den Einzelnen bestimmen zu können, dass sie sich zu 70 bis 80 % auch wieder zurückbilden würden, zumindest aber zu Lebzeiten der Frauen kein Problem sein werden [3].

Falsch-positive Befunde

Auch und insbesondere bei Früherkennung gibt es falsch-positive Befunde. Dies gilt nicht nur für die Screening-Untersuchung selbst, sondern auch für die Abklärungsdiagnostik bis hin zur Gewebeprobe. Dabei muss man sich in Erinnerung bringen, dass es bei Früherkennung ja im Wesentlichen um das Entdecken sehr früher Formen von Krankheit – also Krankheit oder Pathologie in einem Grenzbereich – geht. Hier ist es daher nicht ungewöhnlich, auch zu falsch-positiver oder falsch-negativer Befundung zu kommen [26]. Dies kann dann aufgrund regelmäßiger Teilnahme schnell zu einer Wahrscheinlichkeit von 30 %, mindestens einmal einen falsch-positiven Befund zu bekommen, anwachsen [27].

Zu späte Phasen von Krankheit

In einem Screening werden häufig, manchmal gar überwiegend, auch Entwicklungsstufen von Krankheiten gefunden, die in der gefundenen Phase nicht besser zu therapieren sind, als wenn sie später entdeckt worden wären. Bei der Mehrzahl der Früherkennungsuntersuchungen auf frühe Formen eines Karzinoms ist dies sogar mehrheitlich der Fall. Diese in der Früherkennung entdeckten Fälle werden damit nicht positiv in die Nutzen-Bilanz eines Screenings eingehen. Beim Mammakarzinom steht 1 besser therapierbarer Tumor rund 30 „zu späten“ Entdeckungen gegenüber [28].

In Abbildung 5 ist ein Überblick über alle aufgeführten Gründe gegeben, die erklären, dass in einem Screening entdeckte Fälle nicht mit der Zahl derjenigen Personen verwechselt werden darf, die einen Nutzen von einem Screening haben.

Die Ausdrucksform eines Nutzens von Screenings

Der Nutzen von Screenings kann in Prozenten oder in absoluten Zahlen, jeweils bezogen auf die Zahl der Untersuchten in einem Screening, ausgedrückt werden. Die Bezugszahl ist in jedem Fall die Zahl der Screening-Teilnehmer oder, wenn man es als bevölkerungsmedizinische Maßnahme ansieht, auch die Zahl derjenigen, denen ein Screening angeboten wurde.

Bezieht man es auf die Bevölkerung, also auf die, denen es angeboten wurde, dann umgeht man eine mögliche Verzerrung im Nutzenergebnis durch eine Personenselektion (s. o.).

Denn mit derartigen Nutzen-Aussagen soll ja einerseits geprüft werden, in welchem Ausmaß Screening-Teilnehmer einen Nutzen durch ihre Teilnahme haben, bzw. inwiefern eine Gesellschaft, die ein Screening-Programm finanziert, von einem solchen Screening einen Nutzen hat.

Der prozentuale Nutzen von bekannten und eingeführten Screening-Programmen liegt meistens zwischen 20 und 30 %iger Risikosenkung an der jeweiligen Zielerkrankung des Screenings zu sterben oder zu erkranken.

Da es sich jedoch bei den in Screenings gefundenen Krankheitszuständen, die ja immer bei asymptomatischen Personen erhoben wurden, in der Regel um niedrig-prävalente Krankheits-Zustände handelt, gibt eine prozentuale Angabe meist keine gute Auskunft über den persönlichen potenziellen „Gewinn“ bei Teilnahme an einer solchen Untersuchung. In der senkrechten Spalte 4 der Tab. 4 sind Relative Risiko-Reduktionen (zwischen 20 und 50 %) angegeben. Sie geben an, um wie viel niedriger ein Risiko ist, lassen aber offen, wie hoch es primär war. Dies aber ist entscheidend: Denn 30 % von z. B. einem Risiko von 3 pro 10 Personen in 10 Jahren würde dann eine Risikoreduktion von 1 pro 10 in 10 Jahren bedeuten. Wohingegen 30 % von einem Risiko von 3/1000 Personen in 10 Jahren nur noch eine Reduktion von 1/1000 bedeutet. Dieser Unterschied aber wird in Relativen Risiko-Reduktionen nicht deutlich.

Die sogenannte absolute Risikoreduktion ist aber hilfreicher. Darunter versteht man die Differenz der Sterbens- oder Erkrankungsraten zwischen denjenigen, denen eine Teilnehme am Screeningprogramm angeboten wurde, und denjenigen, denen diese Teilnahme nicht angeboten wurde (Spalte 5 in Tab. 4).

In Tabelle 4 ist dies für einige Früherkennungsprogramme mit Nutzen bzw. anzunehmendem Nutzen illustriert.

Dies bedeutet – anders ausgedrückt –, dass z. B. 7 von 10000 Frauen einen Nutzen bei 10 Jahren Screening auf Mammakarzinom haben; oder auch so ausgedrückt: 1 auf 1400 Frauen in 10 Jahren.

Nutzen in Bezug auf Gesamtmortalität

Den Nutzen einer Früherkennung kann man auch auf die Gesamt-Morbidität oder Gesamt-Mortalität beziehen. Dabei bezeichnet „Gesamt“ alle Erkrankungen oder alle Todesursachen zusammengefasst. Bei dieser Betrachtung gibt es kein einziges Früherkennungsprogramm, für das ein Nutzennachweis besteht. Dies erklärt sich allein schon deswegen leicht, weil ja eine einzelne Zielerkrankung nur einen sehr kleinen Prozentsatz der auftretenden gesamten Morbidität und Mortalität – nicht eben nur die der Zielerkrankung – abdeckt.

Allerdings ist zu sagen, dass eine derartige Betrachtung eigentlich auch notwendig macht, den Erfolg aller Früherkennungsprogramme zusammen aufzunehmen, weil dies bei einem solchen Vergleich adäquater wäre. Dann könnte es sein, dass sich sehr kleine Einzel-Nutzen zusammengebracht dann auch in der Gesamtmortalität abbilden lassen.

Schaden von Screenings

Spricht man vom Schaden eines Screenings, so ist damit all der Schaden gemeint, der durch den diagnostischen Prozess des Screenings, die Abklärungsdiagnostik, die Behandlung aufgrund neu festgestellter Krankheit, Vorstufe von Krankheit bzw. Risikofaktor zustande kommt.

Der Schaden entsteht dabei ganz überwiegend bei den eigentlich Gesunden. Denn die Mehrzahl entdeckter und in der Abklärungsdiagnostik untersuchter und behandelter Personen ist ja gesund und wird nur weiteren Maßnahmen aufgrund des Überwiegens der falsch-positiven Befunde zugeführt. Damit entsteht ein besonderes ethisches Problem: Um einer Minderzahl entscheidend zu helfen, muss einer Mehrzahl geringgradiger Schaden – oder als geringgradig angesehener Schaden – zugemutet werden.

Darüber hinaus bezieht sich der Schaden nennenswert auch auf diejenigen, bei denen im Screening krankhafte Befunde entdeckt wurden, dies aber in einem Stadium geschah, in dem aller Wahrscheinlichkeit nach auch nicht mit größerem Erfolg als bei späterer Entdeckung therapiert werden kann.

Und schließlich bezieht sich der Ausdruck Schaden auch auf diejenigen, bei denen Vorformen gefunden wurden, die sich allein zurückgebildet hätten, man dies aber nicht zu entscheiden in der Lage ist, also therapiert und über eine Krankheit informiert.

In Tabelle 5 sind in Zahlen die Schäden am Beispiel der größten Studie zur Früherkennung auf Mammakarzinom (aus Schweden) dargestellt.

Es gibt zudem noch zahlreiche weitere, teilweise aber nicht in Zahlen zu fassende potenzielle Schädigungen, einschließlich der Auswirkung von Screenings auf das Lebensgefühl (Tabelle 6). So konnte der Körper in einer Welt ohne Früherkennungsprogramme als „gesund“ erfahren werden, wenn es keine Symptome gab. Jetzt aber kann man sich der Gesundheit nicht mehr sicher sein, nur durch Kontrollen von außen ist diese Sicherheit noch herstellbar [29].

Organisationsformen von Früherkennung

Früherkennung kann unterschiedlich konzeptioniert erfolgen. Sie kann „systematisch“ und sie kann „unsystematisch“ als „opportunistisches Screening“ erfolgen.

Systematisch meint hier, dass eine Optimierung eines Programms – meist auf Basis von Studienergebnissen zur Nutzenbestimmung eines Screenings – in allen seinen Teilen und im Ablauf der Befundung erfolgt. Dazu sind die folgenden Dimensionen systematisierend vorgegeben:

1.    die Personengruppe, der ein Screening angeboten wird (Alter, Geschlecht, gegebenenfalls weitere Charakteristika, wie z. B. „Raucher“),
2.    die Häufigkeit (Intervalle) der Untersuchung,
3.    die Details des Untersuchungsprogramms (Befundungskriterien, Doppelbefundung etc.),
4.    die Qualitätssicherung des Programms,
5.    die vorgegebene Abklärungsdiagnostik,
6.    die Behandlung,
7.    die zur Untersuchung berechtigten Ärzte.

All die hier aufgeführten Dinge (außer Punkt 6) sind in sogenannten systematischen Screenings vorgegeben. Dies wird deswegen so gehandhabt, weil man sich bei Einführung eines Screening-Programms auf Studien mit Nutzennachweis für dieses Programm bezogen hat.

Da Screenings in der Regel in den Absolutzahlen einen geringen Nutzen – bei auch nennenswertem Schaden – haben und zudem pro gerettetem Leben sehr teuer sind, kommt es bei der Einführung von Programmen immer darauf an, ein solches Optimum, das ja aus Studien stammt, zu halten. Denn jede Veränderung kann dazu führen, dass Nutzen zu Schaden sich ungünstig zueinander entwickeln und die Kosten immens ansteigen.

Systematische Screenings sind damit optimierte Programme in Bezug auf einen bevölkerungsweiten Nutzen.

Dies muss aber nicht heißen, dass der individuelle Nutzen von Screening-Teilnehmern hier optimiert ist. Zum Beispiel lässt sich gut vorstellen, dass durch Einführung zusätzlicher Früherkennungsanteile oder einer aufwendigeren Abklärungsdiagnostik als vorgegeben für den Einzelnen – in dem einen oder anderen Fall – auch ein zusätzlicher Nutzen des Programms möglich ist.

Gleiches ist auch vorstellbar bei einer Erweiterung der Definition dessen, was schon als krankhaft angesehen wird. So kann man z. B. den Grenzwert für die Definition einer gestörten Glukosetoleranz niedriger als üblich ansetzen. Oder man kann bei der Befundung von Mammographien festlegen, dass immer, wenn nur einer der beiden Befunder ein Bild mit „krankhaft“ bezeichnet, dies auch als krankhaft angesehen wird; momentan muss man ja dann einen dritten Befunder entscheiden lassen.

Andererseits muss der Einzelne von solchen Erweiterungen oder Umdefinitonen des Ablaufs eines Screenings auch nicht unbedingt einen Nutzen haben, denn man muss sich vor Augen halten: Wenn zum Beispiel – was meist durch derartige Erweiterung geschieht – die Sensitivität eines Screenings erhöht wird, dann wird damit auch die Zahl der Falsch-Positiven, als Kehrwert einer sich senkenden Spezifität, erhöht. Es wird darüber also auch mehr Menschen eingreifende Diagnostik und möglicherweise nicht wirklich indizierte Therapie zugemutet. Und es werden möglicherweise darüber auch mehr Menschen als „krank“ erklärt, die dann mehrheitlich nicht von einer dazu angebotenen Therapie profitieren, aber sich als Kranke erleben müssen und Nebenwirkungen erleiden. Insofern gibt es starke Argumente für das Festhalten an Screening-Programmen und deren vorgegebene Definitionen zu Abläufen und Definitionen von Pathologien.

Daraus wird aber auch deutlich, dass ein Screening-Programm primär immer ein bevölkerungsbezogenes Programm darstellt, hierauf – also auf Gruppen – ist es primär optimiert.

Wird von derartigen Vorgaben abgewichen, dann spricht man von unsystematischen Screenings, nämlich solchen, die nach Plausibilität und Studienlage gemischt, ein eigenes Programm ablaufen lassen, oder gar von Person zu Person unterschiedlich Früherkennung durchführen lassen.

Macht man die Breite und Intensität einer Früherkennung abhängig von einer Person, so geschieht dies meist mit der Rechtfertigung, dass man die Risikostruktur dieser Person in Bezug auf die Zielerkrankungen der Früherkennung mit einbeziehe. Damit sei man treffsicherer. Dass dies über das Ausmaß hinausgeht, wie es auch in systematischen Screenings erreicht wird, ist nie nachgewiesen worden, wenn auch nicht ganz unplausibel.

Der Grundgedanke, ein bekanntes Ausgangsrisiko mit zu berücksichtigen, findet sich auch in systematischen Screenings, die ja deswegen Vorgabe zu Alter und Geschlecht oder auch Risikostatus (nur bei Rauchern etc.) machen.

Bei einer personenbezogenen Entscheidung, wann und in welchem Ausmaß eine Früherkennung durchgeführt werden soll, spricht man von opportunistischem Screening. In Deutschland wird – mit Ausnahme der Mammographie – faktisch überwiegend ein opportunistisches Screening betrieben: Der Arzt und/oder der Patient sind Initiator für eine Früherkennungsuntersuchung.

Dabei bedient man sich einmal der in der gesetzlichen Krankenversicherung eingeführten Screening-Programme, führt diese aber nicht immer „programm-treu“ durch. Oder es werden „private Programme“ einzelner Ärzte – zunehmend auch als „individuelle Gesundheitsleistung“ (IGeL) – angeboten bzw. es wird das GKV-Programm auch ohne IGeL erweitert und modifiziert [32].

Damit wird in Deutschland möglicherweise das Optimum von Screening-Programmen erheblich verändert – ohne dass bekannt ist, mit welchen Auswirkungen dies geschieht. Und es wird über „Privatprogramme“ oder IGeL in Bereichen Früherkennung betrieben, die keinerlei Nutzen-Nachweis haben. Teilweise aber wird wahrscheinlich sogar Schaden herbeigeführt, wie dies z. B. bei dem Screening auf Ovarialkarzinom – beurteilt nach Studienlage – der Fall zu sein scheint [16].

Screening-Programme, also systematische Screenings, sind immer als ein optimierter Ablauf zwischen Aufwand und Erfolg in Bezug auf den Nutzen in einer Bevölkerung kalkuliert. Sie basieren – zumindest idealerweise – auf Studien hoher methodischer Qualität, in denen ein Nutzen dieses Screenings nachgewiesen wurde.

Dies aber beinhaltet, dass jede Änderung an einem Programm auch etwas am Verhältnis von Aufwand zu Nutzen verändert und dass ein Programm mit Nutzen durch leichte Veränderungen (Intervalle, Altersgruppe, Art der Befundung etc.) seinen Nutzen erhöhen, aber auch verlieren kann. Es lässt sich in der Regel nicht entscheiden, was eintritt, weil hierzu keine Studiendaten vorliegen.

Gleiches gilt für Screening-„Programme“, die man sich nach Plausibilität etc. selbst schafft und anwendet. Es gibt keinen Nutzenbeleg für derartige Maßnahmen und es kann sogar so sein, dass – würde man dies nachträglich in Studien untersuchen – mehr Schaden als Nutzen mit geschaffenen Früherkennungsmaßnahmen eintritt. Dies ist eines der zentralen inhaltlichen und ethischen Probleme von sogenannten „individuellen Gesundheitsleistungen“ (IGeL). Daher wird in anderen Ländern über die Notwendigkeit der Lizensierung von Screenings nachgedacht [33].

Evidenzbasierung im deutschen Früherkennungsprogramm der GKV

In Tabelle 7 ist ein Überblick über das deutsche Früherkennungsprogramm für Erwachsene mit Angabe zum Grad der Absicherung durch methodisch gute Studien gegeben.

Wie man sieht, ist nur ein sehr kleiner Teil dessen, was in der GKV stattfindet, beziehungsweise häufig außerhalb dieser bei uns angeboten wird, mit Evidenz in seinem Nutzen belegt oder im Nutzen eher wahrscheinlich. Dabei beziehen sich die hier getroffenen Aussagen zum Nutzen immer auf systematische Screenings aus Programmen oder Studien.

Für die Situation in Deutschland, in der selbst die Programme – mit Ausnahme der Mammographie und des Koloskopie-Screenings – faktisch als unsystematische Screenings betrieben werden, ist eher davon auszugehen, dass der Nutzen niedriger liegt, als in Studien gefunden.

Individualmedizinische oder bevölkerungsbezogene Maßnahme

Es lässt sich die Position einnehmen, dass alle Früherkennungen, die mit Nutzenbeleg im Hintergrund durchgeführt werden, immer sowohl einen individualmedizinischen als auch einen bevölkerungsbezogenen Nutzen haben müssen. Wenn man aber einmal sieht, wie gering der Nutzen bei einem sehr großen Teil der Früherkennungsuntersuchungen ist, bezieht man ihn auf die Chance des Einzelnen, hiervon bei Teilnahme zu profitieren, dann kann man auch zu der gegenteiligen Aussage kommen: Ein Großteil der Früherkennungsprogramme hat keinen nachvollziehbaren individuellen Nutzen. Denn wenn zum Beispiel eine Person von 2000 über 10 Jahre an einer Früherkennung teilnehmen muss, um einen Nutzen zu erreichen, dann ist dies bei Entscheidung für oder gegen Teilnahme nicht mehr nachvollziehbar, d. h. erlebbar. Alltagsrisiken sind oft deutlich höher als die Risikoverminderung in derartigen Programmen.

Und es gibt noch etwas anderes, was dafür spricht, dass wir implizit auf den bevölkerungsmedizinischen, in der Regel nicht auf den individualmedizinischen Nutzen schauen: In Früherkennungsprogrammen mit systematischem Charakter gilt die Orientierung, an einem auf Studien-Basis vorgegebenem Optimum – selbst bei der Befundung – zu entscheiden. Am Beispiel festgemacht: Wenn bei einer Mammographie-Befundung, die im Rahmen des Screenings durchgeführt wird, einer der Befunder für einen „auffälligen“ Befund, die zwei anderen hingegen gegen eine Auffälligkeit sprechen, dann wird der Befund als unauffällig erklärt. Dies geschieht, obwohl man weiß, dass Befunde unter dieser Konstellation selten – aber eben vorhanden – doch positiv, also krankhaft sein können [18].

Würde ein solcher Befund bei einer individualmedizinischen Diagnostik mittels Mammographie erhoben, dann würde der behandelnde Arzt in der Regel bei auch nur einem geäußerten Verdacht auf weitere Abklärung drängen.

Teilnehmer von Screening-Programmen erhalten daher auch nur die Mitteilung, dass bei der Untersuchung im Programm nichts Krankhaftes gefunden wurde und damit die Wahrscheinlichkeit von Gesundheit in Bezug auf die Zielerkrankung hoch, aber Krankheit auch nicht ausgeschlossen sei.

Bei der Früherkennung drängt man also nicht auf eine sichere Abklärung, weil man mit einem solchen Vergehen den Aufwand – ausgedrückt in Kosten, aber auch in Folgediagnostik für sehr viele gesunde Personen – deutlich in die Höhe treiben würde, ohne dabei erheblichen zusätzlichen Nutzen über die wenigen, auf diese Weise zusätzlich entdeckten Fälle zu erreichen. Eine solche Überlegung aber ist auf Gruppen orientiert, nicht auf die einzelne Person oder gar deren Wunsch, etwas weiter abklären zu lassen, oder es an dieser Stelle zu unterbrechen.

Und es gibt noch ein drittes Argument, was die Bevölkerungsbezogenheit von Screenings deutlich macht: Alle Screening-Programme, die ja mit relativ hohen laufenden Kosten betrieben werden, gelten in den Ländern, in denen sie durchgeführt werden, als angekündigt für eine Beendigung des Programms, wenn zu wenige Personen teilnehmen – meist wird hier die Marge bei zwei Dritteln der Angesprochenen gesetzt.

Wir haben es also bei vielen Früherkennungsprogrammen mit bevölkerungsbezogenen Programmen zu tun, die auch nur auf dieser Ebene zu beurteilen sind!

Aber es gibt auch Früherkennungsprogramme, bei denen die Relation von Aufwand zu Nutzen deutlich günstiger ist. Immer wenn eine gesuchte Erkrankung oder Vorform von Erkrankung bzw. ein Risikofaktor häufig sind, dann wird dies oft erreicht. Man kann eine solche Häufung, also eine Prävalenzerhöhung in der untersuchten Gruppe, auch dadurch erreichen, dass man ein sogenanntes Risiko-Screening durchführt. Im Beispiel ausgedrückt: Der Nutzen für einen Einzelnen ist im Screening mittels Dickdarmspiegelung oder mittels Mammographie jeweils nicht sehr hoch, also eher bevölkerungsbezogen. Führt man die gleichen Screening-Untersuchungen jedoch bei familiär belasteten Personen durch, dann hat ein weitaus höherer Prozentsatz der Teilnehmer einen Nutzen zu erwarten – etwa um den Faktor 10 höher.

Diese Unterscheidung eines Nutzens für die Population und eines für den Einzelnen ist immens wichtig – will man Patienten- oder Bürgerpartizipation an der Entscheidungsfindung ernst nehmen. Damit ist eine wahrhaftige Aufklärung aller zum Screening aufgerufener Personen aus einer solchen Position zu fordern [8, 34].

Es gibt aber hierbei ein Problem: Sieht man den bevölkerungsbezogenen Nutzen im Vordergrund, so muss man nach einer hohen Beteiligung streben, also in der Werbung für Früherkennungsmaßnahmen zumindest mitschwingen lassen, dass es um den Einzelnen gehe. Klärt man aber die potenziellen Teilnehmer eines Screenings über die Größenordnung des Nutzens auf, dann gefährdet man hohe Beteiligung. Denn man kann unterstellen, dass zahlreiche Menschen, die über die „wahre Nutzengröße“ informiert werden, ein Screening dann nicht mehr für sich als relevant ansehen.

Eine Gesellschaft, die Screenings anbietet, muss zukünftig hierzu eine Position beziehen – und wenn es nur die ist, das Problem transparent zu machen [33].

Zusammenfassung und Schlussfolgerungen

1.    Früherkennung ist nicht als „Diagnostik bei Vielen“ definiert. Vielmehr hat sie ihre eigenen biologischen und biostatistischen Besonderheiten, die bei jeder Ein- und Durchführung von Früherkennung und Früherkennungsprogrammen beachtet werden müssen.
2.    Früherkennung hat nachweisbaren Nutzen, aber auch Schaden. Beides ist anders als bei einer Diagnostik beim symptomatischen Patienten sowohl unterschiedlich definiert als auch anders zu berechnen.
3.    Früherkennung hat in Bezug auf den Nutzen primär einen bevölkerungsbezogenen Nutzen. Die gesamte Durchführungslogik von Früherkennungsprogrammen ist durch den bevölkerungsbezogenen Ansatz geprägt.
4.    Der individualmedizinische Nutzen ist – bis auf Ausnahmen bei Risiko-Screenings – minimal, wenn er als absolute Risikoreduktion bei Teilnahme an einem Screening ausgedrückt wird.
5.    Potenzielle Teilnehmer von Früherkennung müssen über ihren individuellen potenziellen Nutzen und Schaden aufgeklärt werden, bevor sie einer Untersuchung zustimmen.
6.    Ein Screening-Programm stellt ein auf Studienbasis optimiertes, systematisches Programm in Bezug auf das Verhältnis Nutzen zu Schaden dar. Jegliche Veränderung an dem operationalisierten Programm kann zu deutlichen Verschiebungen im Verhältnis von Nutzen zu Schaden führen. Diese Verschiebungen sind aber ohne erneute Studien nicht bestimmbar.
7.    In Deutschland werden aber solche Veränderungen an vorhandenen systematischen Programmen bei deren Realisierung nicht selten und dann auch teilweise individualisiert durchgeführt. Dies stellt einen Qualitätsmangel oder gar eine Gefährdung der Versorgten dar.
8.    Zudem werden „private Programme“ und/oder IGe-Leistungen angeboten, die keinerlei Studien-Basierung haben und damit auch Schaden anrichten können. Schließlich werden auch in Arztpraxen Früherkennungen angeboten, die nach Studienlage und in Bezug auf eine versorgte Gruppe von Menschen mehr Schaden als Nutzen haben werden.

Interessenkonflikte: keine angegeben.

Korrespondenzadresse:

Prof. Dr. med. Heinz-Harald Abholz
Abt. Allgemeinmedizin Heinrich-Heine-Universität
Universitätsklinikum Düsseldorf
Moorenstraße 5
40225 Düsseldorf
Tel.: 0211 / 8 11 77 71
Fax: 0211 / 8 11 87 55
E-Mail: abholz@med.uni-duesseldorf.de

Literatur zu Teil I und II

1. Holland WW, Stewart S. Screening in disease prevention: What works? Abingdon: Radcliffe Publishing Ltd., 2005

2. Welch HG. Should I be tested for cancer? California: University of California Press, 2004

3. Wärnberg F, Bergh J, Holmberg L. Prognosis of woman with a carcinoma in situ of the breast: A population based study in Sweden. Cancer Epid Biomerk Prev 1999; 8: 769–74

4. Schiffman M, Castle PE, Jeronimo J, Rodriguez AC, Wacholder S. Human papillomavirus and cervical cancer. Lancet 2007; 370: 890–907

5. Schilling FH, Spix C Berthold F et al. Neuroblastoma screening at one year of age. N Engl J Med 2002; 346: 1047–1053

6. Woods WG, Gao RN, Shuster JJ et al. Screening of infants and mortality due to neuroblastoma. N Engl J Med 2002; 346: 1041–1046

7. Wilson JMG, Jungner YG. Principles and practice of screening for disease. Genf: WHO, Publ. Hlth. Papers No 34, 1968

8. Abholz H-H. Ethische Probleme bei der Früherkennung. Z Allg Med 2001; 77: 398–402

9. Nuffield Council of Bioethics. Lord Krebs (Chairman). Public Health issues. London: Nuffield Council, 2007

10. Abholz H-H. Der Nutzen von Früherkennungsuntersuchungen – Am Beispiel des Lungen-, Brustdrüsen- und Gebärmutterhalskarzinoms sowie polyvalenter Screenings. Berlin: Argument-Sonderband; AS 17, 1977

11. Abholz H-H. Was ist Früherkennung, was kann sie leisten? Am Beispiel der Karzinom-Früherkennung. Hamburg: Argument Sonderband; AS 178, 1988

12. Black C, Bagust A, Boland A et al. The clinical effectiveness and cost effectiveness of computed tomography screening for lung cancer: systematic reviews. Southhampton: Health Technology Assessment, 2006, Volume 10, number 3

13. Hollander MH, Paarlberg KM, Huisjes AJM. Gestational diabetes: a review of the current literature and guidelines. Obstet Gynec Survey 2007; 65, No 2: 125–136

14. Gonzales de Berrington A. Computer tomography and screening: safe and effective? J Med Screen 2007; 14: 105–106

15. Salman RAS, Whiteley WN, Warlow C. Screening using whole-body magnetic resonance imaging scanning: who wants an incidentaloma? J Med Screen 2007; 14: 2–4

16. Nelson HD, Westhoff C, Piepert J, Berg A. Screening for ovarian cancer: Brief evidence update. USPSTF, Guide to Clinical Preventive Services, 3rd ed., 2004. www.preventiveservices.ahrg.gov

17. Cuckle HS, Wald N. Principles of screening: Tests using single markers. In: Antenatal and neonatal screening, second edition. Oxford: Oxford University Press, 2000: 1–22

18. Brown J, Bryan S, Warren R. Mammography screening: an incremental cost effectiveness analysis of double versus single reading of mammograms. BMJ 1996; 312: 809–812

19. Boys C, Cunningham C, McKenna D, Robertson P, Weeks DJ, Wishart J. Prenatal screening for Down’s syndrome: editorial responsibilities. Lancet 2008; 372: 1789–1791

20. Hakama M, Auvinen A, Day NE, Miller B. Sensitivity in cancer screening. J Med Screen 2007; 14: 174–7

21. DECODE study group: Glucose tolerance and mortality: Comparison of WHO and American Diabetes Association diagnostic criteria. Lancet 1999; 354: 617–21

22. Wong TY, Liew G, Tapp RJ et al. Relation between fasting glucose and retinopathy for diagnosis of diabetes: three population based cross-sectional studies. Lancet 2008; 371: 736–43

23. Pederson E. Presymptomatic diagnosis: cervix uteri and breast. J Roy Soc Med 1966; 59: 1189–98

24. Stamey TA, Caldwell M, McNeal JE et al. The prostate specific antigen era in the United States is over for prostate cancer: what happened in the last 20 years? J Urol 2004; 172: 1297–1301

25. Barry MJ. Screening for Prostate Cancer among Men 75 Years of Age or Older. N Engl J Med 2008; 359: 2515–2516

26. Baker SG, Kramer BS. Estimating the cumulative risk of a false-positive under a regimen involving various types of a cancer screening tests. J Med Screen 2008; 15: 18–22

27. Njor SH, Olsen AH, Schwartz W, Vejborg I, Lynge E. Predicting the risk of a false-positive test for women following a mammography screening programme. J Med Screen 2007; 14: 94–97

28. Schmidt JG. Früherkennung und Umgang mit Risikofaktoren. In: Kochen MM. Allgemeinmedizin und Familienmedizin. Stuttgart: Thieme, 2006, 3. Aufl.

29. Fitzpatrick M. The tyranny of health – doctors and the regulation of lifestyle. London: Routledge, 2001

30. Croyle RT (Hrsg). Psychosocial effects of screening for disease prevention and detection. New York/Oxford: Oxford University Press, 1995

31. Furedi F. Culture of fear – Risk-taking and the morality of low expectation. London and Washington: Cassell, 1997

32. Othman C, Wollny A, Abholz H-H, Altiner A. Die Gesundheitsuntersuchung – ein ungeliebtes Stiefkind? Eine Qualitative Untersuchung. Z Allg Med 2008; 84: 280–85

33. Health Council of the Netherlands. Screening: between hope and hype. The Hague: Health Council of the Netherlands, 2008

34. Gummersbach E, Piccoliori G, Oriol Zerbe C et al. Are women getting relevant information about mammography screening for an informed consent: a critical appraisal of information brochures used for screening invitation in Germany, Italy, Spain and France. European Journal of Public Health 2009; doi: 10.1093/eurpub/ckp174

 

1 Abt. für Allgemeinmedizin, Universitätsklinikum Düsseldorf

*Der Text ist auf Grundlage eines Expertengutachtens im Rahmen des Sondergutachten 2009 des „Sachverständigenrat zur Begutachtung der Entwicklung im Gesundheitswesen“ entstanden: www.svr-gesundheit.de/Startseite/Startseite.htm

Peer reviewed article, eingereicht: 17.09.2009; akzeptiert: 29.10.2009

DOI 10.3238/zfa.2010.0053


(Stand: 15.04.2010)

Als Abonnent können Sie die vollständigen Artikel gezielt über das Inhaltsverzeichnis der jeweiligen Ausgabe aufrufen. Jeder Artikel lässt sich dann komplett auf der Webseite anzeigen oder als PDF herunterladen.