Thema: Evidence-based tandheelkunde P.A. Mileman, W.B. van den Hout Evidence-based diagnostiek en klinische besluitvorming De toepassing van ‘evidence-based’ tandheelkunde op diagnostiek moet ertoe leiden dat er minder foutieve beslissingen worden genomen. Het aantal foutieve beslissingen wordt niet alleen bepaald door de diagnostische accuratesse, maar ook door de kans dat de ziekte aanwezig is. Is deze kans laag dan kan het uitvoeren van een diagnostische test leiden tot meer foutieve beslissingen en behandelingen dan wanneer wordt afgezien van testen en behandelen. Hierbij moet ook de waardering voor de mogelijke tandheelkundige uitkomsten in aanmerking worden genomen. Deze kan worden bepaald door een patiënt zijn waardering van een bepaalde tandheelkundige situatie op een visueel analoge schaal te laten aanwijzen. Hoewel de besliskundige aanpak een weerslag begint te krijgen in diagnostische richtlijnen dient de toepassing ervan in de tandheelkunde nog verder te worden ontwikkeld en onderzocht. Mileman PA, Hout WB van den. Evidence-based diagnostiek en klinische besluitvorming Ned Tijdschr Tandheelkd 2007; 114: 187-194 Inleiding Diagnostiek is slechts een middel om de beste behandeling te bepalen (Wulff, 1981). Het combineren van klinische bevindingen met radiologische observaties om tot een diagnose te komen behoort tot de dagelijkse routine in de tandheelkundige praktijk. Deze vaardigheid is mogelijk geleerd van een eminente professor, maar kan er zomaar van worden uitgegaan dat hij valide diagnosen stelde en in staat was deze kennis effectief over te dragen? Als er fouten worden gemaakt bij diagnostiek dan worden aanwezige laesies onbehandeld gelaten en worden ‘laesies’ behandeld die er niet zijn. Zijn deze 2 typen fouten even belangrijk voor de patiënt en, zo niet, hoe kan de beste balans tussen beide typen diagnostische fouten worden verkregen? Het correct vaststellen van de pathologie met behulp van een diagnostische test hangt mede af van de waarschijnlijkheid vooraf dat er pathologie aanwezig is. Deze en andere aspecten van ‘evidence-based’ tandheelkunde zullen het onderwerp zijn van dit overzichtsartikel. Er bestaan verschillende Nederlandstalige inleidingen in evidence-based diagnostiek en ook internationale richtlijnen voor het rapporteren van diagnostisch onderzoek (Mileman en Kievit, 1995; Offringa et al, 2000; Bossuyt et al, 2003). In Europa en de Verenigde Staten zijn recent evidence-based richtlijnen gepubliceerd voor het voorschrijven van röntgenopnamen (Europese Commissie, 2004). In dit artikel worden belangrijke aspecten geïllustreerd van evidence-based tandheelkundige diagnostiek. Hoe moeten artikelen uit de literatuur worden beoordeeld en gebruikt in de kliniek? Daarbij wordt uitgegaan van de besliskundige benadering (Rohlin en Mileman, 2000). Hierin worden behandelkeuzes niet alleen bepaald door het verzamelen van het gepubliceerde Ned Tijdschr Tandheelkd 114 april 2007 bewijs, maar ook door het combineren van dat bewijs op een rationele, transparante en systematische manier, om zo de uitkomst voor de patiënt te optimaliseren (afb. 1). Diagnostische accuratesse Een diagnostische test poogt onzekerheid te verminderen aangaande de aan- of afwezigheid van een bepaalde ziekte. Een ideale test geeft snel en volledig valide informatie, zonder de gezondheid van de patiënt te schaden en zonder kosten. Testen zijn zelden ideaal. De waarde van een test Afb. 1. De weg naar een effectief besluit voor de patiënt wordt belemmerd door mogelijke hobbels in de beleving van de tandarts. Boven elke hobbel zijn in trefwoorden de aspecten van het besluitvormingsproces aangegeven die aandacht nodig hebben. Door deze aspecten expliciet te maken kan evidence-based diagnostiek een bijdrage leveren aan de optimalisering van de besluitvorming. 187 Thema: Evidence-based tandheelkunde Algemene notatie: Test positief Test negatief Totaal Diagnose van: ‘zeker dentinecariës’ met behulp van bitewing-opnamen Ziekte aanwezig Ziekte afwezig Totaal a (TP) c (FN) a+c b (FP) d (TN) b+d a+b c+d (a+b+c+d) Maat voor nauwkeurigheid Prevalentie Sensitiviteit (Se) Specificiteit (Sp) Positief voorspellende waarde (PV+) Negatief voorspellende waarde (PV-) Positieve likelihood ratio (LR+) Negatieve likelihood ratio (LR-) Diagnostic odds ratio (DOR) Receiver Operating Characteristic (ROC)-curve Oppervlakte (Az) onder ROC-curve Bitewing+ BitewingTotaal Cariës aanwezig Cariës afwezig Totaal 18 27 45 1 59 60 19 86 105 Definities Berekening Voorafkans op ziekte in specifieke populatie (a + c) : (a + b + c + d)= 43% Kans dat iemand met de ziekte daadwerkelijk een a : (a + c) = 40% positieve testuitslag heeft (terecht-positieve fractie) Kans dat iemand zonder de ziekte daadwerkelijk een d : (b + d) = 98% negatieve testuitslag heeft (terecht-negatieve fractie) Kans dat iemand met een positieve testuitslag a : (a + b) = 95% daadwerkelijk de ziekte heeft Kans dat iemand met een negatieve testuitslag d : (c + d) = 69% daadwerkelijk de ziekte niet heeft Verhouding tussen de kans op een positieve (a :(a + c)) : (b :(b + d)) testuitslag bij personen met de ziekte en de of Se: (1-Sp) =24,0 kans op een positieve testuitslag bij personen zonder de ziekte Verhouding tussen de kans op een negatieve (c : (a + c)) : (d : (b + d)) testuitslag bij personen met de ziekte en de kans op een of (1-Se) : Sp = 0,61 negatieve testuitslag bij personen zonder de ziekte Verhouding tussen de odds van een positieve testuitslag bij (a x d) : (c x b) of personen met de ziekte en de odds van een positieve testuitslag bij LR+ : LR- = 39,3 personen zonder de ziekte (odds = kans/(1-kans) ) De ROC-curve is een grafische weergave van de relatie tussen de terecht positieve fractie (Se) en de onterecht positieve fractie (1-Sp) van een diagnostische test, afhankelijk van de afkapwaarde voor abnormaliteit De oppervlakte onder deze curve is een maat voor het onderscheidend vermogen van de test Tabel 1. Maten voor diagnostische nauwkeurigheid met definities en berekeningswijze. De berekeningen geven een realistisch voorbeeld van hoe nauwkeurig tandartsen zijn bij het gebruik van bitewing-opnamen om de aanwezigheid van approximale dentinelaesies vast te stellen. wordt uiteindelijk bepaald door de gezondheidswinst die wordt bereikt door de behandeling die is gekozen op basis van de testuitslag. Of de juiste behandeling wordt gekozen hangt onder andere af van de diagnostische accuratesse van de test. Beeldvormende diagnostiek vereist vaak interpretatie van het beeld door de beoordelaar, waardoor de beoordelaar een onderdeel is van het diagnostisch systeem en mede bepalend is voor de accuratesse. Er is aanzienlijke variatie in accuratesse onder tandartsen bij het beoordelen van bitewing-opnamen (Mileman en Van den Hout, 2002). Terugkoppeling over de eigen diagnostische accuratesse en hoe deze kan worden verbeterd zou daarom een essentieel onderdeel moeten zijn van een evidence-based benadering van de tandheelkundige diagnostiek. Voor de gangbare diagnostische problemen, zoals cariës, parodontale aandoeningen en periapicale laesies, zouden hiervoor instrumenten moeten worden ontwikkeld (Mileman et al, 2004). 188 Innovatie van onderzoek naar het verbeteren van diagnostische accuratesse van beeldvormende diagnostiek omvat ook technieken die de kenmerken van röntgenopnamen vertalen naar de kans op een geslaagde prognose en behandeling. Deze benadering zou kunnen leiden tot een nauwkeuriger voorspelling van complicaties van behandeling, bijvoorbeeld bij de extractie van derde molaren (Sedaghatfar et al, 2005). Het toepassen hiervan zal training vergen in het gebruik van diagnostische hulpmiddelen en diagnostische ‘expertsystemen’ als Oral Radiographic Differential Diagnosis (ORAD) op internet (White, 1989; Stheeman et al, 1995; White, 2006). Met ORAD kan aan de hand van de aanwezigheid van röntgenologische beeldkenmerken een schatting worden gemaakt van de kans op bepaalde afwijkingen. Gouden standaard Een vereiste om de nauwkeurigheid van een test te kunnen evalueren, is de beschikbaarheid van een valide gouden of Ned Tijdschr Tandheelkd 114 april 2007 Mileman en Van den Hout: Evidence-based diagnostiek en besluitvorming referentiestandaard. Een gouden standaard dient zorgvuldig te worden gekozen (Wenzel en Hintze, 1999), en op een andere techniek dan de onderzochte test te zijn gebaseerd. Zo kan bijvoorbeeld beeldvormende diagnostiek bij voorkeur worden vergeleken met een niet-beeldvormende gouden standaard als histologie of biopsie. Dit vermindert het gevaar dat de onderzochte test en de gouden standaard structureel dezelfde fouten hebben, waardoor de onderzochte test als te gunstig wordt beoordeeld. bij een bepaalde testuitslag. Oppervlakkig bezien wordt deze vraag beantwoord door de positief en negatief voorspellende waarde (tab. 1) (Bhandri et al, 2003). Publicaties over deze voorspellende waarden zijn echter alleen toepasbaar op populaties met precies dezelfde prevalentie van ziekte als die van de onderzoekspopulatie. Voor patiënten met andere prevalenties zijn aanvullende berekeningen nodig. Voorspellende waarden zijn daarom slechte nauwkeurigheidsmaten om verschillende publicaties onderling te vergelijken. Maten voor diagnostische nauwkeurigheid Bij de evaluatie van diagnostische tests wordt een breed spectrum aan maten voor diagnostische nauwkeurigheid gebruikt (Jaeschke et al, 1994; Hunink et al, 2001; Bhanddri et al, 2003). Tabel 1 geeft een overzicht hiervan, met een toepassing op een eenvoudige dichotome test. De sensitiviteit van een test is het percentage onder gevallen met de ziekte dat daadwerkelijk een positieve testuitslag heeft. De specificiteit van een test is het percentage onder gevallen zonder de ziekte dat daadwerkelijk een negatieve testuitslag heeft. De sensitiviteit en de specificiteit worden over het algemeen beschouwd als onafhankelijk van de prevalentie van de ziekte. Eén van de problemen bij de evaluatie van een test is dat sensitiviteit en specificiteit omgekeerd evenredig zijn. Bij veel medische testen wordt een numerieke grenswaarde (afkapwaarde) gebruikt om normale en abnormale testuitslagen van elkaar te onderscheiden. Een gunstige sensitiviteit kan dan worden verkregen door de grenswaarde zodanig te stellen dat weinig gevallen van ziekte worden gemist, maar dit zal er over het algemeen toe leiden dat ook meer gevallen zonder ziekte als abnormaal worden beoordeeld, zodat de specificiteit juist ongunstig wordt. ‘Receiver Operating Characteristic’(ROC)-curves geven grafisch de samenhang tussen sensitiviteit en specificiteit weer. De oppervlakte onder de ROC-curve (weergegeven als Az) is een maat voor in hoeverre een test gevallen mét ziekte kan onderscheiden van gevallen zonder ziekte (Van Erkel en Pattynama, 1998), zonder een klinische grenswaarde te specificeren en zonder onderscheid te maken tussen het belang van fout-positieve en fout-negatieve testuitslagen. De oppervlakte onder een ROCcurve kan variëren van 0,5 (een niet-informatieve test) tot 1,0 (een test die perfect onderscheid kan maken tussen gezond en ziek) en kan worden gebruikt om verschillende diagnostische technieken te vergelijken. Door hun samenhang geven sensitiviteit en specificiteit afzonderlijk geen compleet beeld van de nauwkeurigheid van een test, wat in belangrijke mate heeft bijgedragen aan de veelheid aan andere nauwkeurigheidsmaten. Maten die sensitiviteit en specificiteit combineren zijn bijvoorbeeld de likelihood ratio’s en de diagnostic odds ratio (tab. 1) (Devillé, 2001; Glas, 2003). Een andere reden waarom sensitiviteit en specificiteit als uitkomstmaat op zich onvoldoende zijn, is dat ze de verkeerde vraag beantwoorden, namelijk wat de kans op een bepaalde testuitslag is bij aan- of afwezigheid van ziekte. Een klinisch belangrijkere vraag is wat de kans op ziekte is Diagnostisch ‘bewijs’ achterhalen in de literatuur Ned Tijdschr Tandheelkd 114 april 2007 Eind vorige eeuw zijn de resultaten van de omvangrijke literatuur over therapieën in de gezondheidszorg samengevat met behulp van systematische literatuuronderzoeken en metaanalyses (Devillé, 2001), waarbij de mate van wetenschappelijk bewijs werd vastgesteld en aanbevelingen werden gedaan om de kwaliteit van onderzoek en rapportage te verbeteren. Hoewel het nut van therapie begint bij een correcte diagnose, is de ontwikkeling van evidence-based diagnostisch onderzoek achtergebleven bij die van therapeutisch onderzoek. Het systematisch samenvatten van evidence over diagnostische nauwkeurigheid heeft een aantal problemen ondervonden: diagnostisch onderzoek was moeilijk te identificeren (Devillé, 2001), sensitiviteit en specificiteit dienden in combinatie te worden geanalyseerd en onderzoekspopulaties waren vaak heterogeen zonder rapportage van prevalenties van de te diagnosticeren ziekte. Zonder expliciete vermelding van frequentiegegevens van testgebruik in diagnostisch onderzoek is het bovendien onmogelijk verschillende onderzoeken te combineren in een meta-analyse. Vanwege deze tekortkomingen zijn richtlijnen ontwikkeld voor de beoordeling van diagnostische onderzoeken door lezers (Jaeschke et al, 1994), en voor de rapportage ervan: het initiatief ‘Standards for Reporting of Diagnostic Accuracy’ (STARD) (Bossuyt et al, 2003). Met deze richtlijnen kan diagnostische literatuur worden gezocht in databases als MEDLINE met behulp van PubMed en kan diagnostische literatuur worden gecombineerd in een meta-analyse (Devillé, 2001). Tandheelkundige diagnostiek waarover literatuur met nauwkeurigheidsmaten beschikbaar is, omvat mondonderzoek, patiëntkenmerken (zoals leeftijd, geslacht, opleidingsniveau, woonregio), tandheelkundige anamnese en pijnklachten, elektrische en andere vormen van vitaliteitstesten voor pulpanecrose, digitale en conventionele röntgenopnametechnieken voor approximale en occlusale cariës, parodontale en periapicale laesies, en ten slotte pocketmeting voor parodontale defecten (Pretty en Maupomé, 2004). Richtlijnen voor diagnostische publicaties Het identificeren van diagnostische publicaties is recent vereenvoudigd door de richtlijn om de trefwoorden ‘sensitivity and specificity’ of ‘accuracy’ te gebruiken. Ook kan een gespecialiseerde zoekmachine met een filter in PubMed worden gebruikt voor een snelle zoekstrategie naar diagnostische literatuur, waarbij artikelen worden geordend op basis 189 Thema: Evidence-based tandheelkunde van criteria voor de sterkte van het bewijs (SUMSEARCH, 2006). Een zoekstrategie met de aanvullende trefwoorden ‘radiography’ en ‘dental caries’ leverde daarmee 695 artikelen op. De diagnostische filter reduceerde dit aantal tot 176 artikelen, waarvan 7 systematische literatuuroverzichten. Kwaliteitscriteria voor onderzoek en voor de presentatie van de resultaten zijn nodig gebleken om goed te kunnen beoordelen of de conclusies van het gepubliceerd onderzoek toepasbaar zijn op de patiënten van de lezer (Devillé, 2001; Bhandari et al, 2003). Volgens deze criteria hoort een diagnostisch onderzoek resultaten te rapporteren van een onafhankelijke, prospectieve, dubbelblinde vergelijking van de onderzochte test met een valide referentietest voor werkelijke pathologie (gouden standaard). Het onderzoek hoort te rapporteren over de afkapwaarden van de onderzochte test en de referentietest, over prevalentie en ernst van de ziekte, voorgaande testen en verwijzingen en over demografische eigenschappen van de patiënten. Resultaten horen te worden weergegeven in frequentietabellen, zodat likelihood ratio’s kunnen worden berekend (tab. 1). De reproduceerbaarheid en de nauwkeurigheid van interpretatie van de test door de klinische gebruiker moeten vergelijkbaar zijn met die binnen het gerapporteerde onderzoek. De resultaten van de test moeten toepasbaar zijn op de patiënten in de praktijk, moeten invloed kunnen hebben op het gekozen beleid en de gezondheid van de patiënt verbeteren. In een recent systematisch literatuuroverzicht over het gebruik van bitewing-opnamen vergeleken met panoramische röntgenopnamen als test voor cariës werden slechts 5 publicaties gevonden van een voldoende kwaliteit om de onderzoeksvraag te beantwoorden (Taylor-Weetman et al, 2002). Onvoldoende bewijs werd gevonden om het gebruik van panoramische röntgenopnamen voor deze taak te rechtvaardigen. De auteurs concludeerden dat het niet mogelijk was om de resultaten van de onderzoeken in een meta-analyse te aggregeren, omdat de populaties en de gebruikte referentietests te veel verschilden. Ook in andere systematische tandheelkundige literatuuroverzichten werd geconcludeerd dat het bewijs gebrekkig of zwak is (Bader en Ismail, 2004). Diagnostische nauwkeurigheid samenvatten en vergelijken Meta-analyses van diagnostische literatuur zijn voor een groot deel vergelijkbaar met die van therapeutische literatuur (Van der Sanden et al, 2007). Volgens een vooraf omschreven procedure wordt de relevante literatuur verkregen en worden de diagnostische gegevens daaruit geaggregeerd en gewogen met een kwaliteitsscore volgens vastgestelde criteria (Bossuyt et al, 2003). Specifiek voor diagnostische onderzoeken is dat sensitiviteit en specificiteit zijn gecorreleerd, waardoor separaat vergelijken van deze kenmerken een vertekend beeld kan geven van de nauwkeurigheid van een diagnostische test. Om deze reden is de logaritme van de ‘diagnostic odds ratio’ voorgesteld als de relevante uitkomstmaat voor meta-analyses (tab. 1) (Devillé, 2001; Glas, 2003). 190 Een meer expliciete manier om rekening te houden met de samenhang tussen sensitiviteit en specificiteit is de ‘Summary-Receiver Operating Characteristic’ (SROC)-methode (Devillé, 2001). In de beeldvormende diagnostiek wordt het gekozen afkappunt op de ROC-curve vaak bepaald door de mate van zekerheid waarmee gesproken kan worden van een abnormaal testresultaat. Verschillen tussen onderzoeken ontstaan deels door gebruik van verschillende afkappunten. De SROC-methode beschouwt ieder onderzoek als onderdeel van dezelfde ROC-curve, rekening houdend met het gebruik van eventueel verschillende afkappunten. Van prevalentie naar klinische besluitvorming Voor een evaluatie van de uiteindelijke consequenties van het gebruik van een diagnostische test is niet alleen bewijs nodig over diagnostische nauwkeurigheid, maar ook over de prevalentie van ziekte en de voorkeuren van de patiënt voor de mogelijke uitkomsten van therapie (Hunink et al, 2001). Prevalentie van ziekte Een vereiste voor een beslissingsanalyse is een inschatting van de kans op pathologie, rekening houdend met de persoonsgebonden kenmerken en symptomen van de patiënt. Een eerste bron van informatie voor de tandarts over de prevalentie zal vaak bestaan uit herinneringen op basis van eerdere ervaringen, maar deze zijn vaak selectief. Een andere bron van bewijs is de wetenschappelijke epidemiologische literatuur over prevalenties binnen de gemiddelde bevolking. Patiënten in een tandartsenpraktijk die zich presenteren of verdacht worden van bijvoorbeeld periapicale pathologie kunnen echter klachten hebben of andere kenmerken van ziekte, zoals verkleuring van gebitselementen, of het betreffende gebitselement kan een kroon hebben. Deze factoren en klinisch onderzoek beïnvloeden de kans dat er daadwerkelijk sprake is van periapicale pathologie. Ook een vitaliteitstest zal de kans op pathologie verder beïnvloeden, al voordat een röntgenopname als toegevoegde diagnostiek wordt overwogen. Herberekenen van de kans op ziekte na diagnostiek Een belangrijke determinant van de waarde van een diagnostische test is hoe de testuitslag de kans op ziekte verandert, met andere woorden na de test moet het voldoende zeker zijn dat de ziekte aan- of afwezig is om een therapeutische beslissing te nemen. De voorafkans (prevalentie of a priori kans) op ziekte voor patiënten in de wachtkamer kan samen met likelihood ratio’s van de test worden gebruikt om de achterafkans (a posteriori kans) op ziekte te berekenen. Deze berekeningen zijn het eenvoudigst weer te geven in termen van de odds. De odds is gerelateerd aan de kans (en dus met prevalentie) volgens de formules: odds = kans/(1-kans) of prevalentie/(1-prevalentie) en kans = odds/(1+odds). De odds is de verhouding tussen de kansen op wel en niet optreden van een gebeurtenis en wordt vooral gebruikt in het Angelsaksische spraakgebruik bij weddenschappen. De odds Ned Tijdschr Tandheelkd 114 april 2007 Mileman en Van den Hout: Evidence-based diagnostiek en besluitvorming van ziekte, voordat en nadat het testresultaat beschikbaar is, zijn gerelateerd volgens de volgende formule: achteraf odds = likelihood ratio × vooraf odds. Deze formule is bekend als het ‘Theorema van Bayes’ en wordt toegeschreven aan de Engelse predikant Thomas Bayes (1702-1761). De betreffende likelihood ratio is de positieve dan wel negatieve likelihood ratio, afhankelijk van het willen diagnosticeren van de aan- of afwezigheid van ziekte. Deze likelihood ratio’s zijn respectievelijk groter en kleiner dan 1, zodat een positief en een negatief resultaat de odds (en dus ook de kans) op ziekte verhoogt respectievelijk verlaagt. Neem als voorbeeld een prevalentie van 0,43 met een positieve likelihood ratio van 24,0 (tab. 1). Na een positief testresultaat kan de achterafkans op ziekte dan als volgt worden berekend: > vooraf odds = 0,43 / (1-0,43) = 0,754 > achteraf odds = 24,0 × 0,754 = 18,1 > achterafkans = 18,1 / (1+18,1) = 0,948 Dit wil dus zeggen dat voorafgaand aan de test de kans op pathologie bij de patiënt 0,43 was en dat deze na de test is gestegen naar 0,948. Deze test heeft dus in belangrijke mate bijgedragen aan de zekerheid van de diagnose. Per definitie is de achterafkans gelijk aan de positief voorspellende waarde. Als de prevalentie gelijk is aan 0,02 dan wordt de achterafkans: > vooraf odds = 0,02 / (1-0,02) = 0,020 > achteraf odds = 24,0 × 0,020 = 0,480 > achterafkans = (0,480) / (1+0,480) = 0,324 Met dezelfde diagnostische nauwkeurigheid leidt een lagere voorafkans dus ook tot een lagere achterafkans. Voor het uitvoeren van deze berekeningen zijn ook rekenprogramma’s op internet beschikbaar (bijvoorbeeld de EBP calculator op http://sumsearch.uthscsa.edu/ of http://araw.mede.uic.edu/ cgi-alansz/testcalc.pl). De test- en behandeldrempel Met het theorema van Bayes kan de achterafkans op ziekte worden berekend, als de testuitslag bekend is. Als de voorafkans laag is, dan kan zelfs na een positieve testuitslag de achterafkans te laag blijven om over te gaan tot behandelen (zie het tweede rekenvoorbeeld in de vorige subparagraaf). Op dezelfde manier kan de voorafkans dusdanig hoog zijn dat het ook na een negatieve testuitslag onverantwoord is om af te zien van behandeling. Bij dergelijke hoge en lage prevalenties zou het behandelen, respectievelijk het achterwege laten van behandeling, op basis van een testuitslag leiden tot schade voor de patiënt. Dan is het beter niet te testen. Neem bijvoorbeeld de test beschreven in tabel 1 met een sensitiviteit van 40% en een specificiteit van 98%. Ga verder uit van een realistische prevalentie van proximale dentinecariës bij de jeugd van 2%. Behandeling op basis van een testuitslag leidt dan tot 3,2% onterechte beslissingen (60% van 2% = 1,2% fout-negatief en 2% van 98% = 2% fout-positief), terwijl geheel afzien van testen en therapie leidt tot slechts 2% onterechte beslissingen (alle fout-negatief). Ook voor hogere Ned Tijdschr Tandheelkd 114 april 2007 prevalenties, tot 5%, leidt testen tot meer onterechte beslissingen dan afzien van therapie. Anderzijds, door de verre van ideale sensitiviteit van 40%, leidt voor hoge prevalenties boven de 62% het testen tot meer onterechte beslissingen dan ongetest te behandelen. Alleen in de tussenrange van 5% tot 62% is de kans op een terechte beslissing het beste wanneer er wordt behandeld op basis van de testuitslag. Tenzij een test een perfecte sensitiviteit of specificiteit heeft, zal bij lage prevalentie testen slechter zijn dan de optie niet behandelen. Op dezelfde manier zal bij hoge prevalentie testen slechter zijn dan behandelen. De prevalentie waarboven testen beter is dan niet behandelen (5% in het voorbeeld) heet de ‘testdrempel’. De prevalentie waarboven behandelen beter is dan testen (62% in het voorbeeld) heet de ‘test-behandeldrempel’ (Mileman en Kievit, 1995; Hunink et al, 2001). Zelfs als de precieze waarden van deze drempels onbekend zijn, is het toch belangrijk om bewust te zijn van hun bestaan. Testen wordt vaak gezien als een veilige optie, zonder dat men zich realiseert dat iedere niet-ideale test schade voor de patiënt kan veroorzaken door foute testuitslagen. In een artikel werd bijvoorbeeld een diagnostische nauwkeurigheid van röntgenopnamen voor periapicale aandoeningen gerapporteerd met een sensitiviteit van 70% en een specificiteit van 77% (Pretty en Maupomé, 2004). Met deze test zou tot een prevalentie van 25% het aantal onterechte behandelingen groter zijn dan het aantal terechte behandelingen. De voorafkans op ziekte hangt samen met patiëntenonderzoek, verwijzing van patiënten en de selectie van patiënten zoals aanbevolen in de internationale richtlijnen voor het voorschrijven van röntgenopnamen (Europese Commissie, 2004). De selectiefactor ‘aanwezigheid van cariës of restauraties in de voortanden’ zou voor kinderen het risico van cariës dusdanig kunnen verhogen dat de testdrempel van bitewingröntgenopnamen voor screening wordt overschreden. Op dezelfde manier kan klinisch onderzoek inclusief parodontale pocketmeting, de kans van gematigd parodontale botafbraak dusdanig verhogen dat deze boven de test-behandeldrempel komt, zodat additionele röntgenopnamen - ongeacht de testuitslag - het beleid niet meer zouden beïnvloeden. Het antwoord op de vraag of een patiënt baat heeft bij bitewingröntgenopnamen hangt dus af van de prevalentie van ziekte, het gebruik van selectiefactoren, de nauwkeurigheid van de tandarts bij het beoordelen van röntgenopnamen, het opnamesysteem (digitaal of film), maar ook van hoe de patiënt de gewenste en ongewenste uitkomsten van therapie waardeert. Waarderingen van patiënten Met niet-ideale diagnostiek zullen tandartsen enerzijds laesies over het hoofd zien (fout-negatief) en anderzijds laesies vinden waar ze niet zijn (fout-positief). De eerdere beschrijving van de test- en behandeldrempel gaf gelijk gewicht aan beide soorten van fouten. De gezondheidstoestanden die worden veroorzaakt door deze 2 typen beslissingen kunnen echter door de patiënten verschillend worden gewaardeerd. Afbeelding 2 illustreert een methode waarmee numerieke 191 Thema: Evidence-based tandheelkunde waarderingen (utiliteiten) voor verschillende uitkomsten kunnen worden verkregen (Mileman en Van den Hout, 2003). Respondenten wordt gevraagd om de mogelijke uitkomst te plaatsen op een visueel analoge schaal (met waarden tussen 0 en 100). De beste uitkomst is uiteraard een terecht negatieve beslissing. De terecht positieve en de foutpositieve behandelbeslissing zijn na behandeling niet meer van elkaar te onderscheiden en zouden daarom vanuit het gezichtspunt van de patiënt als equivalent kunnen worden beschouwd. Toch blijken vierdejaarsstudenten tandheelkunde de fout-positieve beslissing aanzienlijk lager te waarderen dan de terecht positieve behandelbeslissing (utiliteit van fout-positief 36 en terecht-positief 78). In de beperkte tandheelkundige literatuur over het meten van waarderingen voor uitkomsten lijken tandartsen uitkomsten onderling verschillend te waarderen (Mileman en Van den Hout, 2003), en bovendien vaak anders te waarderen dan patiënten (Fyffe en Kay, 1992). Dit is een belangrijke constatering, omdat de waarde van diagnostiek mede afhangt van de waarde die wordt gehecht aan de mogelijke uitkomsten. De verwachte waarde van diagnostische strategieën Bij de beslissing over het gebruik van een diagnostische test dienen 2 soorten informatie te worden gecombineerd: enerzijds de kansen van verschillende mogelijke uitkomsten en anderzijds de waardering voor die uitkomsten. De behandeling en ook de diagnostiek kunnen bepaalde complicaties met zich meebrengen. Zo kan bijvoorbeeld een verwijdering van de derde molaar de nervus lingualis beschadigen (Sedaghatfar et al, 2005). Bovendien kan de behandeling op langere termijn falen, zodat het bijvoorbeeld van belang is om te weten hoe lang de levensduur is van een composietrestauratie vergeleken met een amalgaamrestauratie. Dergelijke gegevens zijn in de wetenschappelijke literatuur vaak maar beperkt aanwezig, maar zijn wel van belang bij het bepalen van de waarde van diagnostiek. Afb. 2. Utiliteitsmeting: voorbeeld van een visueel analoge schaal om 4 verschillende uitkomsten te waarderen. De respondent geeft met de pijlen een waarde aan voor de uitkomsten, op een schaal van best denkbaar (100) tot slechtst denkbaar (0). 192 Afbeelding 3 laat zien hoe een typisch diagnostisch probleem kan worden gemodelleerd met behulp van een beslisboom. Er worden 3 mogelijke strategieën vergeleken: gebruik van een bitewing-röntgenopname om dentinecariës van een approximaal vlak vast te stellen, afwachten zonder te testen en behandelen. Elk pad in de beslisboom heeft een eigen kans. Zo is bijvoorbeeld met testen de kans op een terecht positieve beslissing gelijk aan het product van de prevalentie en de sensitiviteit. Wanneer zonder testen wordt behandeld is de kans op een terecht positieve beslissing gelijk aan de prevalentie van ziekte. Bij de beslissingsanalyse wordt de optimale beslissing bepaald als de beslissing met de hoogste verwachte waarde. Deze verwachte waarde kan voor iedere strategie worden berekend door per strategie de getalsmatige waarderingen voor de uitkomsten (de utiliteiten) te vermenigvuldigen met de kansen van de bijbehorende paden in de boom. Veronderstel bijvoorbeeld dat, overeenkomstig de eerdergenoemde waarderingen van tandheelkundestudenten, de waarderingen numeriek worden weergegeven met 100 voor terecht afzien van behandeling (terecht-negatief), 78 voor behandelde cariës (terecht-positief), 36 voor onterechte behandeling (fout-positief) en 0 voor onbehandelde cariës (fout-negatief). Veronderstel verder dat, overeenkomstig tabel 1, röntgenologie om dentinecariës vast te stellen een sensitiviteit heeft van 40% en een specificiteit van 98% en dat de voorafkans op dentinecariës wordt ingeschat op 10%. Met deze aannames kan de verwachte waarde van iedere strategie worden berekend. Gebruikmakend van de test hebben de uitkomsten terecht-negatief, terecht-positief, foutpositief en fout-negatief respectievelijk een kans van 88%, 4%, 2% en 6%. Het totale verwachte nut komt daarmee op 93 (namelijk 88% x 100 + 4% x 78 + 2% x 36 + 6% x 0). Bij afwachtend beleid is het verwachte nut 40 (10% x 78 + 90% x 36) en bij behandeling is het verwachte nut 90 (10% x 0 + 90% x 100). Deze berekeningen laten zien dat bij een voorafkans van 10% testen een beter verwacht nut oplevert dan niet testen. Deze conclusie hangt echter wel af van de Afb. 3. Voorbeeld van hoe de opties en uitkomsten van een typisch diagnostisch probleem kunnen worden gemodelleerd met behulp van een beslisboom. Ned Tijdschr Tandheelkd 114 april 2007 Mileman en Van den Hout: Evidence-based diagnostiek en besluitvorming voorafkans op dentinecariës. Voor Nederlandse tieners is een voorafkans van 2% realistischer dan 10%. Afbeelding 4 laat een zogenaamde sensitiviteitsanalyse zien, waarbij de utiliteit van de 3 strategieën is berekend voor een voorafkans variërend van 0 tot 100%. Rekeninghoudend met de waarderingen voor de uitkomsten is er nu opnieuw sprake van een testdrempel en een test-behandeldrempel: met voorafkansen van 0 tot 4% is het optimaal om af te zien van testen en behandelen, van 4 tot 57% is het optimaal om alleen te behandelen als de testuitslag van de bitewing-opname positief is, en van 57 tot 100% is het optimaal om zonder testen over te gaan tot behandeling. Het voorbeeld laat zien hoe, uitgaande van een bepaalde accuratesse en bepaalde waarderingen voor uitkomsten, de test- en behandeldrempel kunnen worden bepaald. Het voordeel van het gebruik van drempels is dat de precieze kans niet hoeft te worden bepaald, maar alleen hoe deze kans zich verhoudt tot beide drempels. Over het algemeen zal het cariësrisico in de algehele populatie onder de testdrempel liggen, zodat screening naar verwachting door de fout-positieve diagnosen schadelijk is. Met behulp van valide selectiecriteria uit gepubliceerde richtlijnen voor het gebruik van röntgenopnamen kunnen die patiënten worden geselecteerd die wel baat zouden kunnen hebben bij röntgendiagnostiek. Bovendien bepaalt de snelheid van het ontstaan van dentinecariës hoe lang het duurt voordat na een eerder röntgenonderzoek de kans op dentinecariës weer boven de testdrempel uitkomt. Implicaties voor de praktijk en tandheelkundig onderwijs Traditioneel is de kennis van tandheelkundige diagnostiek overgedragen door experts, wat tegenwoordig wordt gezien als het laagste niveau in de hiërarchie van bewijsAfb. 4. Optimale strategie en verwacht nut, afhankelijk van de prevalentie van dentinecariës (uitgaande van de utiliteiten van studenten en diagnostische nauwkeurigheid uit tabel 1). Onder de testdrempel van 4% is het optimaal om zonder te testen af te zien van behandeling. Boven de test-behandeldrempel van 57% is het optimaal om zonder te testen over te gaan tot behandelen. In de tussenliggende range van 4 tot 57% is het optimaal om te behandelen op basis van het testresultaat. Ned Tijdschr Tandheelkd 114 april 2007 voering (Aartman en Van Loveren, 2007. Deze leermethode is bovendien onverenigbaar met een probabilistische benadering van diagnostiek, waarin het maken van fouten nadrukkelijk als mogelijkheid wordt geaccepteerd. De aard van de diagnostische literatuur is daarom aan het verschuiven, waarbij steeds meer nadruk wordt gelegd op de relevante validiteitscriteria zoals het gebruik van een geschikte gouden standaard. Daarmee komen nu gegevens beschikbaar die een evidence-based en besliskundige benadering van diagnostiek in de tandheelkunde mogelijk maken. In de wetenschappelijke literatuur ondervindt diagnostisch onderzoek, vergeleken met therapeutisch onderzoek, een aantal extra problemen. Zo zijn gerandomiseerde diagnostische vergelijkingen lastiger uitvoerbaar, onder andere doordat het negeren van een nauwkeurige diagnostische test - en dus patiënten onbehandeld laten als deel van een onderzoeksopzet - als onethisch kan worden opgevat. Door de samenhang tussen sensitiviteit en specificiteit heeft ook het aggregeren van gegevens van verschillende onderzoeken tot problemen geleid, die echter oplosbaar zijn met nieuw ontwikkelde methodologie en met goede richtlijnen voor de rapportage van onderzoeksresultaten. Optimale diagnostiek wordt bepaald door zowel foutpositieve als fout-negatieve beslissingen. Een goede balans tussen beide typen fouten hangt niet alleen af van de nauwkeurigheid van de diagnostiek zelf, maar ook van de beoordeling door de patiënt van de relatieve ernst van verschillende fouten, en van de voorafkans op pathologie. Vooral als die kans op pathologie onder een bepaalde drempel blijft, zal het gebruik van diagnostiek kunnen leiden tot gezondheidsverlies voor de patiënt, door onnodig ingestelde behandelingen. Het opstellen van diagnostische richtlijnen in de radiologie zal daarom moeten bijdragen aan een goede selectie van die patiënten die daadwerkelijk baat hebben bij diagnostiek. Het is belangrijk dat tandartsen een beter zicht krijgen op de factoren die meespelen bij het stellen van een juiste diagnose en de daaropvolgende besluitvorming (afb. 1). Meer dan nu het geval is dienen zij ook inzicht te krijgen in hun eigen diagnostische nauwkeurigheid om die - waar nodig - te kunnen verbeteren en om in te kunnen schatten wat de consequenties zijn van informatie van wetenschappelijke publicaties voor hun eigen praktijk. In het onderwijs worden al verschillende programma’s gebruikt om de aankomende generatie van tandartsen hierbij te ondersteunen (Mileman et al, 2004). Met de verdere ontwikkeling van dergelijke programma’s via internet zullen deze ook mogelijk voor tandartsen gemakkelijker beschikbaar komen. Ten slotte zal ook verder onderzoek naar de waarderingen van patiënten en tandartsen voor tandheelkundige uitkomsten noodzakelijk zijn, om de evidence-based onderbouwing van de tandheelkundige diagnostiek te verbeteren en zo een steeds betere bijdrage te kunnen leveren aan de uitkomst voor de patiënt. 193 Mileman en Van den Hout: Evidence-based diagnostiek en besluitvorming Literatuur > Sanden WJM van der, Nienhuijs MEL, Mettes TG. De rol van richtlijnen en > Aartman IHA, Loveren C van. Onderzoeksontwerpen en de ladder van evi- systematische literatuuroverzichten in de tandheelkundige zorgverlening. Ned Tijdschr Tandheelkd 2007; 114: 179-186. dence. Ned Tijdschr Tandheelkd 2007; 114: 166-171. > Bhandari M, Montori VM, Swiontkowski MF, Guyatt H. User’s guide to the > Sedaghatfar M, August MA, Dodson TB. Panoramic radiographic findings as surgical literature: how to use an article about a diagnostic test. J Bone Joint predictors of inferior alveolar nerve exposure following third molar extraction. J Oral Maxillofac Surg 2005; 63: 3-7. Surg Am 2003; 85a: 1133-1140. > Bossuyt PM, Reitsema JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM et al. > Stheeman SE, Mileman PA, Hof MA van ’t, Stelt PF van der. An approach to The STARD statement for reporting studies of diagnostic accuracy: expla- the development of decision support for diagnosing pathology from radiographs. Dentomaxillofac Radiol 1995; 24: 238-242. nation and elaboration. Clin Chem 2003; 49: 7-18. > Bader J, Ismail A. Survey of systematic reviews in dentistry. J Am Dent Assoc > SUMSEARCH. University of Texas Health Sciences Center, Department of medicine-medical informatics. http://sumsearch.uthscsa.edu/ (gezien op 2004; 135: 464-473. > Devillé WL. Evidence in diagnostic research. Reviewing diagnostic accuracy: from search to guidelines. Amsterdam/Wageningen: Vrije Universiteit/Pon- 19-07-2006). > Taylor-Weetman K, Wake B, Hyde C. Comparison of panoramic and bitewing radiography for the detection of dental caries: a systematic review of sen & Looijen, 2001. Academisch proefschrift. > Erkel AR van, Pattynama PMT. Receiver operating characteristic (ROC) analysis: basic principles and applications in radiology. Eur J Radiol 1998; 27: 88-94. diagnostic tests. Birmingham: University of Birmingham, 2002. http://www.pcpoh.bham.ac.uk/publichealth/wmhtac/pdf/dental_caries.pdf. > Wenzel A, Hintze H. The choice of gold standard for evaluating tests for caries > Europese Commissie. Radiation protection. European Guidelines on radiation protection in dental radiology. The safe use of radiographs in dental practice. Luxembourg: Office for official publications of the European Communities, 2004. http://ec.europa.eu/energy/nuclear/radioprotection/publication/ doc/136_en.pdf (gezien op 19-07-2006). diagnosis. Dentomaxillofac Radiol 1999; 28: 132-136. > White SC. Computer-aided differential diagnosis of oral radiographic lesions. Dentomaxillofacial Radiol 1989; 18: 53-59. > White SC, ORAD II Oral Radiographic Differential Diagnosis. ORAD for the Web - ORAD Version 2.0. > Fyffe HE, Kay EJ. Assessment of dental health state utilities. Community Dent Oral Epidemiol 1992; 20: 269-273. http://www.orad.org/ (gezien op 19-07-2006). > Wulff HR. Rational diagnosis and treatment. An introduction to clinical > Glas AS. Beyond diagnostic accuracy: applying and extending methods for decision making. Oxford: Blackwell Scientific Publications, 1981. diagnostic test research. Amsterdam: Universiteit van Amsterdam, 2003. Academisch proefschrift. > Hunink M, Glasziou P, Siegel J et al. Decision making in health and medicine. Summary Integrating evidence and values. Cambridge: Cambridge University Press, 2001. > Jaeschke R, Guyatt G, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients? The Evidence-Based Medicine Working Group. JAMA 1994; 271: 703-707. > Mileman PA, Hout WB van den. Comparing the accuracy of Dutch dentists and dental students in radiographic diagnosis of dentinal caries. Dentomaxillofac Radiol 2002; 31: 7-14. > Mileman PA, Hout WB van den. Preferences for oral health states: effect on prescribing periapical radiographs. Dentomaxillofac Radiol 2003; 32: 401-407. > Mileman PA, Hout WB van den, Sanderink GC. Looking for caries…? Teachers evaluate a program to improve caries diagnosis from radiographs. Eur J Dent Educ 2004; 8: 35-42. > Mileman PA, Kievit J. Efficiëntie van diagnostiek en kwaliteit van besluitvor- Evidence-based diagnosis and clinical decision making The application of evidence-based dentistry to diagnosis should result in a reduction in errors in decision making. The frequency of errors is dependent not only on the accuracy of a diagnostic test for pathology but also on the prior chance of disease being present. If this chance is low and below a certain threshold then, for example, applying a diagnostic test can result in more decision errors and therefore inappropriate treatment than omitting to use the test. In deciding on the usefulness of a diagnostic test an additional factor to take into account is the relative value of the possible health states resulting from diagnosis and subsequent therapy. These can be determined by eliciting from the patient the numerical values of the appropriate dental health conditions using a visual analogue scale technique. Although clinical decision analysis is starting to influence the development of guidelines for the diagnostic use of radiographs, its application in dentistry needs further refinement and development. ming: klinische besliskunde. In: Stelt PF van der, Arnold LV, Duinkerke ASH, Sandrink GCH (red.). Tandheelkundige radiologie. Houten: Bohn Stafleu Bron van Loghum: 1995. > Offringa M, Assendelft WJ, Scholten RJ. Inleiding in evidence-based medicine. Klinische handelen gebaseerd op bewijsmateriaal. Houten/Diegem; Bohn Stafleu van Loghum, 2000. > Pretty IA, Maupomé G. A closer look at diagnosis in clinical dental practice: part 3. Effectiveness of radiographic diagnostic procedures. J Can Dent Assoc 2004; 70: 388-394. > Rohlin M, Mileman PA. Decision analysis in dentistry - the last 30 years. P.A. Mileman1, W.B. van den Hout2 Uit 1de afdeling Tandheelkundige Radiologie van het Academische Centrum voor Tandheelkunde Amsterdam (ACTA) en 2de Medische Besliskunde van het Leids Universitair Medisch Centrum (LUMC). Datum van acceptatie: 29 januari 2007 Adres: dr. P.A. Mileman, ACTA, Louwesweg 1, 1066 EA Amsterdam phil.mileman@acta.nl J Dent 2000; 28; 453-468. 194 Ned Tijdschr Tandheelkd 114 april 2007