Radiograf Rådet
H.C Ørstedsvej 70, 2.tv
Telefon: 35374339
Fax: 35 37 43 42
Email: kontakt@radiograf.dk
Af Jakob M Møller, forskningsradiograf Ph.D.
Radiologiske undersøgelser bliver brugt til at hjælpe med at diagnosticere og behandle patienter. Men radiologiske undersøgelser bliver også i høj grad brugt til at kontrollere, om behandlingen virker. Et eksempel kan være kontrol af et knoglebrud, hvor der tages regelmæssige røntgenbilleder for at kontrollere knoglenydannelsen og dermed helingen af bruddet. Et andet eksempel kan være kontrol efter fjernelse af uretersten, hvor der foretages CT-urografi for at kontrollere, at det nyreudskilte kontraststof kan passere ureter igen. I det sidste eksempel med ureterstenen er det radiologiske udkomme, også kaldet effektmål (engelsk: outcome measure), om der er kontrastpassage gennem ureter eller ej. I eksemplet med knoglebruddet er effektmålet gradueret, idet der er forskellige stadier i knoglehelingen, som kan ses på røntgenbillederne med varierende grader af callusdannelse.
Ved nogle sygdomme kan det være ønskeligt at monitorere sygdommen tættere. Måske er det ikke muligt at kurere sygdommen, og det kan derfor være interessant at vide, om sygdommen er i ro, eller der er progression. Til denne vurdering er det nødvendigt at have nogle pålidelige effektmål. Det kan være rent metriske mål som f.eks. målingen af venstre hjertekammers pumpeevne eller aortas tværsnitsmål. Det kan være ændringer i tumorstørrelser, som bruges i RECIST kriterierne [1], ændringer i antal cerebrale læsioner ved dissemineret sklerose [2], eller en kombination af flere forskellige mål lagt sammen til et resultat som i Myeloma Response Assessment and Diagnosis System (MY-RADS) [3], hvor et tal mellem 1 og 5 beskriver sandsynligheden for progression af sygdommen.
I de inflammatoriske artritter (reumatoid-, psoriasis- og spondylartrit) ses respons i knoglemarven som et ødem i knoglemarven på fedtundertrykte væskefølsomme sekvenser såsom fedtsaturerede T2-vægtede og STIR sekvenser. Knoglemarvsødem vurderet ved MR skanning af sakroiliakaleddene og columna er meget brugt som effektmål for inflammation i kliniske forsøg med patienter, som har axial spondylartrit [4]. For at bruge knoglemarvsødem som effektmål er det nødvendigt at standardisere metoden som bruges til at vurdere billederne. Flere forskellige grupper har gennem tiden udarbejdet scoringsmetoder, hvor Berlin- [5] , Aarhus- [6] CanDen- [7] metoderne har været brugt i kliniske forsøg, men specielt Spondyloarthritis research Consortium of Canada sakroiliakaled inflammations index (SPARCC-BME) [8] er vel valideret og har været brugt i flere randomiserede kontrollerede kliniske studier. SPARCC-BME metoden bygger i korthed på antal, størrelse og signalintensitet af knoglemarvsødemer.
I reumatologien bruges radiologiske undersøgelser ofte som effektmål i kliniske studier, og det er derfor nødvendigt, at disse effektmål er validerede. Når de er det, kan de bruges til at bekræfte eller afvise opstillede hypoteser i kliniske studier. OMERACT (Outcome Measures in Rheumatology) er en faglig organisation, der arbejder med validering af effektmål i reumatologien. OMERACT kalder deres retningslinjer for et valideringsfilter, som har tre kriterier: sandhed (truth), diskriminant (discrimination) og gennemførlighed (feasibility) [9].
Sandhed. Videnskabelige spørgsmål der knytter sig til dette punkt: Er effektmålet sandt, dvs. måler det, hvad det er intetionen at måle? Er resultatet fejlfrit (un-biased) og relevant? Dermed indeholder dette punkt elementer af overflade-, indholds-, begrebs- og kriterie-validitet.
Diskriminant. Kan effektmålet skelne mellem to relaterede sygdomme på samme tidspunkt med henblik på diagnose, klassifikation eller prognose, f.eks mekaniske og inflammatoriske rygsmerter? Kan effektmålet skelne en sygdom på forskellige tidspunkter med henblik på f.eks. vurdering af behandlingsrespons? En høj diskriminant validitet kræver, at måleusikkerheden er lav, og at effektmålet overstiger måleusikkerheden, således at kliniske relevante ændringer i sygdommen kan fastlægges. Derved omfatter diskriminant-validiteten store dele af pålideligheden som f.eks reproducerbarhed i form af test-retest reproducerbarhed samt inter- og intra-observations reproducerbarhed.
Gennemførlighed. Er effektmålet realistisk at bruge mht tidsforbrug? (både for undersøgelsen men også tolkningen) Er undersøgelsen noget, som kun kan foretages få steder? Er det økonomisk overkommeligt?
En diffusionsvægtet sekvens er i sin simpleste form en T2-vægtet spin ekko sekvens (lang repetitionstid, TR og lang ekko tid, TE), hvor der er påtrykt to gradienter på hver side af 180 graders RF pulsen. Den første gradient vil få vandmolekyler til at defase, og den anden gradient vil få dem til at refase. Hvis vandmolekylet har bevæget sig i tiden (diffunderet) mellem de to gradienter, vil det ikke kunne refase fuldstændigt, hvilket resulterer i et mindre signalrigt ekko i forhold til, hvis vandmolekylet havde ligget fuldstændig stille og dermed var fuldt refaset. Derved kan diffusionsvægtning betragtes som et billede af vandmolekylers hastighed i væv. Denne hastighed kan beregnes og kaldes diffusionskoefficienten (apparent diffusion coefficient – ADC).
Da vandmolekyler ikke frit kan diffundere igennem cellemembraner, foregår bevægelsen mellem cellerne, kaldet det intercellulære rum. Hvor der er langt mellem cellerne, bliver diffusionen høj, hvorimod den bliver hæmmet ved korte afstande mellem celler. Indirekte kan ADC således betragtes som et udtryk for cellulariteten, dvs. antal celler pr voxel, og dermed muligvis bruges som et effektmål for inflammation.
Til at validere ADC som effektmål med OMRACT filteret ved axSpa og kronisk non-bakteriel osteit blev ADC testet i tre prospektive studier. Det første studie var et tværsnitsstudie af sakroiliacaleddene hos axSpA patienter og raske kontrolpersoner, hvor alle blev skannet 2 gange med en uges mellemrum [10, 11]. Det andet studie et 52 ugers åbent interventionsstudie af sakroiliakaleddene hos axSpA patienter, hvor patienterne blev behandlet med biologisk medicin og skannet ved start, uge 4, 16 og 52 [12]. Det tredje studie var et 36 ugers randomiseret kontrolleret studie (RCT) af patienter med kronisk non-bakteriel osteit, som blev behandlet med enten pamidronat eller placebo, og fik lavet helkrops MR ved start samt efter 12 og 36 uger [13].
Sagittalt reformateret diffusionsbillede (b=800) af en patient med kronisk non-bakteriel osteit. Multiple knoglemarvslæsioner ses som signalrige områder i cervial og thorakal kolumna samt manubrium og sternum.
Overfladevaliditeten for ADC er ikke umiddelbar indlysende. Hvorfor er et mål for cellulariteten sammenligneligt med inflammation i knoglemarv? I prostatacancer studier har det vist sig at ADC korrelerer med Gleason scoren [14], som siger noget om aggressiviteten af tumoren, og i lymfomer korrelerer ADC med Ki-67, som er et vækst index [15]. På den baggrund synes det plausibelt, at antallet af inflammatoriske celler i et knoglemarvsødem udtrykt ved en ADC værdi er et mål for den totale inflammation, og dermed har ADC overfladevaliditet.
Knoglemarvsødemer i patienter med kronisk non-bakteriel osteit er ofte lokaliseret mange steder i kroppen, og selvom ikke alle disse ødemer forårsager smerter, betragtes de som lige vigtige i vurderingen af sygdommen. Derfor har helkrops MR i stedet for sædvanlig regional MR mulighed for at vise hele sygdomsudbredningen i en undersøgelse og dermed høj indholdsvaliditet. Hos patienter med axSpA, hvor ADC måles i sakroiliakaleddene, er der formentligt ligeså høj indholdsvaliditet som for den sædvanligt brugte metode – SPARCC-BME, men dette skal dog valideres yderligere.
Hvis ADC skal have begrebsvaliditet, skal ADC være relateret til andre inflammationsmål. I tidligere tværsnitsstudier er der i nogle studier fundet korrelation med C-reaktivt protein [16, 17], mens det modsatte er fundet i andre [18, 19]. I et enkelt longitudinelt studie er der rapporteret statisk signifikante fald i C-reaktivt protein og ADC, men eventuel korrelation er ikke angivet [20]. I tværsnitsstudiet fandtes ingen korrelation mellem C-reaktivt protein og ADC men der i det longitudinelle studie fandtes en positiv korrelation til de tidligere ændringer (uge 0 til 4) i C-reaktivt protein og ADC. For at uddybe begrebsvaliditeten bør disse forskelligrettede resultater undersøges nærmere.
Referencestandard og samstemmende validitet
Den ideelle referencestandard for både axSpA og kronisk non-bakteriel osteit vil være histologi baseret inflammation fundet ved knoglemarvsbiopsier. Imidlertid er der ikke publiceret sådanne studier, hvorfor en anden referencestandard må bruges. Histologisk fundet inflammation og gadolinium kontrastforstærkning ved axSpA er korrelerede [21], og gadolinium kontrastforstærkning er korreleret til knoglemarvsødem [22], hvorfor knoglemarvsødem synes plausibel at bruge som referencestandard. Både i tværsnitsstudiet og ved første skanning i det longitudinelle studie var ADC korreleret med SPARCC- BME, hvilket er sammenligneligt med tidligere studier [18, 23], men også ændringerne i ADC og SPARCC-BME mellem de enkelte tidspunkter i det longitudinelle studie var korrelerede, hvilket resulterer i høj sammenstemmende validitet. I studiet af patienter med non-bakterielle osteitis fandtes ingen sammenhæng mellem ADC og knoglemarvsødem, og yderligere undersøgelser er nødvendige.
Prædiktion
I det longitudinelle studie af axSpA patienter var det ikke muligt for ADC ved første skanning og ved ændringer i ADC mellem de følgende skanninger at forudsige det kliniske udfald efter 52 uger. Dog skal det nævnes, at der ved uge 52 ikke var nogen forskel i ADC mellem de patienter, der klinisk responderede på behandlingen, og dem, der ikke gjorde. Der er ikke andre studier, som har undersøgt den prædiktive værdi af ADC hos axSpA patient, men enkelte studier har undersøgt den prædiktive værdi af SPARCC- BME scoren. Her er der vist at en højere score ved start af behandlingen giver bedre klinisk udkomme [24, 25]. Den prædiktive validitet af ADC er meget sparsomt undersøgt, og fremtidig validering af dette er velkomment.
Test-retest reproducerbarhed
I tværsnits-studiet blev alle deltagere skannet to gange med en uges mellemrum. Reproducerbarheden som udtrykt ved korrelationen mellem første og anden skanning (IntraClass Corellation Coefficient, ICC) var god for axSpA patienter, mens den var dårlig for de raske kontrolpersoner. Den absolutte overensstemmelse mellem første og anden skanning (Bland-Altmann plots) viste en meget lille systematisk bias og snævre 95% grænser for overensstemmelse (limits of agreement). Ingen andre har rapporteret test-retest reproducerbarheden for axSpA, men da 95% grænsen for overensstemmelse er lavere end hvad andre har rapporteret af behandlingsinducerede ADC ændringer [18, 22], er måleusikkerheden lavere end klinisk relevante ændringer, og derfor kan ADC opfattes som et reproducerbart effektmål.
Interobservations reproducerbarhed
I tværsnitsstudiet blev der målt moderat reproducerbarhed (ICC = 0,71) hvilket var lavere, end andre har rapporteret [26, 27]. I studiet af non-bakterielle osteitter var reproducerbarheden dårlig. En årsag til den dårlige reproducerbarhed var sandsynligvis manglende skriftlig beskrivelse af fremgangsmåden og manglende kalibrering af bedømmerne.
Intraobservations reproducerbarhed
I studiet af de non-bakterielle osteitter var reproducerbarheden høj (ICC = 0.86). Ligeledes i tværsnitsstudiet var der høj intraobservations reproducerbarhed (ICC > 0,85), hvilket er i overensstemmelse et andet studie af axSpA [18].
Følsomhed
For at ADC i praksis kan bruges som effektmål, kræves det, at behandlingsrelaterede ændringer i ADC på populationsniveau er større end 95% grænsen for overensstemmelse, som bestemt i tværsnitsstudiet; yderligere, er større end den mindste detekterbare ændring, som beregnet i tværsnits- og RCT-studiet og har stor følsomhed (responsiveness), som beregnet i det longitudinelle studie.
I studiet af de kroniske non-bakterielle osteitter sås en ændring i ADC, men den var ikke større end måleusikkerheden, og det kan derfor ikke siges, at ADC ændringerne var forårsaget af behandlingen. I det longitudinelle studie fandtes ADC med ligeså høj følsomhed som SPARCC-BME, hvilket også har været vist i et tidligere studie [18].
Sammenfattende er diskriminant-validiteten høj for ADC ved undersøgelser af axSpA patienter, mens den ikke er mulig at vurdere for kroniske non-bakterielle osteitis patienter.
Gennemførlighed MR skanning af axSpA og kronisk non-bakteriel osteitis foretages rutinemæssigt ved udredning og opfølgning med T1 vægtede og STIR sekvenser. Den ekstra DWI sekvens varede i de to axSpA studier mellem 3 og 5½ minut, mens det i helkrops studiet tog ca 3 x 5 minutter. Vurderingen af billederne var meget tidskrævende i tværsnitsstudiet, da sakroiliakaleddene blev gennemgået systematisk, mens vurderingen i de to andre studier var læsionsbaseret og således væsentligt mindre tidskrævende. Samlet set vurderes det at brugen ADC som effektmål for inflammation i knoglemarven er gennemførligt.
ADC som effektmål er valideret til brug i kliniske studier med axSpA patienter, men ikke til patienter med kronisk non-bakteriel osteitis. Yderligere validering er ønskeligt for specielt den prædiktive værdi af ADC.
Diffusionsvægtet MR skanning af inflammeret knoglemarv med ADC som effektmål er ikke klar til klinisk praksis idet flere spørgsmål mangler afklaring. Derfor er implikationen for klinisk radiografpraksis endnu ikke stor. Derimod er implikationen for radiografforskning stor. I de ovenstående tre studier er der brugt single-shot echoplanar diffusionssekvenser. Disse bør sammenlignes med specielt turbo spin ekko diffusionssekvenser i fremtidige studier for at måle sammenlignelighed i ADC værdier og susceptibilitetsartefakter. Yderligere bør andre snitplaner og feltstyrker undersøges, ligesom prædiktion af strukturelle langtidsskader bør studeres.
Engelsk | Dansk |
---|---|
Face | Overflade: Måler effektmålet det som det ønskes målt? |
Content | Indhold: Dækker effektmålet alle de ting som ønskes dækket? |
Construct | Begreb: Repræsenterer effektmålet den underliggende tilstand som ønskes undersøgt? |
Criterion | Kriterie: hvor god er effektmålets korrelation til en reference standard? |
Concurrent | Samstemmende: hvor godt korrelerer effektmålet med en referencestandard målt samtidigt? |
Predictive | Prædiktiv: hvor god er effektmålet til at forudsige en reference standard hændelse? |
Discriminant | Diskrimination: Kan effektmålet måle klinisk relevante ændringer? |
Tabel 1: Validitetsbegreber
Engelsk | Dansk |
---|---|
Feasibility | Gennemførlighed. Er effektmålet realistisk at bruge tidsmæssigt, tilgængelighedsmæssigt og økonomisk? |
Test-retest repeatability | Test-retest reproducerbarhed. Graden af overensstemmelse af effektmålet målt ved to skanninger udført med samme apparatur med kort tid imellem skanningerne. |
Inter-rater reliability | Inter-observations reproducerbarhed. Graden af overensstemmelse af effektmålet målt af to observatører på den samme skanning. |
Intra-rater reliability | Intra-observations reproducerbarhed. Graden af overensstemmelse af effektmålet målt af den samme observatør to gange på den samme skanning. |
Smallest detectable change | Mindste detekterbare ændring. Den mindste statistisk signifikante ændring i effektmålet, der kan måles. |
Responsiveness | Følsomhed. Hvor godt kan effektmålet vise kliniske relevante ændringer. |
Tabel 2: Pålidelighedsbegreber