Validering af diffusionsvægtet MR som effektmål ved axial spondylartrit og kronisk non-bakterial osteit

Ved behandling af artritter og osteitter bruges MR påvist knoglemarvsødem ofte som effektmål. Måske kan diffusionsvægtet MR også bruges. Dette har været undersøgt i et Ph.d. studium.

Af Jakob M Møller, forskningsradiograf Ph.D.

 

Indledning

Radiologiske undersøgelser bliver brugt til at hjælpe med at diagnosticere og behandle patienter. Men radiologiske undersøgelser bliver også i høj grad brugt til at kontrollere, om behandlingen virker. Et eksempel kan være kontrol af et knoglebrud, hvor der tages regelmæssige røntgenbilleder for at kontrollere knoglenydannelsen og dermed helingen af bruddet. Et andet eksempel kan være kontrol efter fjernelse af uretersten, hvor der foretages CT-urografi for at kontrollere, at det nyreudskilte kontraststof kan passere ureter igen. I det sidste eksempel med ureterstenen er det radiologiske udkomme, også kaldet effektmål (engelsk: outcome measure), om der er kontrastpassage gennem ureter eller ej. I eksemplet med knoglebruddet er effektmålet gradueret, idet der er forskellige stadier i knoglehelingen, som kan ses på røntgenbillederne med varierende grader af callusdannelse.

 

Ved nogle sygdomme kan det være ønskeligt at monitorere sygdommen tættere. Måske er det ikke muligt at kurere sygdommen, og det kan derfor være interessant at vide, om sygdommen er i ro, eller der er progression. Til denne vurdering er det nødvendigt at have nogle pålidelige effektmål. Det kan være rent metriske mål som f.eks. målingen af venstre hjertekammers pumpeevne eller aortas tværsnitsmål. Det kan være ændringer i tumorstørrelser, som bruges i RECIST kriterierne [1], ændringer i antal cerebrale læsioner ved dissemineret sklerose [2], eller en kombination af flere forskellige mål lagt sammen til et resultat som i Myeloma Response Assessment and Diagnosis System (MY-RADS) [3], hvor et tal mellem 1 og 5 beskriver sandsynligheden for progression af sygdommen.

 

I de inflammatoriske artritter (reumatoid-, psoriasis- og spondylartrit) ses respons i knoglemarven som et ødem i knoglemarven på fedtundertrykte væskefølsomme sekvenser såsom fedtsaturerede T2-vægtede og STIR sekvenser. Knoglemarvsødem vurderet ved MR skanning af sakroiliakaleddene og columna er meget brugt som effektmål for inflammation i kliniske forsøg med patienter, som har axial spondylartrit [4]. For at bruge knoglemarvsødem som effektmål er det nødvendigt at standardisere metoden som bruges til at vurdere billederne. Flere forskellige grupper har gennem tiden udarbejdet scoringsmetoder, hvor Berlin- [5] , Aarhus- [6] CanDen- [7] metoderne har været brugt i kliniske forsøg, men specielt Spondyloarthritis research Consortium of Canada sakroiliakaled inflammations index (SPARCC-BME) [8] er vel valideret og har været brugt i flere randomiserede kontrollerede kliniske studier. SPARCC-BME metoden bygger i korthed på antal, størrelse og signalintensitet af knoglemarvsødemer.

 

OMERACT

I reumatologien bruges radiologiske undersøgelser ofte som effektmål i kliniske studier, og det er derfor nødvendigt, at disse effektmål er validerede. Når de er det, kan de bruges til at bekræfte eller afvise opstillede hypoteser i kliniske studier. OMERACT (Outcome Measures in Rheumatology) er en faglig organisation, der arbejder med validering af effektmål i reumatologien. OMERACT kalder deres retningslinjer for et valideringsfilter, som har tre kriterier: sandhed (truth), diskriminant (discrimination) og gennemførlighed (feasibility) [9].

 

Sandhed. Videnskabelige spørgsmål der knytter sig til dette punkt: Er effektmålet sandt, dvs. måler det, hvad det er intetionen at måle? Er resultatet fejlfrit (un-biased) og relevant? Dermed indeholder dette punkt elementer af overflade-, indholds-, begrebs- og kriterie-validitet.

 

Diskriminant. Kan effektmålet skelne mellem to relaterede sygdomme på samme tidspunkt med henblik på diagnose, klassifikation eller prognose, f.eks mekaniske og inflammatoriske rygsmerter? Kan effektmålet skelne en sygdom på forskellige tidspunkter med henblik på f.eks. vurdering af behandlingsrespons? En høj diskriminant validitet kræver, at måleusikkerheden er lav, og at effektmålet overstiger måleusikkerheden, således at kliniske relevante ændringer i sygdommen kan fastlægges. Derved omfatter diskriminant-validiteten store dele af pålideligheden som f.eks reproducerbarhed i form af test-retest reproducerbarhed samt inter- og intra-observations reproducerbarhed.

 

Gennemførlighed. Er effektmålet realistisk at bruge mht tidsforbrug? (både for undersøgelsen men også tolkningen) Er undersøgelsen noget, som kun kan foretages få steder? Er det økonomisk overkommeligt?

 

Diffusionsvægtet MR som effektmål

En diffusionsvægtet sekvens er i sin simpleste form en T2-vægtet spin ekko sekvens (lang repetitionstid, TR og lang ekko tid, TE), hvor der er påtrykt to gradienter på hver side af 180 graders RF pulsen. Den første gradient vil få vandmolekyler til at defase, og den anden gradient vil få dem til at refase. Hvis vandmolekylet har bevæget sig i tiden (diffunderet) mellem de to gradienter, vil det ikke kunne refase fuldstændigt, hvilket resulterer i et mindre signalrigt ekko i forhold til, hvis vandmolekylet havde ligget fuldstændig stille og dermed var fuldt refaset. Derved kan diffusionsvægtning betragtes som et billede af vandmolekylers hastighed i væv. Denne hastighed kan beregnes og kaldes diffusionskoefficienten (apparent diffusion coefficient – ADC).

 

Da vandmolekyler ikke frit kan diffundere igennem cellemembraner, foregår bevægelsen mellem cellerne, kaldet det intercellulære rum. Hvor der er langt mellem cellerne, bliver diffusionen høj, hvorimod den bliver hæmmet ved korte afstande mellem celler. Indirekte kan ADC således betragtes som et udtryk for cellulariteten, dvs. antal celler pr voxel, og dermed muligvis bruges som et effektmål for inflammation.

 

Til at validere ADC som effektmål med OMRACT filteret ved axSpa og kronisk non-bakteriel osteit blev ADC testet i tre prospektive studier. Det første studie var et tværsnitsstudie af sakroiliacaleddene hos axSpA patienter og raske kontrolpersoner, hvor alle blev skannet 2 gange med en uges mellemrum [10, 11]. Det andet studie et 52 ugers åbent interventionsstudie af sakroiliakaleddene hos axSpA patienter, hvor patienterne blev behandlet med biologisk medicin og skannet ved start, uge 4, 16 og 52 [12]. Det tredje studie var et 36 ugers randomiseret kontrolleret studie (RCT) af patienter med kronisk non-bakteriel osteit, som blev behandlet med enten pamidronat eller placebo, og fik lavet helkrops MR ved start samt efter 12 og 36 uger [13].

 

Sagittalt reformateret diffusionsbillede (b=800) af en patient med kronisk non-bakteriel osteit. Multiple knoglemarvslæsioner ses som signalrige områder i cervial og thorakal kolumna samt manubrium og sternum.

 

Sandhed Overflade- og indholdsvaliditet

Overfladevaliditeten for ADC er ikke umiddelbar indlysende. Hvorfor er et mål for cellulariteten sammenligneligt med inflammation i knoglemarv? I prostatacancer studier har det vist sig at ADC korrelerer med Gleason scoren [14], som siger noget om aggressiviteten af tumoren, og i lymfomer korrelerer ADC med Ki-67, som er et vækst index [15]. På den baggrund synes det plausibelt, at antallet af inflammatoriske celler i et knoglemarvsødem udtrykt ved en ADC værdi er et mål for den totale inflammation, og dermed har ADC overfladevaliditet.

 

Knoglemarvsødemer i patienter med kronisk non-bakteriel osteit er ofte lokaliseret mange steder i kroppen, og selvom ikke alle disse ødemer forårsager smerter, betragtes de som lige vigtige i vurderingen af sygdommen. Derfor har helkrops MR i stedet for sædvanlig regional MR mulighed for at vise hele sygdomsudbredningen i en undersøgelse og dermed høj indholdsvaliditet. Hos patienter med axSpA, hvor ADC måles i sakroiliakaleddene, er der formentligt ligeså høj indholdsvaliditet som for den sædvanligt brugte metode – SPARCC-BME, men dette skal dog valideres yderligere.

 

Begrebsvaliditet

Hvis ADC skal have begrebsvaliditet, skal ADC være relateret til andre inflammationsmål. I tidligere tværsnitsstudier er der i nogle studier fundet korrelation med C-reaktivt protein [16, 17], mens det modsatte er fundet i andre [18, 19]. I et enkelt longitudinelt studie er der rapporteret statisk signifikante fald i C-reaktivt protein og ADC, men eventuel korrelation er ikke angivet [20]. I tværsnitsstudiet fandtes ingen korrelation mellem C-reaktivt protein og ADC men der i det longitudinelle studie fandtes en positiv korrelation til de tidligere ændringer (uge 0 til 4) i C-reaktivt protein og ADC. For at uddybe begrebsvaliditeten bør disse forskelligrettede resultater undersøges nærmere.

 

Kriterievaliditet

Referencestandard og samstemmende validitet
Den ideelle referencestandard for både axSpA og kronisk non-bakteriel osteit vil være histologi baseret inflammation fundet ved knoglemarvsbiopsier. Imidlertid er der ikke publiceret sådanne studier, hvorfor en anden referencestandard må bruges. Histologisk fundet inflammation og gadolinium kontrastforstærkning ved axSpA er korrelerede [21], og gadolinium kontrastforstærkning er korreleret til knoglemarvsødem [22], hvorfor knoglemarvsødem synes plausibel at bruge som referencestandard. Både i tværsnitsstudiet og ved første skanning i det longitudinelle studie var ADC korreleret med SPARCC- BME, hvilket er sammenligneligt med tidligere studier [18, 23], men også ændringerne i ADC og SPARCC-BME mellem de enkelte tidspunkter i det longitudinelle studie var korrelerede, hvilket resulterer i høj sammenstemmende validitet. I studiet af patienter med non-bakterielle osteitis fandtes ingen sammenhæng mellem ADC og knoglemarvsødem, og yderligere undersøgelser er nødvendige.

 

Prædiktion
I det longitudinelle studie af axSpA patienter var det ikke muligt for ADC ved første skanning og ved ændringer i ADC mellem de følgende skanninger at forudsige det kliniske udfald efter 52 uger. Dog skal det nævnes, at der ved uge 52 ikke var nogen forskel i ADC mellem de patienter, der klinisk responderede på behandlingen, og dem, der ikke gjorde. Der er ikke andre studier, som har undersøgt den prædiktive værdi af ADC hos axSpA patient, men enkelte studier har undersøgt den prædiktive værdi af SPARCC- BME scoren. Her er der vist at en højere score ved start af behandlingen giver bedre klinisk udkomme [24, 25]. Den prædiktive validitet af ADC er meget sparsomt undersøgt, og fremtidig validering af dette er velkomment.

 

Diskriminant validitet

Test-retest reproducerbarhed
I tværsnits-studiet blev alle deltagere skannet to gange med en uges mellemrum. Reproducerbarheden som udtrykt ved korrelationen mellem første og anden skanning (IntraClass Corellation Coefficient, ICC) var god for axSpA patienter, mens den var dårlig for de raske kontrolpersoner. Den absolutte overensstemmelse mellem første og anden skanning (Bland-Altmann plots) viste en meget lille systematisk bias og snævre 95% grænser for overensstemmelse (limits of agreement). Ingen andre har rapporteret test-retest reproducerbarheden for axSpA, men da 95% grænsen for overensstemmelse er lavere end hvad andre har rapporteret af behandlingsinducerede ADC ændringer [18, 22], er måleusikkerheden lavere end klinisk relevante ændringer, og derfor kan ADC opfattes som et reproducerbart effektmål.

 

Interobservations reproducerbarhed
I tværsnitsstudiet blev der målt moderat reproducerbarhed (ICC = 0,71) hvilket var lavere, end andre har rapporteret [26, 27]. I studiet af non-bakterielle osteitter var reproducerbarheden dårlig. En årsag til den dårlige reproducerbarhed var sandsynligvis manglende skriftlig beskrivelse af fremgangsmåden og manglende kalibrering af bedømmerne.

 

Intraobservations reproducerbarhed
I studiet af de non-bakterielle osteitter var reproducerbarheden høj (ICC = 0.86). Ligeledes i tværsnitsstudiet var der høj intraobservations reproducerbarhed (ICC > 0,85), hvilket er i overensstemmelse et andet studie af axSpA [18].

 

Følsomhed
For at ADC i praksis kan bruges som effektmål, kræves det, at behandlingsrelaterede ændringer i ADC på populationsniveau er større end 95% grænsen for overensstemmelse, som bestemt i tværsnitsstudiet; yderligere, er større end den mindste detekterbare ændring, som beregnet i tværsnits- og RCT-studiet og har stor følsomhed (responsiveness), som beregnet i det longitudinelle studie.

 

I studiet af de kroniske non-bakterielle osteitter sås en ændring i ADC, men den var ikke større end måleusikkerheden, og det kan derfor ikke siges, at ADC ændringerne var forårsaget af behandlingen. I det longitudinelle studie fandtes ADC med ligeså høj følsomhed som SPARCC-BME, hvilket også har været vist i et tidligere studie [18].

 

Sammenfattende er diskriminant-validiteten høj for ADC ved undersøgelser af axSpA patienter, mens den ikke er mulig at vurdere for kroniske non-bakterielle osteitis patienter.

 

Gennemførlighed

Gennemførlighed MR skanning af axSpA og kronisk non-bakteriel osteitis foretages rutinemæssigt ved udredning og opfølgning med T1 vægtede og STIR sekvenser. Den ekstra DWI sekvens varede i de to axSpA studier mellem 3 og 5½ minut, mens det i helkrops studiet tog ca 3 x 5 minutter. Vurderingen af billederne var meget tidskrævende i tværsnitsstudiet, da sakroiliakaleddene blev gennemgået systematisk, mens vurderingen i de to andre studier var læsionsbaseret og således væsentligt mindre tidskrævende. Samlet set vurderes det at brugen ADC som effektmål for inflammation i knoglemarven er gennemførligt.

 

Konklusion

ADC som effektmål er valideret til brug i kliniske studier med axSpA patienter, men ikke til patienter med kronisk non-bakteriel osteitis. Yderligere validering er ønskeligt for specielt den prædiktive værdi af ADC.

 

Implikation for radiograf praksis

Diffusionsvægtet MR skanning af inflammeret knoglemarv med ADC som effektmål er ikke klar til klinisk praksis idet flere spørgsmål mangler afklaring. Derfor er implikationen for klinisk radiografpraksis endnu ikke stor. Derimod er implikationen for radiografforskning stor. I de ovenstående tre studier er der brugt single-shot echoplanar diffusionssekvenser. Disse bør sammenlignes med specielt turbo spin ekko diffusionssekvenser i fremtidige studier for at måle sammenlignelighed i ADC værdier og susceptibilitetsartefakter. Yderligere bør andre snitplaner og feltstyrker undersøges, ligesom prædiktion af strukturelle langtidsskader bør studeres.

 

Engelsk Dansk
Face Overflade: Måler effektmålet det som det ønskes målt?
Content Indhold: Dækker effektmålet alle de ting som ønskes dækket?
Construct Begreb: Repræsenterer effektmålet den underliggende tilstand som ønskes undersøgt?
Criterion Kriterie: hvor god er effektmålets korrelation til en reference standard?
Concurrent Samstemmende: hvor godt korrelerer effektmålet med en referencestandard målt samtidigt?
Predictive Prædiktiv: hvor god er effektmålet til at forudsige en reference standard hændelse?
Discriminant Diskrimination: Kan effektmålet måle klinisk relevante ændringer?

Tabel 1: Validitetsbegreber

 

Engelsk Dansk
Feasibility Gennemførlighed. Er effektmålet realistisk at bruge tidsmæssigt, tilgængelighedsmæssigt og økonomisk?
Test-retest repeatability Test-retest reproducerbarhed. Graden af overensstemmelse af effektmålet målt ved to skanninger udført med samme apparatur med kort tid imellem skanningerne.
Inter-rater reliability Inter-observations reproducerbarhed. Graden af overensstemmelse af effektmålet målt af to observatører på den samme skanning.
Intra-rater reliability Intra-observations reproducerbarhed. Graden af overensstemmelse af effektmålet målt af den samme observatør to gange på den samme skanning.
Smallest detectable change Mindste detekterbare ændring. Den mindste statistisk signifikante ændring i effektmålet, der kan måles.
Responsiveness Følsomhed. Hvor godt kan effektmålet vise kliniske relevante ændringer.

Tabel 2: Pålidelighedsbegreber

 

Referencer

  1. Eisenhauer EA, Therasse P, Bogaerts J, Schwartz LH, Sargent D, Ford R, et al. New response evaluation criteria in solid tumours: revised RECIST guideline (version 1.1). Eur J Cancer. 2009; 45(2):228-247.
  2. Rovira A, Auger C, Alonso J. Magnetic resonance monitoring of lesion evolution in multiple sclerosis. Ther Adv Neurol Disord. 2013; 6(5):298-310.
  3. Messiou C, Hillengass J, Delorme S, Lecouvet FE, Moulopoulos LA, Collins DJ, et al. Guidelines for Acquisition, Interpretation, and Reporting of Whole-Body MRI in Myeloma: Myeloma Response Assessment and Diagnosis System (MY-RADS). Radiology. 2019; 291(1):5-13.
  4. Braun J, Baraliakos X, Hermann K-G, Landewé R, Machado PM, Maksymowych WP, et al. Effect of certolizumab pegol over 96 weeks of treatment on inflammation of the spine and sacroiliac joints, as measured by MRI, and the association between clinical and MRI outcomes in patients with axial spondyloarthritis. RMD open. 2017; 3(1):e000430-e000430.
  5. Braun J, Baraliakos X, Golder W, Brandt J, Rudwaleit M, Listing J, et al. Magnetic resonance imaging examinations of the spine in patients with ankylosing spondylitis, before and after successful therapy with infliximab: evaluation of a new scoring system. Arthritis Rheum. 2003; 48(4):1126-1136.
  6. Madsen KB, Jurik AG. Magnetic resonance imaging grading system for active and chronic spondylarthritis changes in the sacroiliac joint. Arthritis Care & Research. 2010; 62(1):11-18.
  7. Krabbe S, Sørensen IJ, Jensen B, Møller JM, Balding L, Madsen OR, et al. Inflammatory and structural changes in vertebral bodies and posterior elements of the spine in axial spondyloarthritis: construct validity, responsiveness and discriminatory ability of the anatomy-based CANDEN scoring system in a randomised placebo-controlled trial. RMD Open. 2018; 4(1).
  8. Maksymowych WP, Inman RD, Salonen D, Dhillon SS, Williams M, Stone M, et al. Spondyloarthritis research Consortium of Canada magnetic resonance imaging index for assessment of sacroiliac joint inflammation in ankylosing spondylitis. Arthritis Rheum. 2005; 53(5):703-709.
  9. Boers M, Brooks P, Strand CV, Tugwell P. The OMERACT filter for Outcome Measures in Rheumatology. The Journal of rheumatology. 1998; 25(2):198-199.
  10. Møller JM, Østergaard M, Thomsen HS, Hangaard S, Sørensen IJ, Madsen OR, et al. Repeatability and reproducibility of MRI apparent diffusion coefficient applied on four different regions of interest for patients with axial spondyloarthritis and healthy volunteers scanned twice within a week. BJR|Open. 2020; 0(0):20200004.
  11. Møller JM, Østergaard M, Thomsen HS, Sørensen IJ, Madsen OR, Pedersen SJ. Test–retest repeatability of the apparent diffusion coefficient in sacroiliac joint MRI in patients with axial spondyloarthritis and healthy individuals. Acta Radiologica Open. 2020; 9(3):2058460120906015.
  12. Møller JM, Østergaard M, Thomsen HS, Krabbe S, Sørensen IJ, Jensen B, et al. Validation of assessment methods for the apparent diffusion coefficient in a clinical trial of axial spondyloarthritis patients treated with golimumab. European Journal of Radiology Open. 2020; 7:100285.
  13. Møller J. Diffusion weighted magnetic resonance imaging of the bone marrow in patients with axial spondyloarthritis and chronic nonbacterial osteitis. Copenhagen: Copenhagen University; 2020.
  14. Boesen L, Chabanova E, Logager V, Balslev I, Thomsen HS. Apparent diffusion coefficient ratio correlates significantly with prostate cancer gleason score at final pathology. Journal of magnetic resonance imaging : JMRI. 2015; 42(2):446-453.
  15. Sun M, Cheng J, Zhang Y, Bai J, Wang F, Meng Y, et al. Application of DWIBS in malignant lymphoma: correlation between ADC values and Ki-67 index. Eur Radiol. 2018; 28(4):1701-1708.
  16. Gezmis E, Donmez FY, Agildere M. Diagnosis of early sacroiliitis in seronegative spondyloarthropathies by DWI and correlation of clinical and laboratory findings with ADC values. European journal of radiology. 2013; 82(12):2316-2321.
  17. Sahin N, Hacibeyoglu H, Ince O, Solak A, Uyar B, Erol O, et al. Is there a role for DWI in the diagnosis of sacroiliitis based on ASAS criteria? International journal of clinical and experimental medicine. 2015; 8(5):7544-7552.
  18. Bradbury LA, Hollis KA, Gautier B, Shankaranarayana S, Robinson PC, Saad N, et al. Diffusion-weighted Imaging Is a Sensitive and Specific Magnetic Resonance Sequence in the Diagnosis of Ankylosing Spondylitis. The Journal of rheumatology. 2018; 45(6):771-778.
  19. Zhang P, Yu K, Guo R, Shah S, Morelli JN, Runge VA, et al. Ankylosing spondylitis: correlations between clinical and MRI indices of sacroiliitis activity. Clinical radiology. 2015; 70(1):62-66.
  20. Gaspersic N, Sersa I, Jevtic V, Tomsic M, Praprotnik S. Monitoring ankylosing spondylitis therapy by dynamic contrast-enhanced and diffusion-weighted magnetic resonance imaging. Skeletal Radiol. 2008; 37(2):123-131.
  21. Bollow M, Fischer T, Reisshauer H, Backhaus M, Sieper J, Hamm B, et al. Quantitative analyses of sacroiliac biopsies in spondyloarthropathies: T cells and macrophages predominate in early and active sacroiliitis- cellularity correlates with the degree of enhancement detected by magnetic resonance imaging. Ann Rheum Dis. 2000; 59(2):135-140.
  22. Appel H, Loddenkemper C, Grozdanovic Z, Ebhardt H, Dreimann M, Hempfing A, et al. Correlation of histopathological findings and magnetic resonance imaging in the spine of patients with ankylosing spondylitis. Arthritis Res Ther. 2006; 8(5):R143.
  23. Qin J, Zhu J, Zhang Y, Li C. DWI and SPARCC scoring assess curative effect of early ankylosing spondylitis. Open Med (Wars). 2016; 11(1):52-58.
  24. Sieper J, van der Heijde D, Dougados M, Mease PJ, Maksymowych WP, Brown MA, et al. Efficacy and safety of adalimumab in patients with non-radiographic axial spondyloarthritis: results of a randomised placebo-controlled trial (ABILITY-1). Annals of the Rheumatic Diseases. 2013; 72(6):815-822.
  25. Sieper J, Landewe R, Magrey M, Anderson JK, Zhong S, Wang X, et al. Predictors of remission in patients with non-radiographic axial spondyloarthritis receiving open-label adalimumab in the ABILITY-3 study. RMD Open. 2019; 5(1):e000917.
  26. Dallaudiere B, Dautry R, Preux PM, Perozziello A, Lincot J, Schouman-Claeys E, et al. Comparison of apparent diffusion coefficient in spondylarthritis axial active inflammatory lesions and type 1 Modic changes. European journal of radiology. 2014; 83(2):366-370.
  27. Wang F, Chu C, Zhu L, Zhao C, Wei Y, Chen W, et al. Whole-lesion ADC histogram analysis and the spondyloarthritis research consortium of canada (SPARCC) MRI index in evaluating the disease activity of ankylosing spondylitis. Journal of magnetic resonance imaging : JMRI. 2019; 50(1):114-126.

Udgivelse: Radiografen 01, februar 2021, årgang 49