Cox-proportionella riskmodeller har mer statistisk effekt än logistiska regressionsmodeller i tvärsnittsstudier av genetisk associering europeisk tidskrift för mänsklig genetik

Cox-proportionella riskmodeller har mer statistisk effekt än logistiska regressionsmodeller i tvärsnittsstudier av genetisk associering europeisk tidskrift för mänsklig genetik

Anonim

Abstrakt

Genomsnittsstudier i tvärsnitt kan analyseras med hjälp av Cox-proportionerliga riskmodeller med ålder som tidsskala, om ålder vid sjukdomens början är känd för fallen och ålder vid datainsamling är känd för kontrollerna. Vi bedömde i vilken grad och under vilka förhållanden Cox proportionella riskmodeller har mer statistisk effekt än logistiska regressionsmodeller i tvärsnittsanalyser för genetisk associering. Analyser genomfördes i en empirisk studie om föreningen av 65 polymorfismer och risken för kranskärlssjukdom bland 2400 familjära hyperkolesterolemi-patienter, och i en simuleringsstudie som beaktade olika kombinationer av provstorlek, genotypfrekvens och styrkans associering mellan genotypen och koronar hjärtsjukdom. Vi använde Cox proportionella riskmodeller och logistiska regressionsmodeller och jämförde effektberäkningar (riskförhållanden och oddsförhållanden) och statistisk effekt. I den empiriska studien visade Cox proportionella riskmodeller generellt lägre P- värden för polymorfismer än logistiska regressionsmodeller. I simuleringsstudien hade Cox proportionella riskmodeller högre statistisk effekt i alla scenarier. Absoluta skillnader i effekt berodde på effektberäkningen, genotypfrekvensen och provstorleken och var mest framträdande för genotyper med mindre effekter. Till exempel, när genotypfrekvensen var 30% i ett prov med storlek n = 2000 individer, var de absoluta skillnaderna de största för effektberäkningar mellan 1, 1 och 1, 5. Sammanfattningsvis kan Cox-proportionerliga riskmodeller öka statistisk effekt i genetiska associeringsstudier i tvärsnitt, särskilt inom det antal effektberäkningar som förväntas för genetiska föreningar i vanliga sjukdomar.

Introduktion

Epidemiologiska föreningsstudier analyseras ofta med hjälp av logistiska regressionsmodeller eller proportionerliga riskmodeller av Cox. Valet mellan de två modellerna är främst baserat på studiens utformning. Logistiska regressionsmodeller används i tvärsnitts- och fallkontrollstudier, medan Cox-proportionella riskmodeller vanligtvis tillämpas på prospektiva studier som har en uppföljningsperiod under vilken händelsens inträffande observeras. 1 Om uppföljningsdata finns tillgängliga är Cox proportionella riskmodeller de rekommenderade modellerna eftersom de har mer statistisk effekt än logistiska regressionsmodeller. 2, 3 Detta beror på att Cox-proportionella riskmodeller tar hänsyn till tiden tills händelser inträffar. 4 Dessa modeller har emellertid inte jämförts i tvärsnittsstudier av genetisk förening.

Genetiska föreningsstudier som inte har uppföljningstid analyseras i allmänhet med hjälp av logistiska regressionsmodeller. Eftersom genotypstatus inte ändras över tiden och även representerar genotypstatus vid födseln kan ålder vid händelse betraktas som uppföljningstid. Om åldern vid händelsen är känd, skulle genetiska associeringsstudier kunna analyseras med Cox-proportionerliga riskmodeller, även i frånvaro av prospektiv studiestudieuppföljning. I litteraturen finns det olika exempel på studier där logistiska regressionsmodeller användes, där Cox proportionella riskmodeller kunde ha använts. 5, 6, En promotor-polymorfism och risken för mikrosatellit-instabil kolorektal cancer. J Natl Cancer Inst 2007; 99: 463–474. "Href =" / Articles / ejhg200859 # ref7 "aria-label =" Referens 7 "> 7

Vi syftade till att jämföra den statistiska kraften hos Cox proportionalrisksmodeller med den för logistiska regressionsmodeller i tvärsnittsstudier av genetisk associering. Vi genomförde här en empirisk studie om risken för koronar hjärtsjukdom (CHD) hos patienter med familjär hyperkolesterolemi (FH) och en simuleringsstudie där vi undersökte förhållandena under vilka ytterligare statistisk effekt kan uppnås.

metoder

Studera befolkning

Empirisk undersökning

Vi analyserade en retrospektiv, multicenters kohortstudie av patienter med heterozygot FH som rekryterades från 27 lipidkliniker i Nederländerna mellan 1989 och 2002. Detaljer om studieutformningen och studiepopulationen har publicerats tidigare. 8, 9 I korthet skickar lipidkliniker i Nederländerna rutinmässigt DNA från misstänkta FH-individer till ett centralt laboratorium för analys av mutation av lipoprotein (LDL) -receptor. Totalt 2400 icke-närstående patienter som uppfyllde de internationellt etablerade FH-diagnostiska kriterierna 8 valts slumpmässigt från denna databas. Data om CHD samlades in från medicinska poster med hjälp av ett standardiserat protokoll. 9 CHD definierades som närvaron av minst en av följande: (i) hjärtinfarkt, (ii) perkutan koronarinsats eller andra invasiva förfaranden, (iii) ympning av hjärtarterie, eller (iv) angina pectoris). 42 procent av FH-patienterna var män, och medelåldern vid det senaste besöket på lipidkliniken var 50 år (SD 13 år). Totalt hade 693 (29%) FH-patienter bevisat CHD: 466 (19%) patienter hade en verifierad CHD-händelse före studieinträde, och 227 (10%) incident av CHD-fall observerades under uppföljning (median uppföljningstid utan CHD var 3, 1 år).

En tidigare associeringsstudie övervägde 65 polymorfismer som finns i kandidatgener för hjärt-kärlsjukdom i vår FH-population. 10 Tre polymorfismer hade endast vildtyplegeler i vår population och utesluts därför från de nuvarande analyserna. Alla patienter gav informerat samtycke och den etiska institutionella granskningsnämnden för varje deltagande sjukhus godkände protokollet.

Simuleringsstudie

Vi konstruerade en population av FH-patienter med kön, ålder vid första besöket och ålder vid det senaste besöket slumpmässigt ur provet från den empiriska datauppsättningen. Vi simulerade genotypstatus (för en enda hypotetisk polymorfism), ålder vid händelse och CHD-status.

Genotypstatus tilldelades slumpmässigt enligt specificerade genotypfrekvenser. Även om vi inser att individer har en av tre genotyper, simulerade vi endast en riskfylld genotyp ('bärare') och en annan med referens- eller baslinjerisken ('icke-bärare') i vår primära analys. Dessa två genotyper kan tolkas som dominerande och / eller recessiva arvsmodeller. I en sekundär analys upprepade vi simuleringarna i den mer komplexa inställningen av tre genotyper. Detta gav praktiskt taget identiska resultat (data visas inte).

Ålder vid händelsen drogs slumpmässigt från fördelningar av ålders-, köns- och genotypspecifika CHD-incidensnivåer för patienter med FH. Dessa fördelningar erhölls i tre steg. Först anpassade vi Weibull-fördelningar på åldersspecifika CHD-incidensnivåer i den allmänna nederländska befolkningen, för män och kvinnor separat. Incidensgraden erhölls från National Institute for Public Health and the Environment (RIVM) [//www.rivm.nl/vtv/object_document/o1320n17964.html]. För det andra justerades dessa fördelningar för att passa den åldersspecifika CHD-incidensen hos FH-patienterna i den empiriska studien, vilket resulterade i en kumulativ CHD-incidens på 29%. Slutligen konstruerades separata fördelningar för bärare och icke-bärare genom att ändra den genomsnittliga faran i enlighet med styrkans sammansättning av riskgenotypen och med antagande av proportionella faror. CHD-status ansågs närvarande när den simulerade åldern vid händelsen var lägre än åldern vid det senaste besöket och ansågs vara frånvarande när den simulerade åldern vid händelsen var högre.

Statistisk analys

Cox-proportionella riskmodeller och logistiska regressionsmodeller anpassades i de empiriska och simulerade datamängderna. Med termen "effektuppskattning" hänvisar vi till riskförhållanden i Cox proportionella riskmodeller och oddsförhållanden i de logistiska regressionsmodellerna. Alla analyser justerades för kön och de logistiska regressionsmodellerna justerades dessutom för ålder (som en linjär term), som var ålder vid händelse eller ålder vid det senaste besöket på lipidkliniken i händelse av "ingen händelse". För Cox-proportionalriskmodellerna använde vi ålder som tidsvariabel och antog därmed att uppföljningstiden började vid födseln och slutade vid den första förekomsten av etablerad CHD, eller vid det senaste besöket på lipidkliniken. I den empiriska datauppsättningen antog vi att varje polymorf allel hade ett additivt bidrag till log-risk / log-odds skalan (additiv genetiskt läge för arv). Vi jämförde effektberäkningarna och P- värdena för de två modellerna och beräknade Spearmans rangkorrelationskoefficient för P- värdena för de två modellerna.

I simuleringsstudien varierade vi storleken på befolkningen ( n = 500; n = 2000; n = 5000), frekvensen för riskgenotypen (10; 30; 50; 70%) och styrkan i sambandet mellan polymorfism och risk för CHD (riskförhållande 1, 0–2, 0 med steg om 0, 1) i separata scenarier. Riskförhållandet 1, 0 simulerades också för att kontrollera om felhastigheter av typ 1 för de två tillvägagångssätten var som simulerade, nämligen 0, 05, och detta bekräftades för alla scenarier. De simulerade och observerade riskförhållandena var något lägre än de observerade åldersjusterade oddsförhållandena i alla scenarier (data visas inte). Prospektiv datainsamling antas när Cox-proportionerliga riskmodeller används. I retrospektiv datainsamling kan tidiga fall missas. För att undersöka om saknade data kan påverka våra resultat simulerade vi scenarier där alla rådande fall (med en händelse före dagen för det första besöket på lipidkliniken) missades, och därmed utesluter de rådande fallen från analysen och beaktade endast incidentfall . Varje scenario upprepades 5000 gånger. Statistikkraften för de två modellerna definierades som procentandelen statistiskt signifikanta ( P <0, 05) föreningar mellan polymorfism och CHD-status som hittades för den regressionsmodellen i de 5000 upprepade scenarierna. Förstärkningen i statistisk effekt med de proportionerliga riskmodellerna från Cox uttrycktes som den absoluta skillnaden i effekt och som den potentiella reduktionen i den erforderliga provstorleken som kan erhållas när den mest kraftfulla modellen skulle ha samma effekt som den minst kraftfulla modellen. 11 Procentuell minskning av erforderlig provstorlek beräknades som 100–100 ( Z 2 / Z 1 ) 2, där Z 1 och Z 2 är Wald-statistiken för den mest respektive minst kraftfulla modellen. Dessa mått är oberoende av effektberäkningen, a- värdet och provstorleken. 11 Därför beräknade vi den genomsnittliga procentuella reduktionen i erforderlig provstorlek för varje genotypfrekvens. Alla statistiska analyser och simuleringar utfördes med R-statistikpaketet (version 2.5.1). 12

Resultat

Empirisk undersökning

Figur 1 visar effektberäkningarna och P- värdena för sambandet mellan 62 polymorfismer och risken för CHD erhållen genom Cox proportionella risker och logistiska regressionsanalyser. Effektberäkningarna tenderade att vara mer extrema för de logistiska regressionsmodellerna än för Cox-proportionella riskmodeller (figur 1a). Rangkorrelationskoefficienten för P- värden var 0, 54. Logistiska regressionsanalyser visade statistisk signifikans för två polymorfismer, medan fyra polymorfismer var statistiskt signifikanta med hjälp av Cox proportionella riskmodeller.

Effektberäkningar och P- värden för 62 polymorfismer erhållna med Cox proportionalriskmodeller och logistiska regressionsmodeller i den empiriska studien. Effektberäkningar är riskförhållanden för Cox-proportionella riskmodeller och oddsförhållanden för de logistiska regressionsmodellerna. Två outliers med effektberäkningar över 2, 0 visas inte i dessa siffror. ( a ) Streckad linje representerar den referensrad som riskkvoten är lika med oddsförhållandet, hel linje representerar den linjära regressionslinjen genom datapunkterna. ( b ) Prickade linjer representerar signifikansgränsen ( P = 0, 05).

Bild i full storlek

Simuleringsstudie

Fig. 2 visar att Cox-proportionella riskmodeller hade mer statistisk effekt än logistiska regressionsmodeller i alla scenarier. Den absoluta skillnaden i effekt bestämdes av effektberäkningen, genotypfrekvensen och provstorleken (figur 3). Den absoluta effektskillnaden var större när provstorleken var låg, riskgenotypen var sällsynta eller risken förknippad med genotypen var låg. Till exempel, när genotypfrekvensen var 30% och provstorleken var 2000, var de absoluta effektskillnaderna mest framträdande för effektberäkningar mellan 1, 1 och 1, 5. Skillnaderna i effekt motsvarade en reduktion i erforderlig provstorlek som sträckte sig från 33% när genotypfrekvensen var 10%, till 18% när genotypfrekvensen var 70%. Riskstorlekar och minskning av provstorlekar var liknande när analyserna begränsades till incidentfall. Den statistiska kraften var emellertid lägre i båda modellerna på grund av ett lägre antal händelser (data visas inte).

Statistisk effekt av Cox-proportionalriskmodellerna och logistiska regressionsmodeller som funktion av genotypfrekvens, effektuppskattning och provstorlek. Solida linjer indikerar effektberäkningar av Cox-proportionalrisksmodellerna och streckade linjer för de logistiska regressionsmodellerna. Effektberäkningar presenteras för provstorlekar på 500 (•), 2000 (▾) och 5000 (▪) patienter.

Bild i full storlek

Absoluta skillnader i statistisk effekt mellan Cox-proportionella riskmodeller och logistiska regressionsmodeller. Skillnader i effektberäkningar erhölls genom att subtrahera effektberäkningarna för de logistiska regressionsmodellerna från uppskattningarna av Cox proportionella riskmodeller. Massiva linjer ( n = 5000), långa streckade linjer ( n = 2000), små streckade linjer ( n = 500).

Bild i full storlek

Diskussion

Denna studie visar att Cox-proportionella riskmodeller kan ge mer statistisk effekt än logistiska regressionsmodeller i tvärsnittsstudier om genetisk associering. Skillnader i statistisk effekt var mest framträdande för genotyper med mindre effekter i ett intervall där de flesta genetiska föreningar förväntas.

Observationen att Cox-proportionella riskmodeller har mer statistisk effekt än logistiska regressionsmodeller i associeringsstudier har beskrivits tidigare. 2, 3 Exempelvis kommer effektberäkningarna att avvika när uppföljningstiden är längre, 3, 4 och effektberäkningar av logistiska regressionsmodeller är mindre exakta, särskilt när händelsen är vanligare eller när det finns en stark relativ risk. 13 Detta är i linje med våra resultat i den empiriska studien, som visade att oddsförhållandena tenderade att vara mer extrema än riskförhållandena. Det har tidigare visats att Cox-proportionella riskmodeller ger mer konservativa effektberäkningar än de logistiska regressionsmodellerna, särskilt när sjukdomsfrekvensen är hög, 2 som är fallet i FH.

En förklaring till den högre effekten hos Cox-proportionella riskmodeller är att dessa modeller tar hänsyn till tiden tills händelser inträffar och därmed förändrar analysenheten från personer till personår. Därför skiljer sig tolkningen av resultaten från Cox-proportionella riskmodeller från de i den logistiska regressionsmodellen. Medan den logistiska regressionsmodellen testar huruvida en riskfaktor påverkar risken för sjukdom testar Cox proportionalriskmodellen huruvida en riskfaktor påverkar sjukdomens början. Logistiska regressionsmodeller tar inte hänsyn till tiden tills händelser inträffar, men ger "tidiga" händelser och "sena" händelser samma vikt i analysen. 1, 4 Unga individer som ännu inte har haft någon händelse klassificeras som "ingen händelse", medan vissa skulle ha upplevt händelsen i en äldre ålder. Detta är en form av felklassificering när det gäller resultatet. Överlägsenheten hos Cox-proportionella riskmodeller jämfört med de logistiska regressionsmodellerna vid analys av longitudinella data har matematiskt bevisats för modeller, som betraktar en dikotom kovariat 2 och modeller med flera kovariater. 3

Ett antal överväganden beträffande generaliserbarheten i våra resultat förtjänar diskussion. Först simulerade vi populationer med en hög risk för CHD, vilket innebär att de absoluta uppskattningarna av statistikkraften i de olika scenarierna endast gäller för populationer med liknande sjukdomsrisker. Statistisk effekt och skillnader i statistisk effekt var lägre när sjukdomsriskerna var lägre, men ändå till förmån för Cox-proportionella riskmodeller (data visas inte); ett relativt mått, såsom den potentiella procentuella minskningen i erforderlig provstorlek, var inte beroende av sjukdomens förekomst. För det andra antar analys av en genomsnittsundersökning i tvärsnitt med Cox-proportionella riskmodeller att uppföljningstiden börjar med födseln. I en retrospektiv design ger Cox proportionella riskmodeller endast giltiga uppskattningar jämfört med prospektiva studier, om det inte finns någon selektiv förlust av uppföljning. Vår studie inkluderade endast patienter som åtminstone överlevde tills ett första besök på lipidkliniken, och tidiga fall av CHD kunde ha missats. Även om dessa tidiga fall kan ha varit sällsynta som visats i en tidigare studie, 14 kan vi inte utesluta denna möjlighet. Vi undersökte det extrema scenariot där alla rådande fall missades. Detta påverkade inte effekten uppskattningar, eftersom analysen inkluderade alla egenskaper relaterade till saknas i dessa fall (ålder, genotyp status). För det tredje, i våra simuleringar, justerade vi inte för andra covariables än ålder. I tvärsnittsstudier av genetisk associering är användningen av Cox-proportionella riskmodeller formellt endast giltig när ingen justering behövs, eller när justering endast behövs för samvarier som kan bedömas pålitligt i efterhand, till exempel kön och utbildning.

När det inte finns någon anledning att förvänta sig selektiv förlust av uppföljning och inga andra variabler än ålder och kön behöver justeras för, är Cox proportionella riskmodeller den föredragna strategin för analys av genetiska associeringsstudier. Eftersom ökningen i makt är oberoende av typ 1-felhastighet, kan Cox-proportionerliga riskmodeller inte bara föredras i associeringsstudier av kandidatgener, utan också i den statistiska analysen av genombreddsassociation (GWA) -studier, som i allmänhet anser lägre typ 1-felhastigheter. Aktuella GWA-studier gör oftast enkla och mindre kraftfulla jämförelser av genotypräkningar mellan fall och kontroller. Tillämpning av Cox-proportionerliga riskmodeller kan leda till ytterligare identifiering av känslighetsgener med svagare effekter som annars inte kommer att upptäckas. När det gäller genomsnittsstudier i tvärsnitt där justering för andra variabler än ålder och kön behövs är det inte direkt klart vilken modell som valts. Ytterligare variabler, såsom blodtryck och kolesterolnivåer, är svårare att bedöma i efterhand. Helst bör dessa ytterligare variabler behandlas som tidsberoende variabler. 15 Eftersom nivåerna för dessa variabler vid tidpunkten för händelsen ofta är okända i tvärsnittsstudier används nivåerna vid tidpunkten för studieledningen ofta som surrogat. Huruvida detta kommer att införa en annan storlek på förspänning i de två modellerna är inte klart. Ändå är denna potentiella förspänning av mindre betydelse i genupptäckningsstudier (som beskrivs i denna studie) än i riskförutsägelsestudier där det är viktigare att exakt uppskatta effekten. 16

Vi drar slutsatsen att fördelen med avseende på statistisk effekt för Cox proportionalriskmodeller i jämförelse med de logistiska regressionsmodellerna var mest framträdande för det antal effektberäkningar som förväntas för de flesta genetiska föreningar. Vi rekommenderar att man överväger användning av Cox-proportionalriskmodellen i både tvärsnittsstudier av genetisk associering och GWA-studier.