En integrerad fenomisk strategi för multivariat allelassociation | europeisk tidskrift för mänsklig genetik

En integrerad fenomisk strategi för multivariat allelassociation | europeisk tidskrift för mänsklig genetik

Anonim

Abstrakt

Den ökade genomförbarheten av genombreddsassociation har resulterat i att associering har blivit den primära metoden som används för att lokalisera genetiska varianter som orsakar fenotypisk variation. Mycket uppmärksamhet har varit inriktad på de stora multipla testproblem som uppstår genom att analysera ett stort antal enstaka nukleotidpolymorfier. Uppblåsningen av experimentmässigt typ I-felgrader genom att testa många fenotyper har emellertid fått mindre uppmärksamhet. Multivariatanalyser kan användas för att upptäcka både pleiotropiska effekter som påverkar en latent gemensam faktor, och monotropa effekter som fungerar på variabla specifika nivåer, samtidigt som man kontrollerar för icke-oberoende mellan fenotyper. I denna studie presenterar vi en maximal sannolikhetsmetod, som kombinerar både latenta och variabelspecifika tester och som kan användas med antingen individuella eller familjedata. Simuleringsresultat indikerar att i närvaro av faktornivåassociation fungerar den kombinerade multivariate (CMV) analysmetoden bra med en minimal förlust av effekt jämfört med en univariat analys av en faktor- eller summan poäng (SS). När avvikelsen mellan mönstret av alleliska effekter och faktorbelastningarna ökar, minskar kraften i univariata analyser av både faktor och SS dramatiskt, medan kraften i CMV-metoden bibehålls. Vi visar användbarheten av tillvägagångssättet genom att undersöka sambandet mellan dopaminreceptor D2 TaqIA och initiering av marijuana, lugnande medel och stimulanter i data från Add Health Study. Perl-skript som tar ped- och dat-filer som input och producerar Mx-skript och data för att köra CMV-strategin kan laddas ner från www.vipbg.vcu.edu/~sarahme/WriteMx.

Introduktion

Även om de flesta genomomfattande föreningsstudier samlar in information om en uppsättning symptom eller relaterade egenskaper, är de analytiska tillvägagångssätten och de hypoteser som testas nästan uteslutande univariat till sin natur med avseende på fenotyp. En enkel metod för multivariat analys är att minska antalet egenskaper som analyseras genom faktoranalys. Denna populära metod för att sammanfatta multivariata data är i huvudsak en förlängning av multivariat multipel regression som tillåter specifikationen av latenta variabler att bedöma effekterna av variabler som tros finnas, men som inte har uppmättts. Vanligtvis specificeras några eller alla observerade variabler för att regressera på en eller flera latenta faktorer. Dessa faktorer sammanfattar därför samvariationen mellan de observerade variablerna. Icke-delad varians och mätfel sammanförs i en ytterligare uppsättning latenta variabler (rester) som är specifika för var och en av de observerade variablerna.

Men faktorscores - eller någon annan viktad kombination av egenskaperna - kombinerar både faktornivå och dragspecifika effekter, och medan genetisk associering med en latent faktor i sig är pleiotropisk, är associering med en restvarianskomponent inte. Om dessa två typer av effekt motverkar kan falska negativ (typ II-fel) uppstå. Lange et al 1 har implementerat en multivariat associeringsanalys baserad på en huvudkomponentanalys inom FBAT-PC-programvaran. På liknande sätt tillåter Lange et al 2 FBAT-GEE-metoden att testa för associering till flera fenotyper med användning av ett omnibus-tillvägagångssätt, vilket resulterar i ett multivariat test med grader av frihet lika med antalet fenotyper som testas. Men både FBAT-PC och FBAT-GEE kräver familjebaserad data. Dessutom skiljer dessa tillvägagångssätt inte mellan faktornivå och föreningsnivåassociation. I denna studie presenterar vi en maximal sannolikhetsmetod, som kombinerar både latenta och variabelspecifika tester och som kan användas med antingen individuella eller familjedata.

Resultat

Typ I-fel

Som visas i tabell 4 visade faktornivå- och variabelspecifika tester över scenarier de förväntade felnivåerna för typ I för när de beaktades individuellt. Fördelningarna av P- värdena för faktornivån och variabelspecifika tester var enhetliga (se kompletterande figur 1–4). CMV-metoden resulterade i ett uppblåst typ I-fel, medelvärde α = 0, 084. För att kontrollera för denna inflation i typ I-felfrekvenser antog vi en α- nivå av 0, 025 för var och en av faktornivåerna och variabla specifika test, vilket resulterade i ett något konservativt test, medelvärde α = 0, 043. Denna reducerade a- nivå användes i alla ytterligare analyser. Den konservativa karaktären av CMV-metoden beror på samvariationen mellan faktornivån och variabelspecifika tester. Eftersom storleken på denna samvariation är beroende av faktorstrukturen för de observerade data, kan forskare antingen uppskatta en exakt Bonferroni-korrigering för sina data genom permutation eller simulering, eller anta den något konservativa α- nivån på 0, 025.

Full storlek bord

Kraft

Figurerna 1a – c sammanfattar resultaten från effektanalyserna för de fem associeringsmodellerna under de nio multivariat-scenarierna. I båda fallen visas kraft för CMV-metoden och för univariata analyser av SS (SS), RFS och BFS.

Image
Image

( a ) Kraft att upptäcka associering (definierat som andelen tester som är signifikant vid en a på 0, 05) under multivariat bakgrund a, b och c, för associeringsmodeller 2-6 (beskrivs i tabell 2). I varje fall visas kraft för den kombinerade multivariata strategin (CMV) och för univariata analyser av summan poäng (SS), Regression factor score (RFS) och Bartlett factor score (BFS). ( b ) Kraft att upptäcka associering under multivariat bakgrund d, e och f, för associeringsmodeller 2–6. ( c ) Kraft att upptäcka associering under multivariat bakgrund g, h och i, för associeringsmodeller 2–6.

Bild i full storlek

De situationer där föreningen påverkade alla variabler, antingen på faktornivå (associeringsmodell 3) eller i lika stor utsträckning över alla variabler (associeringsmodell 4), alla de fyra associeringsproven presterade bra. I dessa scenarier är den något konservativa karaktären av a- korrektionen för de kombinerade testen uppenbar som en liten kraftförlust, vilket är mest uppenbart när faktorbelastningen är hög. Kraften i analysen av summan och faktorpoäng minskar emellertid kraftigt när mönstret för associeringseffekter avviker från faktorbelastningens (associeringsmodell 2, 5 och 6). Denna effekt ses tydligast i kontrasterande effektsimuleringar (associeringsmodell 6), där associeringsriktningen skiljer sig mellan variabler. För de univariata analyserna av summan och faktorvärdena är kraften att upptäcka denna typ av allelisk effekt mycket låg och skiljer sig ofta inte från slumpen. Detta överensstämmer med tidigare arbete som har visat att multivariat kopplingsanalyser är mest kraftfulla när samvariationen inducerad av en QTL skiljer sig i riktning från bakgrundskorrelationen. 17

Som man kunde förvänta sig var SS av de tre univariata analyserna den minst kraftfulla i situationer, medan BFS överträffade RFS. Omvänt, CMV-metoden är omfattande inom olika situationer som beaktas här och har i allmänhet lika eller större statistisk effekt än de univariata analyserna av sammanfattande åtgärder. Såsom visas i tabell 5 resulterade en total saknadshastighet på 30% i en ungefärlig 4, 5% minskning av effekten (från 0, 922 till 0, 879 för den enda variabla föreningen och 0, 775 till 0, 740 för faktornivåföreningen). När den "sanna" associeringseffekten var på faktorns nivå hade emellertid en väsentlig brist (50% av variabel 3) endast en mindre inverkan på kraften att upptäcka associering, vilket resulterade i en minskning av effekten på ∼ 1% ( 0, 775 mot 0, 769).

Full storlek bord

Tillämpat exempel

För att visa CMV-metoden analyserade vi samband mellan DRD2 TaqIA-polymorfism och initiering (ständigt användning) av tre ämnen - marijuana, lugnande medel och stimulantia - med hjälp av data från 864 kaukasiska män. Marijuana, lugnande medel och stimulerande initiering korrelerades måttligt och alla tre laddade starkt på en gemensam faktor (tabell 3). Det fanns inga bevis på faktornivåassociation ( χ 1 2 = 0, 65, ß faktor = 0, 06). Emellertid observerades en signifikant associering vid den variabla specifika nivån ( χ 3 2 = 13, 91; α = 0, 025; P korrigerat = 0, 006; ß Stimulanter = −0, 19, ß lugnande medel = 0, 14, Marijuana = 0, 11). Dessa resultat antyder att T-allelen ökar risken för stimulantbruk, men minskar risken för lugnande och marijuana användning, vilket är förenligt med mönstren för prevalens efter genotyp som visas i tabell 3. Intressant nog är dessa data skillnaderna i riktningen av de alleliska effekterna på den variabelspecifika nivån avbryter varandra på faktornivå. För att bestämma om dessa resultat skulle ha varit tydliga från univariata analyser genomförde vi post-hoc-analyser av varje variabel. Föreningen mellan stimulantbruk och DRD2 var nominellt signifikant (på 0, 05-nivån) innan korrigering för multipla tester ( χ 1 2 = 3, 88, P = 0, 049, ß = −0, 18). Det fanns emellertid inga bevis för associering med varken lugnande medel ( χ 1 2 = 1, 65, β = 0, 13) eller användning av marijuana ( χ 1 2 = 2, 60, β = 0, 11), och inget av de enskilda testerna för associering för de olika läkemedlen skulle förblir betydande efter Bonferroni-korrigering. Ökningen i kraft associerad med den multivariata analysen inom en associeringsram är analog med den som observerades vid koppling. 17, 18

Dessa resultat kan tyckas motverka med tanke på de publicerade rapporterna 9, 12, 19 att DRD2 Al (T) -eleelen är en riskallel för en rad olika fenotyper av ämnesanvändning och att majoriteten av samvariationer i substansanvändningsfenotyper kan förklaras med vanliga etiologiska faktorer. Effekterna av stimulanter (inklusive förhöjd aktivitet, humör och eufori) skiljer sig emellertid markant från effekterna av lugnande medel och marijuana (som vanligtvis inkluderar avslappning, slöhet, mild eufori och ångestreducering). I den utsträckning att individer med högre D2-receptortäthet, som är förknippade med DRD2 Taq1A1 (T-allel), 15 är mer benägna att rapportera effekterna av ett psykostimuleringsläkemedel (metylfenidat som, liksom kokain, blockerar dopamintransportörerna) som obehagligt, 14 Det är möjligt att individer med T-alleler kan vara mer benägna att pröva läkemedel som uppfattas öka upphetsning och animation än de som tros ha motsatt effekt. Även om denna associering ännu inte har kopierats, visar fyndet den ökade förklarande kraften i CMV-metoden.

Diskussion

Även om univariat analys av en faktorpoäng kan upptäcka en associering på faktornivå och univariata analyser av varje fenotyp i sin tur kan upptäcka alleliska effekter, är behovet att korrigera för flera tester nackdel. Vidare utnyttjar en sådan procedur inte förstärkningen av makten härrörande från multivariat analys. Lämpningen av den nuvarande strategin beror till viss del på fenotyperna som analyseras. Prestanda överstiger alternativen när den fenotypiska samvariationen som härrör från annan genetisk och miljömässig påverkan skiljer sig från den som genereras av QTL. 17 Vi förväntar oss att det multivariata tillvägagångssättet kommer att vara användbart vid analysen av komplexa egenskaper som involverar beteendemässiga, psykologiska eller andra faktorer som i sig är svåra att mäta. Det bör vara särskilt värdefullt när man analyserar data som innehåller saknade värden, kanske på grund av ett strukturerat datainsamlingsformat, eller när ett undersampel har valts för mer detaljerade eller dyra utvärderingar. Utvidgning av metoden till faktorblandningsmodeller skulle ge en naturlig ram för analys av egenskaper såsom migrän och ADHD, där symtommönster antyder förekomsten av subtyper. Ramverket är direkt lämpligt för upprepade mätningar av antingen en egenskap eller många, och kan användas i situationer där det är mätning av icke-invarians. 20, 21

För att underlätta tillämpningen av CMV-metoden har vi utvecklat ett perl-skript som kan laddas ner från (www.vipbg.vcu.edu/~sarahme/WriteMx). Detta skript kan användas med antingen familj eller individuell data. Den läser vanliga Merlin .ped- och .dat-filer och skriver en datafil och anpassade skript för att köra analysen i Mx (som fritt kan laddas ner för en rad operativsystem //www.vcu.edu/mx/). Mx tillåter full användarspecifikation; som sådan kan det tillvägagångssätt som beskrivs här enkelt utökas för att möjliggöra analys av flera faktorer, och skript som visar denna förlängning kan laddas ner från (www.vipbg.vcu.edu/~sarahme/WriteMx). Dessutom kan metoden utvidgas för att tillgodose data från olika typer av släktingar (föräldrar, morföräldrar osv).

Den nuvarande implementeringen inom Mx har vissa begränsningar. Det är för närvarande inte möjligt att beräkna saknade genotyper inom CMV-metoden, och för närvarande kommer individer med saknade genotyper att uteslutas från analysen. Emellertid kan förimputerade genotyper enkelt analyseras inom Mx, och information om imputationens precision kan införlivas genom användning av blandningsmodellering. Dessutom kan Mx analysera antingen kontinuerlig eller ordinär (binär och / eller polykotom) data. Det finns emellertid ingen enkel allmän inställning till gemensam analys av binära och kontinuerliga variabler i den aktuella versionen av Mx, även om det är praktiskt att göra detta när antalet mönster för saknade kontinuerliga variabler är litet. En R-språk Open Source-version av programvaran, som för närvarande håller på att utvecklas, kommer att implementera denna funktionalitet direkt. Under tiden är en lösning på detta problem att omvandla kontinuerliga variabler till ordinal, använda deciler och genomföra en multivariat ordinalanalys.

Sammanfattningsvis har denna artikel tre huvudbidrag. Först introducerar den en integrerad modell för allelisk associering, som tillåter testning för associering till antingen en gemensam faktor eller till en uppsättning variabelspecifika komponenter. Tillvägagångssättet förbättrar analysens förklarande kraft, analogt med den som härrör från att använda banbaserad associeringsmetoder för att komplettera traditionell enkel SNP-analys. 22 För det andra presenterar den fritt tillgänglig mjukvara som underlättar användningen av den kombinerade associeringsmetoden genom att producera skript och data för Mx-analys från Merlin-format ped och dat-filer. För det tredje illustrerar det tillvägagångssättet med data om ämnesanvändning från Add Health-studien. Vi uppmuntrar forskare att se bortom diagnos eller SS-analyser när de arbetar med komplexa egenskaper i hopp om att det kommer att leda till identifiering av nya känslighetsgener och en djupare förståelse för hur identifierade varianter påverkar beteende och komplexa egenskaper.

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande figur 1–4

    Kompletterande information åtföljer uppsatsen på webbplatsen European Journal of Human Genetics (//www.nature.com/ejhg)