Interaktionsindexet, en ny informationsteoretisk metrisk för att prioritera samverkande genetiska variationer och miljöfaktorer | europeisk tidskrift för mänsklig genetik

Interaktionsindexet, en ny informationsteoretisk metrisk för att prioritera samverkande genetiska variationer och miljöfaktorer | europeisk tidskrift för mänsklig genetik

Anonim

Abstrakt

Vi utvecklade en informationsteoretisk metrisk kallad Interaction Index för att prioritera genetiska variationer och miljövariabler för uppföljning i detaljerade sekvenseringsstudier. Interaktionsindexet visade sig vara effektivt för att prioritera de genetiska och miljövariabler som är involverade i GEI för ett brett utbud av simulerade datamängder. Metriken utvärderades också för en 103-SNP Crohns sjukdomsdatasats och en simulerad datamängd innehållande 9187 SNP: er och flera kovariater som modellerades på en reumatoid artrit-datauppsättning. Våra resultat visar att Interaction Index-algoritmen är effektiv och effektiv för att prioritera interaktiva variabler för en mängd olika epidemiologiska datamängder som innehåller komplexa kombinationer av direkta effekter, flera GGI och GEI.

Introduktion

Med utveckling, validering och implementering av undersökningsinstrument, geografiska informationssystem och tillvägagångssätt för att identifiera genetiska variationer, såsom enkel-nukleotidpolymorfismer (SNP), raderingar, duplikationer och inversioner över genomet har vi nu kraftfulla metoder för att utvärdera gener och miljöexponeringar i sjukdomens etiologi. 1, 2, 3, 4 Emellertid kan föreningarna från dessa genotypningsundersökningar kräva stora uppföljningsstudier för att omfattande sekvensera de sjukdomsassocierade regionerna för att möjliggöra upptäckten av mindre vanliga genetiska variationer som kan bidra till sjukdomen. Omfattande uppföljningsstudier för att karakterisera sekvensvariation i sjukdomsassocierade regioner i det mänskliga genomet; emellertid är resurskrävande och kräver stora provstorlekar. Det är därför viktigt att utnyttja tillgänglig information från befintliga genotypningsstudier för att identifiera de mest lovande sjukdomsassocierade regionerna, de möjliga miljöfaktorerna, den bästa studieutformningen och lämpliga studiepopulationer.

I detta sammanhang är effektiva analysverktyg för att upptäcka gengen (GGI) och gen-miljöinteraktioner (GEI) avgörande för att möjliggöra effektiva, väl utformade uppföljningssekvensstudier. GGI-analysen kan lyfta fram viktiga interaktioner mellan genetiska variationer i olika regioner i genomet och kan användas för att identifiera och prioritera regioner för sekvensering medan GEI-analys kan användas i studiedesign för att säkerställa att de relevanta informativa miljövariablerna samlas in.

Det kan vara svårt att prioritera genetiska regioner som är involverade i GGI eller GEI för sekvensbestämning eftersom antalet interaktioner, interaktionsordningens storlek och deras storlekar kan variera avsevärt vilket gör det svårt att fatta beslut om den relativa betydelsen av exempelvis några stora storleksinteraktioner gentemot många interaktioner av måttlig storlek.

Vi har utvecklat metoder för att upptäcka sjukdomsassocierade genetiska varianter, miljövariabler, GGI och GEI med hjälp av informationsteoretiska mått. Vi demonstrerade användbarheten av k -way-interaktionsinformation (KWII), som är en multivariat förlängning av KLD, för GEI-analys av diskreta fenotyper. 5 Därefter förbättrade vi vårt första tillvägagångssätt genom att definiera en ny metrisk, fenotyp-associerad information (PAI) som står för de förvirrande effekterna beroende bland genetiska och miljömässiga variabler orsakade av faktorer som kopplingsdifferens. 6 Beräkningsegenskaperna för PAI-metriken användes som bas för en effektiv sökalgoritm, AMBIENCE, som identifierar variabla kombinationer involverade i de starkaste interaktionerna. 6 Våra metoder visade sig vara anmärkningsvärda effektiva för att analysera en mängd olika epidemiologiska datamängder som innehåller komplexa kombinationer av direkta effekter, multipla GGI och GEI. I denna rapport är vårt mål att utvidga vår informationsteoretiska metod för att identifiera de mest lovande genetiska och miljömässiga variablerna för detaljerad inspektion. Vi identifierade ett informationsteoretiskt värde, Interaction Index, för att effektivt visualisera och rangordna de genetiska och miljömässiga variabler som är involverade i interaktioner.

Material och metoder

Terminologi och representation

Definition av interaktion

KWII är ett mångsidigt, multivariat mått på informationsvinster. 7, 8 I vårt informationsteoretiska ramverk använder vi KWII som mått på interaktionsinformation för varje variabelkombination. I enlighet med vår tidigare rapport, 6 definierar vi operationellt " Ett positivt KWII-värde för en variabel kombination indikerar närvaron av en interaktion, negativa värden på KWII indikerar närvaron av redundans och ett KWII-värde på noll indikerar frånvaron av K-vägsinteraktioner. '.

k- vägs interaktionsinformation

För det 3-variabla fallet definieras KWII i termer av entropier för de individuella variablerna, H (A) , H (B) och H (C) och entropierna, H (AB) , H (AC) , H ( C) BC) och H (ABC), av kombinationerna av variablerna:

Image

För det k -variösa fallet på uppsättningen ν = { X 1, X 2,

.

, X k }, kan KWII skrivas kortfattat som en alternerande summa över alla möjliga delmängder T av v med användning av skillnadsoperatörsnotationen för Han: 9

Image

KWII representerar vinst eller förlust av information på grund av införandet av ytterligare variabler i modellen. Den kvantifierar interaktioner genom att representera informationen som inte kan erhållas utan att observera alla k- variabler samtidigt. 7, 8, 10, 11 I det bivariata fallet är KWII alltid positiv men i det multivariata fallet kan KWII vara positiv eller negativ. Tolkningen av KWII-värden är intuitiv eftersom positiva värden indikerar synergi mellan variabler, negativa värden indikerar redundans mellan variabler och ett värde på noll indikerar frånvaron av k- vägs interaktioner.

Total korrelationsinformation

För det 3-variabla fallet definieras TCI 12 i termer av entropier för de individuella variablerna H (A) , H (B) och H (C) och entropin för ledfördelningen H (ABC) :

Image

För det k -variösa fallet på uppsättningen ν = { X 1, X 2,

.

, X k }, TCI, kan uttryckas som skillnaden mellan entropierna för de enskilda variablerna H (Xi ) och entropin för ledfördelningen H (X 1 X 2).

.

X k ).

Image

TCI är mängden information som delas mellan variablerna i uppsättningen; på motsvarande sätt kan det ses som ett generellt mått på beroende. Ett TCI-värde som är noll indikerar att variablerna är oberoende. Det maximala värdet för TCI uppstår när en variabel är helt överflödig med de andra; det vill säga att känna till en variabel ger fullständig kunskap om alla andra.

Fenotypassocierad interaktionsinformation

PAI erhålls från TCI, som representerar det övergripande beroendet mellan de genetiska och miljömässiga variablerna och fenotypvariabeln genom att ta bort TCI-bidrag som representerar beroendet mellan de genetiska och miljömässiga variablerna. Det beroende av beroende mellan variabler kan orsakas av faktorer som LD eller av en vanlig källa för exponeringar för flera föroreningar. Följaktligen definieras PAI av:

Image

I ovanstående ekvation betecknas de genetiska och miljömässiga variablerna med X , X ,

.

, X K, och fenotypvariabeln betecknas med P. I PAI-definitionen är TCI (X 1, X 2,

.

, X K , P) uttrycket representerar det totala beroendet bland de genetiska och miljömässiga variablerna och fenotypen medan TCI (X1 , X2 ,

.

, X K ) term representerar beroendet mellan de genetiska och miljömässiga variablerna i frånvaro av fenotypvariabeln.

Interaktionsindex

Definitionen av interaktionsindex härrör från interaktionsbidrag (IC: er) för varje interaktion där en variabel Xi är närvarande. Interaktionsbidraget av en k -ordningskombination v som involverar Xi betecknas av IC v (k) ( Xi ). Ordningen på en kombination är antalet genetiska eller miljövariabler i kombinationen.

Låt v beteckna vilken delmängd av de genetiska och miljömässiga variablerna Q = { X 1, X 2,

.

, X n }. Låt P beteckna fenotypvariabeln; alla kombinationer i följande definitioner inkluderar P. Låt Sk ( Xi , ν ) beteckna uppsättningen k -ordningskombinationer så att varje medlem innehåller Xi och är en delmängd av v .

Den enda första ordningskombinationen som innehåller en genetisk eller miljövariabel som Xi deltar i är ν = { X i , P }. Därför Xords första ordningens interaktionsbidrag, betecknat med

Image

, är:

Image

Interaktionsbidraget för varje given kombination av två genetiska eller miljövariabler ν = { Xi , Xj , P } som involverar Xi , betecknad med

Image

, är:

Image

Observera att interaktionsbidraget från första ordningen

Image

tas bort i definitionen av

Image

.

På samma sätt är interaktionsbidraget för en given kombination av tre genetiska eller miljövariabler ν = { Xi , Xj , X k , P } som involverar Xi :

Image

Generalisering, interaktionsbidraget för en given kombination av n genetiska eller miljövariabler ν = { X i , Xj , X k ,

.

, X n , P } som involverar Xi definieras av:

Image

Definitionerna subtraherar alla interaktionsbidrag för lägre ordning för Xi från skillnaden mellan PAI med X i och PAI utan X i eftersom denna skillnad sammanfattar alla första ordningen, andra ordningen,

.

., ( n −1) th order interaktion bidrag för X i .

Interaktionsindex , IID (Xi ), för varje variabel Xi definieras som summan av det genomsnittliga interaktionsbidraget (IC) för varje utvärderad K- variabel interaktion där variabeln är involverad:

Image

Hängslen anger medelvärden för interaktionsbidragen över alla kombinationer som innehåller Xi av en viss storlek; staplarna representerar de absoluta värdena. I implementeringen tas medelvärdet över alla samplade kombinationer.

Baserat på vår KWII-baserade definition av interaktioner, ansågs en variabel vara informativ om dess interaktionsindexvärde var större än noll. I simulerade datamängder använde vi replikat för att få konfidensintervall och med verkliga datamängder använde vi permutationer för att erhålla P- värden för att bedöma betydelsen.

Visualisering av interaktionsindex

Interaktionsindexvärdena för genen och miljövariablerna visualiserades som staplade stapeldiagram innefattande 1-variabel innehållande kombinationer, 2-variabel innehållande kombinationer och 3-variabel innehållande kombinationer.

Simuleringar för fallstudier

Simulerade datamängder användes för att kritiskt bedöma effektiviteten i Interaction Index-metriken för att korrekt identifiera och prioritera de interaktiva variablerna. Vi valde interaktionsmodellerna för fallstudier 1 och 2 från vårt tidigare papper 5 eftersom det hade nödvändiga nivåer av komplexitet och innehöll också nyanserade GEI-mönster som kunde ge ett utmanande test för utvärdering av interaktionsindex. Modellen för fallstudie 3 konstruerades för att vara mer komplex och motiverades av genetiska, miljömässiga och biomarkörvariabler inblandade i kongestiv hjärtsjukdom.

En befolkning på 50 000 individer med slumpmässigt varierande genotyper och miljöexponeringar i överensstämmelse med de underliggande GEI-modellerna genererades för var och en av fallstudierna. Fallkontrollstudiens design antogs. Från populationen av 50 000 individuella genotyper valdes slumpmässigt ett prov på 500 fall och 500 kontroller. Värdet 1 användes för att representera fall och 0 användes för kontroller. SD på grund av sampling beräknades från 100 oberoende upprepningar av denna procedur.

Den relativa risken definierades som förekomst av sjukdomens fenotyp i gruppen exponerad för den sjukdomsassocierade kombinationen av gen-miljö i förhållande till incidensen i gruppen utan exponeringen. 13 Vi undersökte relativa riskvärden på 1, 2–2, 7 i intervaller om 0, 3.

Fallstudier 1A och 1B

Den underliggande GEI-modellen för fallstudier 1A och 1B sammanfattas i figur 1a.

Image

( a ) Visar interaktionsmodellen som används för att generera data för fallstudie 1A och fallstudie 1B. ( b och c ) Visar interaktionsmodellen som används för att generera data för fallstudie 2 respektive fallstudie 3. I ( a och b ) interagerar miljövariablerna El (med tillstånd H , L ) och E2 (med tillstånd H , M och L ) oberoende av varandra med två SNP-variabler, SNP 1 (med allelerna A 1 och A2 ) och SNP 2 (med alleler B1 och B2 ) för att bestämma sjukdomens status (kontroller indikeras av 0 och fall indikeras med 1). Asterisken i en genotyp representerar ett "vildkort" som indikerar att endera allelen är tillåten.

Bild i full storlek

De simulerade data för fallstudier 1A och 1B bestod av fyra miljövariabler, E1 till E4 . 5 Miljövariablerna, E1 och E2 , antogs förknippade med sjukdomens fenotyp medan E3 och E4 antogs vara informativa. Miljövariablerna E1 och E3 antogs ha två tillstånd, låg exponering (tilldelat värde = L ) och hög exponering (tilldelat värde = H ) som behandlades som kategoriska variabler. Miljövariabeln E2 och E4 antogs ha 3 tillstånd, låg exponering (tilldelat värde = L ), medium exponering (tilldelat värde = M ) och hög exponering (tilldelat värde = H ) som också behandlades som kategoriska variabler. Andelen personer i grupper med låg och hög exponering av E1 och E3 var vardera 50%; andelen personer i låg, mellanliggande och hög exponeringsgrupper av E2 och E4 var 33, 33% vardera. Sjukdomen modellerades för att uppstå för olika kombinationer av exponering för miljövariablerna E1 och E2 genom interaktioner med alleler för två SNP: er, SNP 1 och SNP 2 . De vanligare och mindre vanliga (sjukdomen) allelerna för SNP 1 och SNP 2 tilldelades allelfrekvenser av 0, 9 respektive 0, 1. De andra SNP-variablerna var SNP 3 till SNP 6 var informativa och hade allelfrekvenser av 0, 5. Alla SNP: er antogs vara dialleliska med de tre möjliga genotyperna i Hardy-Weinberg-jämvikt. En binär fenotypvariabel, C , som representerar fall (tilldelat värde = 1) eller kontroll (tilldelat värde = 0) användes.

I båda fallstudierna 1A och IB antogs E1- och E2- variablerna att verka oberoende av varandra och fall-fenotypvärdet tilldelades när kombinationer av SNP-genotyperna och endera miljövariabeln resulterade i ett fall.

Skillnaden mellan fallstudie 1A och B var att i fallstudie IB antas SNP-variablerna SNP 3 och SNP 4 ligga i lika ojämlikhet med R2 = 0, 9. SNP-variablerna SNP 3 och SNP 4 antogs vara oberoende i fallstudie 1A.

Fallstudie 2

Denna fallstudie skiljer sig från fallstudie 1A genom att en interaktion mellan miljövariablerna E1 och E2 införlivas (figur 1b). 5

Fallstudie 3

Denna fallstudie sammanfattas i figur 1c och innehåller en komplex kombination av miljö-, SNP-variabler och biomarkörvariabler som bestämmer sjukdomens fenotyp.

Modellen för fallstudie 3 bestod av fyra miljövariabler, E1 till E4 , fyra SNP-variabler, SNP 1 till SNP 4 och två biomarkörvariabler B1 och B2 . Den totala risken för att utveckla sjukdomens fenotyp bestämdes genom bidrag från tre komponenter benämnda: (i) miljöriskkomponent (risk E), (ii) den genetiska riskkomponenten (risk G) och (iii) biomarkörens riskkomponent (risk B) ). Risk E-komponenten antogs ha tre tillstånd (Hög H , Medium M och Låg L ) medan risken G och Risk B antogs ha två tillstånd (Hög H och Låg L ). Miljövariablerna E1 och E2 interagerade med SNP 1 för att bestämma miljöriskkomponenten (risk E) för sjukdomsrisk i figur 2c. Gen-geninteraktioner mellan variablerna SNP 2 och SNP 3 bestämde den genetiska riskkomponenten (risk G) för sjukdomsrisk medan interaktioner mellan de två biomarkörerna B1 och B2- variablerna bestämde risk B.

Image

( a - d ) Visar interaktionsindex för fallstudier 1A, 1B, 2 respektive 3 för ett relativt riskvärde på 1, 8. De staplade staplarna visar det totala interaktionsindexet för varje SNP eller miljövariabel; de svarta regionerna motsvarar bidraget med 1-variabel, de gråa och vita regionerna i staplarna motsvarar bidragen från kombinationer av 2-variabel respektive 3-variabler.

Bild i full storlek

Miljövariablerna, E1 och E2 , var sjukdomsassocierade medan E3 och E4 antogs vara informativa. Miljövariablerna E1 och E3 antogs vardera ha två tillstånd, låg exponering (tilldelat värde = L ) och hög exponering (tilldelat värde = H ); de återstående miljövariablerna E2 och E4 hade var och en ett tillstånd av mellanliggande exponering (tilldelat värde = I ). Andelen personer i grupper med låg och hög exponering av E1 och E3 var vardera 50%; andelen personer i låg, mellanliggande och hög exponeringsgrupper av E2 och E4 var vardera 33, 33%.

Båda biomarkörvariablerna, B1 och B2 antogs vara associerade med sjukdomens fenotyp och antogs vardera ha tre tillstånd, låg exponering (tilldelat värde = L ), medel exponering (tilldelat värde = M ) och hög exponering (tilldelat värde = H) ). Procentandelen personer i grupperna med låg, medelhög och hög exponering av B1 och B2 var 33, 33% vardera.

Alla fyra SNP-variabler antogs vara dialleliska med de tre möjliga genotyperna i Hardy-Weinberg-jämvikt. De vanligare och mindre vanliga ("sjukdomen") allelerna för SNP 1 , SNP 2 och SNP 3 tilldelades allelfrekvenser på 0, 9 respektive 0, 1. Den återstående SNP-variabeln SNP 4 var informativ och hade allelfrekvenser på 0, 5.

En binär fenotypvariabel, C , som representerar fall (tilldelat värde = 1) eller kontroll (tilldelat värde = 0) användes. Sjukdomen modellerades för att uppstå för olika kombinationer av exponering för miljövariablerna E1 och E2 genom interaktioner med biomarkörvariablerna B1 och B2 och alleler för tre SNP: er, SNP 1 , SNP 2 och SNP 3 . Variablerna E1 , E2 och SNP 1 interagerar för att påverka den mellanliggande risken R1 för sjukdomen.

Prototypiska exempel på typiska miljövariabler vid kongestiv hjärtsjukdom är inflammation och rökning. Biomarkörer som är förutsägbara för risken, kongestiv hjärtsjukdom, inkluderar faktorer som C-reaktiv peptid och blodkolesterolnivåer i serum.

Effektberäkningar

Kraft erhölls från 1000 oberoende upprepningar av simuleringsproceduren för varje fallstudie. Beräkningarna baserades på en provstorlek på 500 per grupp för relativa riskvärden mellan 1, 2 och 2, 7 i intervaller på 0, 3. Distributionen av interaktionsindex för ett relativt riskvärde på 1 erhölls och dess 95: e percentilvärde beräknades. Positiva värden för interaktionsindex indikerar närvaron av signifikanta interaktioner för variabeln och följaktligen definierades effekt vid de relativa riskvärdena större än 1 som fraktionen av simuleringarna vars interaktionsindexvärden överskred det 95: e percentilvärdet för interaktionsindexfördelningen för relativ risk för 1.

Analys av datamängder för allmän domän

GEI-analys av workshop om genetisk analys 15

Uppgifterna motsvarande problem 3 i genetisk analysverkstad 15 (GAW15) erhölls från GAW-webbplatsen (//www.gaworkshop.org/gaw15data.htm) och användes med tillstånd.

Dessa data består av 100 replikat av simulerade data som modelleras efter reumatoid artritdata (RA). Miller et al 14 genererade data och följande databeskrivning erhölls från webbplatsen: //genetsim.org/gaw15/answers/. Varje replik innehåller 1500 kärnfamiljer, vardera med två föräldrar och ett drabbat syskonpar och 2000 oberoende kontroller. Uppgifterna innehåller tre typer av autosomala markörer: (i) 730 mikrosatellitmarkörer med ett medelavstånd på 5 cM; (ii) 9187 SNP distribuerade på genomet för att härma en 10 K SNP-chipuppsättning, och (iii) 17 820 SNP på kromosom 6. Data inkluderar kartinformation, med listor över markörer och deras platser, och simulerad familj, markör och fenotypdata. HLA DR-genotypen var också tillgänglig och fenotypen / kovariatdata inkluderade reumatoid artritaffektionsstatus, ålder vid konstatering, livslängdrökning, anti-CCP, immunoglobulin M (IgM), svårighetsgrad, ålder vid början och ålder vid döden.

Denna simulerade datauppsättning efterliknar epidemiologin och det familjära mönstret hos RA, en komplex genetisk sjukdom med flera lokaler som bidrar till sjukdomens mottaglighet. Som sammanfattat i tabell 1 modellerar datamängden interaktion mellan nio loci: C, DR och D på kromosom 6, A på kromosom 16, B på kromosom 8, E på kromosom 18, F på kromosom 11, G och H på kromosom 9 Dessutom inkluderas kön, ålder, rökningsstatus, anti-CCP-mått, IgM-mått, svårighetsgrad, DR-allel från far, DR-allel från mamma, ålder vid början, ålder vid dödsfall som kovariater. Biomarkörerna, anticykliska citrullinerade peptidantikropparna (Anti-CCP) och IgM-åtgärder är endast definierade för fallen. Alla SNP-loci är dialleliska och alleler kodas som 1 och 2.

Full storlek bord

För vår analys, som syftade till att utvärdera effektiviteten i interaktionsindexet, har vi använt uppsättningen av 9187 SNP tillsammans med kön, ålder och rökningsstatus som kovariater. Vi använde de första av de 100 replikaten i vår analys. Vi hänvisar till denna datauppsättning som '10K GAW15 Dataset.' Ålders-, Anti-CCP- och IgM-variablerna, som är kontinuerliga mått, diskretiserades genom att bina i fem intervall med samma bredd. Även om information om haplotypfas tillhandahölls valde vi att inte inkludera den och behandla uppgifterna som genotypdata. Vi genomförde separata analyser med RA-affektionsstatus, Anti-CCP och IgM som fenotyper av intresse. IgM-variabeln inkluderades som ett kovariat i analysen av Anti-CCP som fenotyp och vice versa. Alla GAW-analyser utfördes genom att beräkna PAI-värden för kombinationer innehållande upp till två variabler (exklusive fenotypvariabeln) med användning av AMBIENCE. 6

GGI-analys av interaktioner i kromosom 5

Vi bedömde effektiviteten av interaktionsindexmetriken för att identifiera nyckelinteraktioner i en genotypdatauppsättning från Daly et al. 15 innehållande 103 SNP som sträcker sig över en 616 kb-region av kromosom 5q31 som har kopplats till Crohns sjukdom. 16, 17 Datauppsättningen innehåller genotyper för 129 föräldrar-barntrioar som består av 144 fall och 243 kontroller. 15 För vår analys eliminerades försökspersoner och SNP med saknade genotyper vilket resulterade i 40 SNP och 150 personer.

Resultat

Utvärdering av interaktionsindex

Vi föreslår Interaction Index som ett PAI-härledat mått som kan prioritera genetiska variationer för detaljerade uppföljningssekvensstudier. Interaktionsindexet är ett kriterium som sammanfattar de relativa bidragen från variablerna till sjukdomsföreningarna och vi utvärderade dess förmåga att rangordna sjukdomsassocierade SNP för fallstudier 1A, 1B, 2 och 3. Dessutom jämförde vi resultaten från: (i ) vår analys av Daly-datauppsättningen 15 till de som erhållits av Rioux et al 17 och (ii) vår analys av '10K GAW15 Dataset' och jämförs med de svar som Miller et al. 14

Fallstudier

Resultaten från en interaktionsindexanalys av fallstudier 1, 2 och 3 sammanfattas i figur 2a – c för ett relativt riskvärde på 1, 8. Figur 2 sammanfattar interaktionsindexet och dess komponenter som en staplad stapeldiagram: de svarta, gråa och vita regionerna indikerar de relativa bidragen från respektive 1-, 2- och 3-variabla bidrag. Interaktionsindexvärdet för variablerna i varje fallstudie identifierar korrekt den sjukdomsassocierade rollen för variabeln i den underliggande interaktionsmodellen för den fallstudien. Variablerna E1 , E2 , SNP 1 och SNP 2 har högre värden för interaktionsindex än de återstående variablerna i fallstudie 1A (figur 2a), fallstudie 1B (figur 2b) och fallstudie 2 (figur 2c). För fallstudie 3 (figur 2d) har variablerna E1 , E2 , B1 , B2 , SNP 1 , SNP 2 och SNP 3 höga interaktionsindextoppar.

Figur 3 visar beroendet av interaktionsindexvärden för de viktigaste orsakande variablerna på relativ risk för fallstudier 1A, 2 och 3. Resultaten visar att interaktionsindexet ökar monotont med ökande relativ risk. Vid större värden på relativ risk visar Interaction Index en platå. På samma sätt visar figur 4 beroendet på kraften i interaktionsindexvärdena på relativ risk för fallstudier 1A, 2 och 3. Som förväntat ökar kraften med ökande relativ risk. I fallstudie 1A, för en relativ risk på 1, 5, var kraften för variablerna El , E2 , SNP 1 och SNP 2 0, 77, 0, 52, 0, 98 respektive 0, 96. För fallstudie 2, för en relativ risk på 1, 5, var kraften för variablerna E1 , E2 , SNP 1 och SNP 2 0, 69, 0, 87, 0, 88 respektive 0, 81. För fallstudie 3 för alla värden på relativ risk hade SNP 1 lägre värden effekt än SNP 2 eller SNP 3 ; biomarkören B1 hade lägre effektvärde än B2 . Dessa skillnader i effekt kan bero på att SNP 1 och B1 är mer distala än fenotypen.

Image

( a och b ) Visar beroende av interaktionsindex på relativ risk för E1 (öppna cirklar), E2 (fyllda cirklar), SNP 1 (öppna rutor) och SNP 2 (fyllda rutor) i fallstudier 1A respektive 2. För fallstudie 3 visas El (öppna cirklar), SNP 1 (fyllda cirklar), SNP 2 (öppna rutor) och B1 (fyllda rutor) i ( c ).

Bild i full storlek

Image

( a - c ) Visa kraften i interaktionsindexet för relativ risk för E1 (öppna cirklar), E2 (fyllda cirklar), SNP 1 (öppna trianglar) och SNP 2 (fyllda trianglar) i fallstudier 1A, 2 respektive 3 . För fallstudie 3 visas B1 (öppna rutor) och B2 (fyllda rutor) dessutom i ( c ).

Bild i full storlek

GGI-analys av interaktioner i kromosom 5

Rioux et al 17 hittade 11 SNP: er (IGR2055a_1, IGR2060a_1, IGR2063b_1, IGR2078a_1, IGR2096a_1, IGR2198a_1, IGR2230a_1, IGR2277a_1, IGR3081a_1, IGR3096a_1 och IGR3236a_1) med allelrisker som var förknippade med alla sjukdomar som var förknippade med alla sjukdomar. Nio av 11 betydande SNP var närvarande i den datauppsättning vi analyserade; SNP: er IGR2078a_1 och IGR2277a_1 saknades. Från Interaction Index-analysen av Daly et al 15- datauppsättningen (figur 5a) har alla de nio SNP: er som identifierats av Rioux et al 17 som signifikant associerat med Crohns sjukdom och närvarande i datamängden visat sig vara betydande på en signifikansnivå av 0, 05 (tabell 2). Figur 5a visar att SNP: er identifierade av Rioux et al 17 (t.ex. SNP: er 34, 20, 30, 32 och så vidare.) Som betydande innehöll starka 1- och 2-variabla innehållande interaktionsbidrag och identifieras genom vår interaktionsindex-strategi. Det finns emellertid två SNP: er, till exempel 28 och 33, involverade i interaktioner som identifieras med Interaction Index-metoden men som inte identifierades av Rioux et al. 17 Dessa SNP: er är lättare prioriterade med Interaction Index eftersom det står för högre- ordningsinteraktioner men deras relativt låga 1-variabla föreningar med fenotyp orsakade att dessa missades i Rioux et al 17- analyserna.

Image

( a ) Visar interaktionsindex för datauppsättningen Daly et al . 15 De nio SNP som finns i uppgifterna och visade sig vara signifikant associerade med sjukdomens fenotyp av Rioux et al framhävs med fetstil med IGR-nummer från Rioux et al. 17 De staplade staplarna visar det totala interaktionsindexet för varje SNP; de svarta regionerna motsvarar bidraget med 1-variabel, de gråa och vita regionerna i staplarna motsvarar bidragen från kombinationer av 2-variabel respektive 3-variabler. ( b - d ) Visa interaktionsindex för '10K GAW15-datauppsättningen' med RA-affektionsstatus, Anti-CCP respektive IgM som fenotyper. De staplade staplarna visar det totala interaktionsindexet för varje SNP eller kovariat; de svarta regionerna motsvarar det 1-variabla bidraget, medan de gråa regionerna i staplarna motsvarar bidragen från kombinationer av 2-variabla kombinationer. Felstegen i ( b - d ) representerar de 95: e percentilen och den 5: e percentilvärdena erhållna från 100 replikat av datauppsättningen.

Bild i full storlek

Full storlek bord

GEI-analys av workshop om genetisk analys 15

Figur 5b – d visar interaktionsindexvärdet för variablerna involverade i analysen av '10 K GAW15 Dataset 'med RA-affektionsstatus, Anti-CCP och IgM som fenotyper av intresse. GAW15-datauppsättningen innehöll 100 repliker från repetitioner av simuleringsproceduren som gjorde det möjligt för oss att beräkna 95% konfidensintervall för Interaction Index för varje variabel.

I RA-affektionsstatusanalysen inkluderade topp 10 förväntade toppar för interaktionsindex loci C, DR, F, D och kovariaten, rökning, ålder, kön (figur 5b). Loci D och DR påverkar respektive ökar risken för RA. Locus F, ett kvantitativt drag locus (QTL) för IgM, svarar för 30% av den fenotypiska variationen av IgM. IgM inkluderades i farmodellen som användes för att generera RA-affektionsstatus. Locus C ökar den kvinnliga risken för RA. Interaktionsindexet identifierar lämpligt locus C som visar bevis på en högre ordning-interaktion (den grå delen av den totala längden på stapeln) medan loci D, DR och F nästan helt visar 1-variabel associering med fenotypen. Även om det mesta av könseffekten är via locus C, påverkar könsförhållandet mellan män och kvinnor i den allmänna befolkningen RA direkt liksom ålder och rökning.

Med Anti-CCP som fenotyp, var de viktiga rollerna för loci DR och E tydligt tydliga eftersom dessa var de första respektive näst högsta interaktionsindexvärdena. Locus E kontrollerar effekten av DR-lokuset på fenotypen Anti-CCP och ökar risken för RA. Återigen anger interaktionsindexet korrekt att båda platserna är involverade i högre ordning-interaktioner (figur 5c).

Med IgM som fenotyp var den första variabeln som identifierades av indexet IgM QTL, Locus F (figur 5d). Både de RA-sjukdomsassocierade lokalerna och kovariaten såväl som deras respektive roller (interaktion med en enda variabel eller högre ordning) klargjordes konsekvent och exakt med hjälp av Interaction Index.

Beräkningskomplexitet

Vi bedömde beräkningskomplexiteten i beräkningen av Interaction Index med hjälp av terminologi från Corman et al. 18 Beräkningen av Interaction Index för en variabel av intresse innebär interaktionsbidrag av kombinationer som innehåller variabeln. Låt m vara provstorleken för data och n vara antalet variabler (exklusive fenotypvariabeln) och K vara den maximala interaktionsordningens intresse. Varje PAI förbrukar ordningen O ( m 2 ) beräkningar och varje interaktionsbidrag av ordningen k innehåller O (2 k ) PAI-termer. För K = 4 är beräkningskomplexiteten för interaktionsindex O ( m 2 ) + ( n − 1 ) O ( m 2 2) + n C 2 O ( m 2 2 2 ) + n C 3 O ( m 2 3 ), vilket är ekvivalent med O ( m 2 n 3 ).

Sammantaget indikerar dessa resultat att interaktionsindexet är ett användbart tillvägagångssätt för att prioritera genetiska regioner för detaljerad sekvensering och för att identifiera de kritiska miljövariablerna och kovariaten för uppföljningsstudiedesign. Interaktionsindexet är ett kriterium som sammanfattar de relativa bidragen från variablerna till sjukdomsföreningarna. Vår strategi kan underlätta beslut om interaktions relativa betydelse.

Diskussion

I denna rapport utvecklade och utvärderade vi Interaction Index, en PAI-baserad informationsteoretisk metrisk som redovisar rollen för genetiska varianter och miljövariabler i GGI och GEI. Interaktionsindexet kan användas för att bedöma individuella SNP: s roll och bidrag till sjukdomens fenotyp.

Vi utvecklade Interaction Index som en metrisk för att prioritera genetiska regioner för uppföljning av sekvenseringsstudier och för att rikta kritiska miljövariabler för förvärv i efterföljande studieutformningar. Till skillnad från Interaction Index, som är utformat för att identifiera SNP: er som är signifikant associerade med en fenotyp, hjälper de metoder som används av PRIORITIZER-programvaran vid valet av kromosomala områden för ytterligare sekvensering. Kandidatgenerna prioriteras med hjälp av en Bayesian-strategi genom att kombinera information från källor som Gene Ontology, KEGG, BIND, HPRD, Reactome. 19 Tillvägagångssättet är emellertid mer lämpligt med en kandidatgenstrategi och är inte lika kraftfull för genomomfattande data eftersom tillgängligheten av funktionell information som kan diskriminera enskilda SNP: er kan begränsas. I sådana tillvägagångssätt kan sekvensbevarande över arter och annan funktionell information övervägas. I interaktionsindexmetoden använder metoden högdimensionell information härrörande från de individuella SNP-data och exponeringsprofiler inom den epidemiologiska datauppsättningen för att bedöma GGI och GEI.

Så vitt vi vet finns det inga andra metoder som hanterar prioriteringsproblemet för genetiska och miljömässiga variabler baserat på deltagandet i GEI. En potentiell kritik av vår strategi är de uppenbara komplexiteten hos de underliggande ekvationerna. Även om de matematiska uttryck för IC verkar komplexa, är deras underliggande ramverk intuitiva och använder induktiv logik. PAI representerar den totala fenotyp-associerade informationen för en uppsättning variabler och representerar ett generellt mått på fenotypförening där beroenden mellan variabler har dragits bort. Vi väljer endast de PAI-komponenterna i en specifik ordning som innehåller variabeln av intresse. Informationen som redan erhållits från interaktioner med lägre ordning tas bort. Interaktionsindexet är baserat på ljudinformationsteoretisk grund eftersom det kan visas att IC för en kombination av variabler konvergerar till KWII för variablerna när alla interaktioner i en given ordning eller mindre som endast innehåller variablerna i kombinationen beaktas ( se bilaga).

Vi har emellertid formulerat de underliggande uttrycka i termer av PAI snarare än KWII på grund av beräkningseffektivitet: PAI är lättare att beräkna eftersom det bara kräver de individuella och gemensamma entropier som behövs för TCI-beräkningarna. KWII-beräkningar kräver entropierna för alla delmängder och lägger beräkningsbördan. PAI har också den ytterligare fördelen att TCI för inbördes beroende bland flera variabler, såsom de som orsakas av LD, tas bort. Våra tidigare publicerade resultat har visat att dessa PAI-metoder är effektiva för redovisning av LD och kan användas för att analysera en mängd olika epidemiologiska datamängder som innehåller komplexa kombinationer av direkta effekter, flera GGI och GEI. 5, 6

Det variabla identifierings- och prioriteringsproblemet som interaktionsindexet adresserar ger inte det bästa sammanhanget för att jämföra informationsteoretiska metoder med andra alternativ för att identifiera genetiska interaktioner. Effektiviteten och kraften hos KWII kan emellertid jämföras med andra interaktionsanalysmetoder såsom de baserade på probabilistiska genetiska modeller, dimensionalitetsreduktion eller regression. Återkalla från metoderna att positiva KWII-värden indikerar synergi mellan variablerna, negativa värden indikerar redundans mellan variabler och ett värde på noll indikerar frånvaron av K -way-interaktioner. 5, 6 Detta gör tolkningen av KWII-värden intuitiv på grund av den kvalitativa likheten till tolkningen av koefficienten för produkttermer i logistisk, polytom eller kontinuerlig regressionsmodellering, varvid ett positivt produktkoefficientvärde identifierar interaktionstermer och antyder att synergistiska svar är oftare än antagonistiska och konkurrenskraftiga svar; ett negativt koefficientvärde innebär att antagonistiska och konkurrenskraftiga svar är oftare än ett synergistiskt svar. 20 Vi har jämfört KWII 5, 6 med logistisk regression, 21 logisk regression, 22 stamtavla ojämlikhetstest, 23 flerfaktors dimensionalitetsreduktion, 24 begränsad partitionsmetod 25 och andra. Kraften hos KWII för att detektera GEI i dessa experiment var jämförbar med eller bättre än de konkurrerande metoderna som undersöktes.

GEI-analys involverar flera tester, vilket är förknippat med ökat typ I-fel och falska upptäcktshastigheter. Vidare involverar testerna i GEI-analys beroende på hög nivå på grund av LD bland SNP och eftersom olika kombinationer av genetiska och miljövariabler kan dela delmängder av variabler; till exempel innehåller kombinationerna { W , X , Y } och { X , Y , Z } båda variablerna X och Y. Tillgängligheten av P- värden från permutationstest gör det möjligt för användare att enkelt eliminera variabler vars interaktionsindexvärden inte uppfyller okorrigerade, nominella P- värdet trösklar för till exempel P ≤0, 05. För de återstående variabla kombinationerna med lägre P- värden är det emellertid också rätt att korrigera för flera tester. För flera testmetoder, såsom metoden enligt Obreiter et al 26 som implementerats i programmet SDminP (//www.dkfz.de/SDMinP/software.html) kan användas. SDminP beräknar empiriska och justerade P- värden för korrelerade och okorrelerade hypoteser med hjälp av en Free Step-Down Resampling Method 27 för att kontrollera familjefelfrekvensen (FWER). Den använder beräkningseffektiva algoritmer 28, 29 som minskar återprovtagningsinsatsen. Andra multipla testalternativ som sträcker sig från den konservativa Bonferroni-korrigeringen till den falska upptäcktsfrekvensbaserade metoden Benjamin Benjamin-Hochberg 30 kan också användas.

För närvarande väger interaktionsindexens metriska definition lika viktiga beståndsdelar för interaktion. Även om en viktningsfunktion kan implementeras i detta steg och användas för att tilldela ordning eller betydelse till genotyper och / eller miljövariabler, finns det utmaningar att integrera extern information i Interaction Index och med andra potentiella metoder för GEI-analys. För att vara användbart bör viktningssystemen: (i) minimera omfattande behov av användarinmatning; dessa kan vara tunga med tanke på det stora antalet variabler i typiska GEI-studier. (ii) vara generaliserbara till kombinationer. Det är troligt att majoriteten av de externa biologiska data kommer att relatera till enskilda SNP och miljövariabler och information om kombinationer kommer att vara begränsad. Automatiserad extraktion av data från genomdatabaser kan vara nödvändig och Booleska regler för att utvidga informationen från enskilda SNP till kombinationer kommer att behöva utformas. (iii) ge tolkbara resultat. Hittills har de matematiska och statistiska egenskaperna för vägda entropimätningar inte studerats i djupet.

Medan andra kraftfulla informationsteorimetoder har föreslagits för genomomfattande dataanalys, var dessa mätvärden inte utformade för att fånga de första och andra ordningens interaktioner som är karakteristiska för komplexa sjukdomar, utan snarare testa för allelisk associering med en fenotyp. 31, 32, 33 Dong et al 34 har föreslagit en metod som kallas ESNP2 baserad på informationsförstärkning för analys av två-SNP-epistas i fallkontrollstudier och för att identifiera lämpliga två-SNP-interaktionsmodeller. Den informationsteoretiska metoden i denna rapport tar upp ett annat problem och är också mer generaliserbart eftersom interaktioner med högre ordning omfattas. Dessutom använder vi PAI för att redovisa LD. Metoden är flexibel och kan användas när de genetiska och miljömässiga variablerna har olika antal klasser eller när fenotypen har mer än två klasser. Detta innebär att SNP- och mikrosatellitmarkörer kan analyseras tillsammans vid behov. En annan kritisk fördel med vår strategi är att det ger alternativ för användarinteraktioner och visualisering. Möjligheten att interagera med data berikar användarens upplevelse och kan möjliggöra upptäckt av funktioner som annars är svåra att hitta.

Vår strategi kännetecknar de relativa rollerna för de informativa genetiska och miljömässiga variablerna, identifierar delmängderna av genetiska variationer och miljöfaktorer som är involverade i interaktioner som tillsammans kan ge en ram för att utveckla förklarande modeller för de observerade mönstren för sjukdomsföreningar.

Intressekonflikt

Användning av informationen i denna artikel för kommersiell, icke-kommersiell, forskning, beviljande eller annat syfte än peer review som inte är tillåtet före publicering utan uttryckligt skriftligt tillstånd från författaren.

bilagor

Bilaga

Förhållande mellan interaktionsbidrag till PAI och KWII

Interaktionsinformationen som involverar två variabler A , B och fenotypvariabel P kan skrivas som

Image

Således:

Image

På liknande sätt kan PAI för tre variabler A , B , C och fenotyp variabel P uttryckas som:

Image

Generalisering till PAI för K- variabler X 1, X 2,

.

X X :

Image

Nu visar vi att IC för en kombination av variabler konvergerar till KWII för variablerna när alla interaktioner i en given ordning eller mindre som endast innehåller variablerna i kombinationen beaktas. För variabel A, när de observerade fenotyp-associerade interaktionerna är { A, P }, { B, P } och { A, B, P }, ges interaktionsbidraget IC ({ A, B, P }) av:

Image

På liknande sätt, när de observerade fenotyp-associerade interaktionerna är { A, P }, { B, P }, { C, P }, { A, B, P }, { B, C, P }, { A, C, P } och { A, B, C, P }, interaktionsbidraget IC ({ A, B, CP }) ges av:

Image

Våra resultat följer som ett resultat av generaliseringen av denna strategi.