Kartlägga autismrisklägen med hjälp av genetisk koppling och kromosomala omorganiseringar naturgenetik

Kartlägga autismrisklägen med hjälp av genetisk koppling och kromosomala omorganiseringar naturgenetik

Anonim
  • En rättelse till denna artikel publicerades den 1 oktober 2007

Den här artikeln har uppdaterats

Abstrakt

Autismspektrumsjukdomar (ASD) är vanliga, ärftliga neuro-utvecklingsförhållanden. ASD: s genetiska arkitektur är komplex och kräver stora prover för att övervinna heterogenitet. Här utvidgar vi täckning och provstorlek relativt andra studier av ASD: er med hjälp av Affymetrix 10K SNP-matriser och 1 181 familjer med minst två drabbade individer, och utfört den största länkskanningen hittills samtidigt som vi analyserar kopiaantalvariationer i dessa familjer. Analyser av kopplings- och kopieringsnummervariationer implicerar kromosom 11p12 – p13 respektive neurexiner, bland andra kandidatlokaler. Neurexins team med tidigare implicerade neuroligins för glutamatergisk synaptogenes, och framhäver glutamatrelaterade gener som lovande kandidater för att bidra till ASD: er.

Huvudsaklig

Autism är en neuro-utvecklingsstörning som kännetecknas av försämringar i ömsesidig social interaktion, kommunikationsbrister och repetitiva och begränsade beteendemönster och intressen. Autistisk störning är den prototypiska genomgripande utvecklingsstörningen (PDD eller, likvärdigt, ASD), som bildar en grupp som också inkluderar Asperger-störning, PDD som inte anges annat och Rett-störning 1 . Befolkningens förekomst av autism är ungefär 15–20 av 10 000, och alla ASD: er påverkar cirka 60 av 10 000 barn. Män drabbas fyra gånger så ofta som kvinnor 2 över hela världen. Autism är associerat med en erkänd orsak hos endast cirka 10% av individerna, oftast med bräckligt X-syndrom, tuberös skleros och kromosomavvikelser 3, 4 .

Tvillingstudier visar en konkordans på 60% –92% för monozygotiska tvillingar och 0% –10% för dizygotiska par, beroende på fenotypiska definitioner 5 . Mildare fenotyper är på samma sätt förhöjda hos släktingar till singletonprober, i överensstämmelse med ett spektrum av svårighetsgrad 6 . Den uppskattade förekomsten av autism hos syskon är 5% –10% (ref. 7, 8). Förhållandet mellan återkommande risk för syskon och förekomst av befolkningen varierar från 67 till 25, båda större än för de flesta multifaktoriella sjukdomar. Även om familjegrupper i autism skulle kunna återspegla delade miljöfaktorer, föredrog tvillingstudier 5, 9 och fördelningen av mildare fenotyper i familjer en modell som involverar multipla interagerande lokaler 10, 11 . Vi antar att ansvaret för autism till stor del beror på oligogen arv där kombinationer av känslighetsalleler bidrar. Variationer i fenotypisk svårighetsgrad hos syskonpar och familjemedlemmar som konstaterats genom en autistisk proband överensstämmer båda med denna hypotes. Baserat på många observationer av karyotypiska avvikelser i autism, antar vi också att submikroskopiska förändringar är involverade.

Genomgripande kopplingssök 12 (även granskad i ref. 13) för locism för mottaglighet för autism har identifierat kromosomala regioner 2q, 7q och 17q, där 7q gav de mest konsekvent positiva resultaten, inklusive stöd från metaanalys. Dessutom tyder väsentliga bevis på att kromosomavvikelser bidrar till autismrisk, men den exakta förekomsten är oklar eftersom litteraturundersökningar omfattar olika diagnostiska och cytogenetiska metoder och provstorlekar. Nyligen genomförda undersökningar 3, 4 visar en medelhastighet för grova mutationer och kromosomavvikelser mellan 4, 3% (78/1 826) och 7, 4% (129/1 749), men många studier visar att detekterade avvikelser hos 5% –10% av de drabbade individerna 3 . Bland de vanligaste fynden är fra (X) (q27) (3, 1%; 28/899) och avvikelser som involverar proximala 15q (0, 97%; 17/1 749), särskilt Prader-Willi och Angelman-regionen 3, 4 . Duplikationer av 15q11 – q13, vanligtvis av moderligt ursprung, observeras i 1% –3% av fallen, antingen som interstitiella duplikationer eller supernumerära isodicentriska markörkromosomer som innehåller en eller två extra kopior av denna region 3 . Studier av kopplings-, associerings- och / eller kromosomarrangemang har identifierat flera ASD-kandidater, inklusive gener som kodar för neuroliginer och deras bindningspartner, som har sjukdomsassocierade mutationer 14, 15, 16, 17 .

I vår modell för autism bidrar kombinationer av flera loci som möjligen interagerar och mikroskopiska eller submikroskopiska kromosomala abnormiteter till risken, vilket komplicerar upptäckten av enskilda loci. Att öka sannolikheten för att upptäcka loci kräver att man analyserar ett stort urval av multiplexfamiljer (dvs. familjer med två eller flera drabbade individer), vilket förbättrar kraften i kopplingsanalys och kontrollerar källor för etiologisk heterogenitet (häri innebär termen familjer multiplexfamiljer).

Vi har samlat ett urval av över 1 400 ASD-familjer, en resurs som är tillräckligt stor för att implementera flera strategier för att lokalisera mottaglighetslokaler (se 'Ström' i tilläggsmetoder online). Även om vissa kopplingsstudier har försökt kontrollera för heterogenitet som kan hänföras till kromosomavvikelser genom att utesluta det lilla antalet drabbade familjer, har ingen försökt slå samman kopplingsanalys med studier av kromosomal variation i fin nivå. Vi har utvecklat en metod, med jämförande analys av hybridiseringsintensiteter, för att identifiera submikroskopiska kopieringsnummervariationer (CNV: er) som förmodade risklokaler och som ett verktyg för att stratifiera proverna för att minska genetisk heterogenitet för kopplingsanalyser.

Resultat

Personer med ASD

Autism Genome Project (AGP) Consortium, bestående av forskare från 50 centra i Nordamerika och Europa, samlade 1 496 ASD-familjer (7 917 familjemedlemmar) för denna studie. Diagnosen baserades på Autism Diagnostic Interview-Revised (ADI-R) och Autism Diagnostic Observation Schedule (ADOS) eller klinisk utvärdering (se ref. 18 och metoder). Ursprung för de screenade individerna visas i kompletterande metoder; de flesta var karyotypade (∼ 71%) och screenades för bräckliga X-mutationer (∼ 94%), och familjer utesluts om endera var onormal hos minst en drabbad individ. De flesta cellinjer eller DNA-prover som härrör från projektet finns tillgängliga vid National Institute for Mental Health (NIMH) Center for Collaborative Genetic Studies, European Collection of Cell Cultures och Autism Genetics Research Exchange. Vi genotypade genomiskt eller i vissa fall hela genom-amplifierat (WGA) DNA.

Kopplingsanalys per diagnostisk grupp

Vi genererade framgångsrikt genotyper från 1 491 av 1 496 nominella familjer (6 709 prover; tabell 1) med Affymetrix 10K v2 SNP-matris. WGA hade ingen märkbar inverkan på genotypningsnoggrannheten: för 12 utvärderade duplikatprover var överensstämmelse av genotyper för WGA kontra blod-DNA> 99, 6% utan någon signifikant skillnad i färdigställande (båda ∼ 94%). Från de 10 112 SNP som ursprungligen var genotypade, resulterade kvalitetskontrollförfaranden i markörens uteslutning av följande skäl: mindre allelfrekvens <0, 05 (borttagna 749 SNP), hög hastighet av saknade genotyper (borttagna 1112 SNP), val av SNP-taggar (borttagna 1 734 SNP) och avvikelser från Hardy-Weinberg Equilibrium (borttagna 391 SNP). Efter kvalitetskontroll var den diskordanta samtalstakten per lokus, baserad på 261 duplikatprover, ungefär 5 / 10.000.

Full storlek bord

Kvalitetskontroll av familjedata hade en liknande inverkan på att minska antalet (tabell 1) och gav 1 181 familjer för kopplingsanalys. Av dessa familjer uppskattar vi att 64% ingick i mindre publicerade kopplingsstudier. Familjerna fördelades över tre diagnostiska kategorier (smal, bred och heterogen ASD (hASD)), som definierades enligt diagnosfördelningen (se Metoder). Kopplingsanalyser utfördes för tre kapslade diagnostiska grupper (smala, breda och alla familjer); för analyser med fokus på en diagnostisk grupp är "bred" ett rimligt val eftersom ett betydande antal familjer faller i gruppen och känsligheten och specificiteten för denna diagnostiska metod är pålitlig 18 .

Innan kopplingsanalyser byggde vi om den genetiska kartan Affymetrix genom linjär interpolering från National Center for Biotechnology Information Build35 och markörer av kända genetiska positioner 19 för att dra slutsatser om genetiska platser för alla SNP. Vi validerade sedan den nya genetiska kartan med kopplingsdata.

Kopplingsinformation, som rapporterats av MERLIN, var i genomsnitt ∼ 95% över genomet (minima vid telomerer, ≥71%) på grund av hög täckning av markörer över genomet och tillgängligheten av föräldrarnas genotyper (3% av familjerna har inga föräldragenotyper, medan 79 % har genotyper för båda föräldrarna). Resultaten är sålunda också okänsliga för SNP: er i kopplingsdifferens (se Metoder). Endast för alla familjer överskrider statistiska bevis tröskeln för suggestiv koppling 20, vid 11p12 – p13 (Fig. 1).

Vertikala referenslinjer skiljer kromosomer, som är ordnade. Den horisontella referensfältet ges vid en Zrr av 3.18, tröskeln för suggestiv koppling enligt Lander / Kruglyak-kriteriet 20, vilket är ungefär korrekt i denna inställning (4.1 är tröskeln för betydande koppling). Den suggestiva tröskeln förväntas korsas av en slump en gång per genomskanning. Den korsas en gång och toppen faller inom 11p12 ( Z lr = 3, 57 vid rs2421826).

Bild i full storlek

Karaktärisering av variationen i kopienummer

Vi bedömde våra prover för CNV-innehåll med hjälp av signalintensiteter erhållna från SNP-arrayerna. Eftersom fördelningen av intensitet är kontinuerlig, medan kopienumret är diskret, krävs en algoritm för att dra slutsatsen från signalintensiteten för en SNP-genotyp i förhållande till intensiteten från andra sampel. Till att börja med så många CNV som möjligt använde vi två tillvägagångssätt (benämnda "batch" och "platt-för-platta") för intensitetsjämförelser, vilket gav totalt 2 788 förmodade CNV från 1 109 prover från 715 familjer (tabell 2) . För att definiera en strängare uppsättning CNV-samtal undersökte vi råintensitetsdata från 42 CNV-samtal som antogs vara verkliga baserat på överlappning med icke-mendeliska genotypfel eller genom laboratorieexperiment. Vi bedömde också prover med identiska CNV: er inom samma familj, eftersom dessa också kan anses vara validerade samtal. Dessa analyser visade att vår jämförelse mellan platt-för-platt-signalintensitet hade mindre bakgrund och sannolikt skulle innehålla färre falsk-positiva data jämfört med batch-strategin (se Methods och ref. 21). Därför granskade vi sedan dessa intensitetsfiler för att vägleda tröskelinställningar för att definiera en mycket sträng datauppsättning, kallad "filtrerad", som innehåller 624 CNV: er från 350 olika familjer (tilläggstabell 1 online och fig. 2).

Full storlek bord

Dessa CNV: er kommer från den "filtrerade" datauppsättningen med högsta stringens, men många andra verkliga CNV: er kommer också att finnas i de andra analyserna och bör undersökas vidare. Egenskaper för den kompletta datamängden beskrivs i tabell 2. Några av de större förändringarna kan representera somatiska artefakter eller missade karyotypiska avvikelser. All data är också nedladdningsbar eller kan ses i Genome Browser-format i Autism Chromosome Omorganisering databas (se URL i metoder). När ytterligare analyser och valideringar utförs kommer informationen att publiceras på samma plats.

Bild i full storlek

Varningar om dessa data är som följer: (i) det kommer att finnas bona fide CNV: er i batchjämförelsedata som inte uppfyller avbrott i den filtrerade analysen; (ii) vissa CNV: er kan vara somatiska artefakter, såsom cellodlingsinducerade omarrangemang och aneuploidi; (iii) kartläggningsupplösningen av CNV-gränser är beroende av lokal SNP-densitet och är därför icke-enhetlig; (iv) mindre CNV kommer sannolikt att missa (kompletterande figur 1 online) och (v) balanserade omarrangemang kommer inte att detekteras.

Med tanke på enbart våra högsta förtroendedata identifierade vi 254 CNV i 196 ASD-fall från 173 familjer (tabell 2, fig. 2 och kompletterande tabeller 2 och 3 online). Medelstorleken och medianstorleken var 3, 4 Mb respektive 0, 66 Mb, och majoriteten (66%) var CNV-vinster, förmodligen på grund av en större tolerans i genomet för stora vinster kontra borttagningar. De iakttagelser som är mest relevanta för ASD-sjukdomsrisk (kompletterande tabell 1) inkluderade (i) identifiering av tio familjer med uppenbara de novo- CNV: er (i tre sådana familjer hittades CNV i båda ASD-sibs); (ii) 18 CNV: er i icke-relaterade drabbade individer med genomiska platser sammanfaller med publicerade ASD-kromosomarrangemang och (iii) 126 CNV: er med återkommande (47) eller överlappande (79) gränser, vilket antyder att de kan vara icke-slumpmässiga händelser (kompletterande tabeller 3 och 4 online) . Vi upptäckte också sju prover från tre familjer med ASD-associerad kromosom 15q-vinster, som alla är medelsmässigt ärvda, som man kunde förvänta sig (inklusive minst två som undkom tidigare karyotypisk upptäckt).

Vi belyser fyra CNV-upptäckter för att visa användbarheten och komplexiteten hos dessa data och även tjäna som en prototyp för hur denna nya typ av genetisk information kan användas i kartläggningsstudier. Först, i familj AS049, hade två kvinnliga sibs med ASD uppenbarligen identiska 300 kb CNV-förluster av kromosom 2p16 som inte upptäcktes hos någon av föräldrarna. Kvantitativ PCR-analys bekräftade mikrodeletionen: mikrosatellitanalys visade det identiska matriska kromosomala segmentet men inget faderligt DNA i sibbarna, vilket gav en trolig förklaring av faderlig gonadal mosaik. Denna hemizygot deletion eliminerar kodande exoner från neurexin 1-genen ( NRXN1 ), som representerar en funktionell kandidat för ASD baserat på rollen som NRXN1 i synaptogenes och dess interaktion med neuroliginer. Sällsynta NRXN1- mutationer genererar uppenbarligen risk för ASD och mental retardering 16, 22, 23 . Båda flickorna presenterade typisk autism, inklusive karakteristiska utvecklingsförseningar. Även om vi inte kunde vara säkra på deras muntliga status på grund av deras unga ålder, verkade man icke verbal, medan hennes syster hade mild språkregression. Ingen av föräldrarna hade kliniskt viktiga funktioner.

För det andra fann vi en återkommande 1, 1-Mb CNV-förstärkning vid kromosom 1q21 i tre familjer: AS048, med en drabbad hane; AS039, en drabbad kvinna; och AS007, två drabbade manliga syskon och deras far med okänd tillgivenhetsstatus. Det överlappar samma region som är inblandad i mental retardering och andra avvikelser 21, 24, 25 .

För det tredje observerade vi CNV: er av 33 933 kb vid 17p12 som en de novo- duplikering i ett drabbat hane-kvinnligt syskonpar i en familj (AS068), som en maternellt ärftig borttagning i två drabbade manliga syskon (AS028) och som en paternellt ärftig radering hos en drabbad kvinna (AS001). Detta intervall, när det dupliceras, orsakar Charcot-Marie-Tooth 1A (CMT1A) och när det raderas orsakar ärftlig neuropati med ansvar för tryckpares 26 . Denna region överlappar också mikrodeletioner som ses i vissa fall av Smith-Magenis syndrom, som själv har fenotypisk överlappning med ASD: er 27 . Dessutom har andra mikroproduktioner med samma intervall beskrivits hos individer med mental retardering, tal- och språkfördröjning, autism och relaterade fenotyper 28 . Ingen av de implicerade sjukdomsassocierade CNV: erna som beskrivs ovan observerades i någon känd kontrollprovdatabas, som vid tidpunkten för studien omfattade ∼ 500 prover från den allmänna populationen 21, 29 .

Slutligen upptäckte vi ytterligare komplexitet i två familjer med duplikationer på 22q11.2. I familjen AS063 ärvde den manliga proband som diagnostiserats med autism dupliceringen från sin far, men en bror med PDD som inte anges på annat sätt har inte dupliceringen. I familjen AS019 bar den kvinnliga syskon som diagnostiserades med autism dupliceringen, medan en drabbad bror inte gjorde det, och vi observerade inte dupliceringen hos någon av föräldrarna. Genotypning bekräftade de biologiska föräldrarna. FISH-analys bekräftade duplikationer i båda familjerna och visade att det var de novo i den andra familjen (data visas inte).

Undersökning av länkning av underuppsättningar av data

Kopplingsanalys identifierar regioner med en eller flera genetiska varianter som står för en betydande del av risken i familjer. Sällsynta de novo eller familjära CNV: er som ger risk för ASD: er kan vara en källa till brus eller heterogenitet som minskar känsligheten i kopplingsanalyser. Således, i teorin, kunde kopplingssignaler från större loki förstärkas om familjer med sällsynta CNV-riskalleler avlägsnades. En sund strategi för att utvärdera delmängder baserade på kända och förmodade CNV: er är emellertid oklar. Tänk på våra tre nivåer av CNV-upptäckt (nämligen filtrerad, platta och batch), som är beställda efter stränghet av bevis som krävs för att ringa en CNV. Att flytta från filtrerad till batch är det rimligt att anta att frekvensen av falska positiver ökar medan graden av falska negativa potentiellt minskar. Att välja en enda metod a priori gynnar ett visst, okänt förhållande mellan falska positiva och falska negativa. Detta förhållande kanske inte är optimalt, beroende på hur mycket av den hänförliga risken för ASD: er som tillfaller CNV: om CNV: er står för en stor del av risken, är den falska negativa hastigheten kritisk; omvänt, om CNV: er står för en liten bråkdel av risken, är den falska positiva kursen av större betydelse. Av denna anledning valde vi att utforska effekterna av alla tre nivåer av CNV-upptäckt. Inom varje nivå avlägsnade vi familjer där minst en individ diagnostiserades med ASD och också hade minst en förmodad CNV (tabell 3). Med hjälp av den breda diagnostiska gruppen beräknade vi kopplingsspåren (tilläggsfigur 2) online.

Full storlek bord

Efter att ha tagit bort "CNV-familjer" blir data suggerande för koppling i två regioner, 11p12 – p13 och 15q23–25.3 (fig. 3), i motsats till resultaten från alla breda familjer. Den mest anmärkningsvärda inverkan inträffar för batchmetoden, som tar bort den största andelen familjer. När familjer som tas bort kontra behålls med batchmetoden kontrasteras med avseende på identitet efter nedstigning (IBD), är heterogenitet blygsam med undantag för området 15q25.3 (fig. 3).

Resultat från alla familjer (ignorerar CNV: er) noterade av cyanlinjen; resultat från den filtrerade uppsättningen, den orange linjen; resultat från plattuppsättningen, röd linje; och resultat från batchuppsättningen, svart linje. Familjer ingår alla i den breda diagnoskategorin. Kompletta resultat finns i kompletterande figur 2. För kromosom 11 inträffar det maximala i 11p13 ( Zlr = 3, 33 vid rs2421826). För kromosom 15 finns det två korsningar: den mindre toppen uppträder vid 15q23 ( Z lr = 3, 19 vid rs1372828) och den större vid 15q25, 3 ( Z lr = 3, 41 nära rs1433452). För familjer som avlägsnats jämfört med de som bibehölls testades heterogenitet av uppskattad identitet efter nedstigning i ± 5-cM kopplingsregionen som omger varje topp och rapporterades som regionalt minimalt heterogenitet P- värde mP (11p12 – p13, mP = 0, 074; 15q23, mP = 0, 044; 15q25, 3, mP = 0, 004).

Bild i full storlek

Förhållandet 4: 1 av drabbade män till kvinnor, högre rapporterad återfallsrisk för syskon till kvinnliga versus manliga proband 8 och publicerad litteratur 30, 31 antyder att en användbar partition av ASD-familjerna skulle vara om de innehöll drabbade kvinnor ('kvinnlig innehållande kvinnor') ') eller endast drabbade män (' endast manar '). Således delade vi familjerna enligt dessa kriterier och beräknade kopplingsspår för var och en av de tre kapslade diagnosgrupperna (Fig. 4). I överensstämmelse med teori 32 verkar de kvinnor som innehåller kvinnor vara mer informativa för koppling. Till exempel, för det smala diagnosschemat, korsar kopplingsspår den suggestiva tröskeln tre gånger, vid 5p15.33, 9p24.1 och 11p13–12, medan spåren inte närmar sig denna tröskel för endast manliga familjer. Kopplingsspår för endast familjer för män korsar den suggestiva tröskeln endast för den mest inkluderande diagnostiska nivån (5q12.3 och 9q33.3; Fig. 4) men inte på samma platser som kvinnor som innehåller familjer. Även om skillnaderna mellan familjer som innehåller kvinnor och endast män när det gäller koppling kan bero på slump, upptäcker test av heterogenitet av IBD betydande heterogenitet i 9p, 9q och 11p och blygsam heterogenitet i 5q (fig. 4).

För kvinnor innehållande familjer och smal diagnos lokaliseras topparna till 5p14, 33 ( Zlr = 3, 41 vid rs1968011; mP = 0, 141), 9p24, 1 ( Z lr = 3, 21 vid rs1340513; mP = 0, 0007) och 11p13 ( Z lr = 3, 77 vid rs1358054; mP = 0, 008); för kvinnliga innehållande familjer och bred diagnos, till 9p24, 1 ( Z lr = 3, 59 vid rs722628; mP = 0, 006) och 11p13 ( Z lr = 3, 90 vid rs1358054; mP = 0, 015) och för alla kvinnliga innehållande familjer, till 11p12 ( Zlr = 3, 63 vid rs1039205; mP = 0, 078). För alla familjer som endast var manliga, lokaliseras topparna till 5q12 ( Zlr = 3, 26 vid rs673743; mP = 0, 019) och 9q33, 3 ( Zlr = 3, 30 vid rs536861; mP = 0, 0005).

Bild i full storlek

Att dela upp data i delmängder beroende på närvaro av CNV: er och beroende på kön hos berörda individer verkar generera mer informativa kopplingssignaler. För att testa om att kombinera båda metoderna för att bilda delmängder också skulle vara användbart, använde vi den breda diagnostiska grupperingen. Koppling med dessa sex underuppsättningar (tabell 3), kvinnlig innehållande kontra manlig endast med tre nivåer av CNV-upptäckt, ger ännu mer stöd för ett risklokus i närheten av 11p12 – p13 i kvinnor som innehåller familjer (fig. 5). Att ta bort familjer baserade på batchmetoden för CNV-upptäckten nominerar ett 15q23-lokus i kvinnliga innehållande familjer (fig. 5), och det maximala vid 11p12 – p13 närmar sig genomens bred betydelse (4.03 mot 4.1). Påverkade individer i kvinnor som innehåller kvinnor har en något förhöjd CNV-detektering (2% –3%) i förhållande till endast familjer för män, oavsett CNV-anropsmetod, och den breda diagnostiska gruppen av familjer har en liknande förhöjd frekvens av CNV detektering relativt hASD; de "parade" hastigheterna skiljer sig inte signifikant, och interaktionen mellan dessa variabler är inte heller någon signifikant prediktor för närvaron eller frånvaron av en detekterad CNV (data visas inte).

För kvinnor innehållande familjer och den filtrerade delmängden lokaliseras topparna till 9p24, 1 ( Zlr = 3, 32 vid rs1575284; mP = 0, 105) och 11p12 ( Zlr = 3, 90 vid rs1039205; mP = 0, 411); för honinnehållande och platt-för- platt -delmängden, till 9p24, 1 ( Zlr = 3, 28 vid rs1821892; mP = 0, 295) och 11p12 ( Z lr = 3, 48 vid rs1039205; mP = 0, 111); och för kvinnliga innehållande familjer och gruppundersättningen, till 11p13 ( Zrr = 4, 03 vid rs1358054; mP = 0, 014) och 15q23 ( Zlr = 3, 30 vid rs1433452; mP = 0, 044).

Bild i full storlek

Familjer som deltar i AGP-studierna varierar i deras förfäder. För att utvärdera huruvida kopplingen skulle stärkas genom att analysera familjer med relativt homogena förfäder begränsade vi provet till "europeiska förfäder", vilket utgår från huvudkomponenter 33 av SNP-genotyper. Vi konstaterade att alla grundare i 995/1 168 (85, 2%) familjer var av europeiskt ursprung (tilläggsfigur 3) online; slutsatser överens med tillgängliga självrapporter (99, 6%). Med hjälp av detta prov upprepade vi alla kopplingsanalyser i figur 1 och 3, 4, 5.

Uteslutning av icke-europeiska familjer hade i allmänhet endast en blygsam inverkan på resultaten (se kompletterande figur 4 online för fullständiga resultat). Kopplingsspår vid kromosom 11p förblev framträdande, särskilt för kvinnliga innehållande familjer, även om kopplingsregionen för 11p var mycket bredare. Genom att använda batchresultaten för att ta bort "CNV-familjer" uppstod en ny region med suggestiv koppling: nämligen 4q31.22, som också visar betydande heterogenitet av IBD ( P <0, 00006) mellan kvarhållna och borttagna familjer. För alla familjer som endast var manliga, var den normaliserade sannolikhetsgraden statistik för koppling ( Zrr ) = 3, 85 vid 9q33, 3. Dessutom fick tidigare rapporterade platser för länkning, särskilt 2q och 7q, mer stöd från denna "europeiska" delmängd av uppgifterna. Exempelvis närmade sig kopplingsspår genomomfattande suggestiv koppling vid 2q31.1 (kvinnlig innehållande, smal) och 7q22.2 (endast manlig, bred).

Diskussion

Resultaten erhållna från genomsökning av genomerna från den största kohorten av ASD-familjer som ännu har sammanställts avgränsar en ny förståelse av den genetiska basen för denna komplexa störning. Det är allmänt förstått att risken för ASD uppstår i liten del av kromosomala kopieringsnummer avvikelser (CNA), såsom duplikationer av kromosom 15q11 – q13. Ändå för kärnfamiljer som innehåller två eller flera drabbade individer och förskärmade för mikroskopiska CNA: er har kopplingsanalyser implicit antagit att andra CNA skulle ha liten eller någon roll i den ärftliga komponenten av ASD. Våra CNV-resultat ligger i skarp kontrast till denna uppfattning. Istället hittar vi ett märkbart antal familjer som skulle kunna bedömas (68/590 eller 11, 5%, 36/476 eller 7, 6% och 34/350 eller 9, 7% i analyserna av batch, platta eller filter; tabell 2) i som alla drabbade individer delar möjligen skadliga avvikelser (det vill säga möjliga CNA). På grund av SNP: s relativt breda och ojämna avstånd och vår konservativa strategi för att ringa CNV: er har vi missat många andra händelser av detta slag. Däremot hittar vi också ett antal familjer där endast en av de drabbade släktingarna har ett upptäckt CNA. En möjlig implikation av detta konstaterande är att i dessa fall kan relevanta CNV: er vara riskfaktorer och inte den enda orsakssituationen. Det är också möjligt att nära besläktade individer är etiologiskt heterogena.

Med målet att minimera heterogenitet som kan förväxla kartläggning av stora lokaler som ger risk för ASD: er, investerade vi betydande ansträngningar för att standardisera alla faser i detta multicenterprojekt, inklusive fenotypisk utvärdering, provtagning, genotypning och analys. Kopplingsanalyser baserade på ett diagnosschema på tre nivåer ger suggestiva bevis för koppling i närheten av 11p12 – p13 (fig. 1) för en nivå: alla familjer. I förhållande till lämplig baslinje förstärks bevis för länkning vid 11p12 – p13 i utvalda underuppsättningar av data: (i) delmängder erhållna genom att ta bort familjer som innehåller en eller flera drabbade individer som bedöms bära CNV (fig. 3); (ii) uppsättningen familjer som innehåller drabbade kvinnor (fig. 4) och (iii) undergrupper av familjer baserat på både kön hos drabbade individer och närvaro av CNV: er (fig. 5). För delmängden av kvinnor som innehåller kvinnor utan drabbade individer som bär CNV: er ökar den maximala Zlr till 4, 03. Vi tror att dessa utforskningar motiverar grundlig finkartläggning av regionen 11p12 – p13. Några blygsamma toppar för koppling har observerats tidigare för denna region, men 11p12 – p13 har inte varit ett stort fokus för upptäckten av autismriskplatser.

Flera regioner har varit framträdande i tidigare kopplingsanalyser: nämligen 2q, 7q och 17q. Av dessa regioner får 2q och 7q beskyddande länkstöd från familjer av europeiskt ursprung (tilläggsfigur 4), medan länkregionen 17q inte gör det. Den största kopplingssignalen på 2q, Zlr = 3, 1, inträffar för kvinnor som innehåller familjer i 2q31.1; den största signalen på 7q, Z lr = 3, 1, inträffar för endast familjer i män i 7q22.3. Flera förklaringar är troliga för dessa resultat. För det första kan de tidigare kopplingarna vara falska positiver. För det andra, för kopplingsstudier av komplexa störningar, tenderar statistik för identifierade kopplingsregioner att vara partisk uppåt relativt det som förväntas från de länkade risklokalerna. På grund av denna förspänning kommer kombination av prover med blandade bevis för koppling och tillägg av nya familjer, som görs här, ofta att minska tidigare identifierade kopplingssignaler. För det tredje kunde studier ha samlat in prover som skiljer sig i ärftliga funktioner som är bundna till risklokaler och överdriver den heterogenitet som redan finns i ASD. Stokastisk variation i kombination med denna heterogenitet kan övervälda kopplingssignalen.

Inget av våra kopplingsresultat kan tolkas som "statistiskt signifikant" eftersom vi har utfört många analyser av data. I själva verket utförde vi 18 kopplingsanalyser på hela provet och 18 med familjer från europeiska förfäder. Eftersom många av dessa analyser utfördes på överlappande delmängder av data, utförde vi effektivt motsvarande fyra till fem oberoende genomsökningar 34 .

Våra CNV-analyser upptäcker en hemizygot radering av kodande exoner från NRXN1 för ett par drabbade syskon. Utan annan information kan detta konstaterande inte vara särskilt meningsfullt, särskilt på grund av förekomsten av CNV i genomet 21 . Men ändringen är en de novo- händelse, och andra 23 har rapporterat om sällsynta missense-varianter i NRXN1 hos individer med ASD som inte finns i över 500 kontroller. Dessutom interagerar NRXN1 med neuroliginer, för vilka sällsynta mutationer uppenbarligen genererar risk för ASD: er och mental retardering 14, 15 . Därför har vi utvärderat överföringar i våra familjer för fyra NRXN1 SNP: er (rs1363036, rs930752, rs1377238, rs2018909). Med hjälp av den empiriska statistiken FBAT 35 har vi testat överföringar under additiva och dominerande modeller i alla familjer och i den breda undergruppen (dominerande och recessiva modeller kan inte skilja sig i denna analys). För alla familjer är partisk överföring signifikant vid två lokaler under den dominerande modellen: den mindre allelen av rs1363036 ( P = 0, 0091) och den huvudsakliga allelen för rs930752 ( P = 0, 025). (Endast rs930752 visade signifikant partisk överföring under additivmodellen ( P = 0, 014).) Dessa SNP: er är i blygsam LD (r2 = 0, 048). I den breda undergruppen är resultaten starkare för rs1363036 (dominerande, P = 0, 0041) men är svagare för rs930752 (dominant, P = 0, 076; additiv, P = 0, 072). Dessa två SNP: er, åtskilda med 88 kb, är introniska och kommer sannolikt inte att överföra risk direkt.

Ackumulering av bevis innebär således en roll för neurexiner och neuroliginer i ASD: er. För kommunikation av signal mellan neuroner måste postsynaptiska receptorer motsätta sig frisättningsplatser för neurotransmitter på presynaptiska axoner. Neurexiner har visats inducera postsynaptisk differentiering vid kontakt med dendriter, medan neuroliginer inducerar presynaptisk differentiering i glutamatergiska axoner 36 . Neurexin-neuroligin-länken är grundläggande viktig för glutamatergisk synaptogenes (och tydligen GABAergic synaptogenesis 36, 37 ). Dessutom citeras avvikande glutamatfunktion ofta som ett viktigt riskelement för ASD: er 38, 39, en hypotes som är kompatibel med dess roll som den viktigaste excitatoriska neurotransmitteren och kritiska faktorn i hjärnans utveckling 40 . Autismliknande beteenden och diagnoser av autism är vanliga för individer med antingen Fragile-X-syndrom eller tuberös skleros, som båda är förknippade med dysreglerad glutamatsignalering 41, 42 .

Är oligogen variation eller "huvudgen" variation associerad med andra glutamatrelaterade gener? Utöver våra resultat har spännande bevis för associering hittats för mitokondriell aspartat / glutamatbärare SLC25A12 (på 2q31) och GRIK2 (ref. 13). Fortfarande är proteinprodukten från SLC25A12 en mitokondriell aspartat-glutamatbärare som inte är känd för att påverka glutamatergisk synaptisk funktion. Knockout av SLC25A12 hos möss försvårar myelinering av neuronala celler till följd av begränsningar till leverans av aspartat, inte glutamat 43 . Proteinprodukten från GRIK2 , GluR6, är en jonotropisk kainatreceptor som påverkar neuronal utveckling. Baserat på kartläggningen till 6q16.3 är det inte en positionskandidat enligt våra resultat. För kvinnor som innehåller familjer är kopplingsresultaten emellertid blygsamma positiva ( Zlr = 1, 9 för alla familjer och familjer i europeiska förfäder; Zlr = ∼ 2, 40 för familjer som behålls med hjälp av batchmetoden för CNV-samtal).

UCSC Genome Browser listar 168 gener med beskrivningar som innehåller nyckelordet "glutamat". Många faller i kopplingsregioner, inklusive 11p13–12 ( SLC1A2 och PRRG4 ), 2q31 ( SLC25A12 ), 4q28.3 ( SLC7A11 ), 7q21.3 ( SLC25A13 ), 9p24.2 ( SLC1A1 ), 9q34.11 ( FGPS ) och 15q25 .2 ( HOMER2 ). Av tio glutamat-lösta bärare faller hälften i de citerade kopplingsregionerna (nyckelord 'glutamat' + 'lösta' + 'bärare'), men inte alla är relaterade till glutamatergisk synaptisk funktion. SLC1A1 och SLC1A2 faller nära kopplingstoppar, och deras proteinprodukter påverkar glutamatsynapsfunktion och hjärnutveckling; de är således utmärkta mål för positionsanalyser för kandidatgener.

metoder

Länkscreeningsuppsättning.

En SNP-baserad genomskanning utfördes med användning av Affymetrix 10K v2 SNP-array. Genotypning kontraherades till Translational Genomics Research Institute (TGEN). TGEN-genotypade DNA-prover som faller i 1 496 nominella familjer, varav 1 168 kan användas för koppling. Skriftligt tillstånd erhölls från alla vuxna deltagare och för alla yngre deltagare; förfaranden godkändes av institutionella granskningsnämnder för alla deltagande institutioner.

Strategi för kopplingsanalys.

För kopplingsanalyser grupperade vi familjer i tre diagnostiska klasser: smal, bred och heterogen ASD (hASD). För att kvalificera sig till den smala klassen var det tvungna eller fler berörda individer som måste uppfylla kriterierna för autism på både ADI-R 18 och ADOS 18 . För den breda kategorin måste minst en individ uppfylla ADI-R-kriterier för autism och ADOS-kriterier för autism eller ASD. Åtminstone en annan familjemedlem måste uppfylla kriterierna för funktionsnedsättning på ADI-R: s sociala eller kommunikationsdomäner och uppfylla kriterierna för åtminstone ASD på ADOS. HASD-familjerna var helt oberoende av de breda och smala kategorierna men kombinerades med den breda uppsättningen för att analysera kopplingen i alla familjer. HASD-familjerna bestod till stor del av antingen familjer som uppfyllde ADI-R-kriterier för ASD eller autism 18 men som inte genomgick ADOS-utvärdering eller familjer med flera individer per familj som uppfyllde ASD-kriterier genom ADOS och visade nedsättning på sociala eller kommunikationsområdet för ADI-R men uppfyllde inte fullständiga kriterier för autism på ADI-R. Förutom diagnostiska kategorier delades familjer upp i delmängder baserade på endast manlig eller kvinnlig status.

Genetisk kvalitetskontroll, märkning av SNP och förfäder.

Vi utvärderade tre funktioner i datakvalitet: nämligen graden av saknade genotyper (saknad), mendeliska fel och Hardy-Weinberg-jämvikt (HWE). Individer (20%) och loci (10%) med betydande saknade data beaktades inte för kopplingsanalyser eftersom dessa funktioner vanligtvis indikerar dålig DNA-kvalitet och problem med genotypsamtal. På samma sätt kasserades loci med mindre allelfrekvens (MAF) <0, 05.

Mendelian-fel utvärderades med PEDCHECK 44 . Loci som visar flera mendeliska fel - för korrekt familjestruktur - kasserades för kopplingstest. För att övervinna möjliga problem som uppstod på grund av förfäder, valde vi först SNP-taggar och utvärderade sedan HWE med det stora provet som bedöms vara av homogent europeiskt ursprung. Vi analyserade kopplingsdifferens (LD) med hjälp av HCLUST 45 och valde tag-SNP för att representera kluster av andra i betydande LD ( r2 > 0, 8). Vi valde de som var mycket korrelerade med de andra SNP: erna i klustret; vi uppskattade förfäder med hjälp av huvudkomponentanalyser 33 och utvärderade HWE med hjälp av föräldradata. Loci användes inte för analyser om HWE avvisades vid ett P- värde <0, 005. Slutligen använde vi MERLIN 46 för att härleda troliga genotypningsfel på grundval av uppenbar genetisk rekombination. När genotyper troligen skulle vara fel ( P <0, 01), ställdes de in på "saknad".

Kopplingsanalys.

Vi använde den BLÅ metoden 47 för att uppskatta allelfrekvenser. Kopplingen uppskattades från hela uppsättningen SNP med MERLIN 46 och den exponentiella S-all-statistiken. Kopplingen uppskattades också med användning av MERLIN 46 och ALLEGRO 48 från SNP-taggar. Vi hittade praktiskt taget ingen skillnad i resultat med användning av SNP: er eller alla SNP: er, med eller utan att använda alternativen i MERLIN för att hantera LD. Vi analyserade heterogenitet av koppling mellan skikt med användning av ref. 49, som testar för signifikanta skillnader i delad IBD bland drabbade syskon i familjer. Vi beräknar heterogenitetsstatistik i varje region eller inställning där ett kopplingsspår passerade tröskeln för suggestiv koppling.

CNV-bedömning.

CNV: er slogs ut från Affymetrix 10K-array-scanningar med användning av dChip 2006-programvaran (DNA Chip Analyzer) 50 . Vi har också använt andra algoritmer, och data kommer att publiceras i Autism Chromosome Omarrangemangsdatabas när de är validerade. Ursprungligen var 7 610 genomsökningar tillgängliga (detta antal överskrider 6 709 prover som är genotypade för koppling sedan CNV-experimenten fortsatte efter den initiala datafrysningen). Vi exkluderade de proverna med en samtalstakt för genotyp 5%, vilket lämnade 5 997 experiment lämpliga för CNV-analyser. För "batch" -analysen grupperade vi matriserna i sex kohorter med 1 000 prover vardera. Median sondens intensiteter för matriserna varierade kraftigt (1 000), vilket indikerar behovet av normalisering för att jämföra signaler. Matriser normaliserades vid sondens intensitetsnivå med användning av invariant uppsättning normalisering till en baslinje-grupp inom varje grupp av 1 000 experiment 50 . Ett signalvärde beräknades sedan för varje SNP med användning av en modellbaserad metod och medelvärden över alla sampel för varje SNP för att erhålla medelvärdet för ett diploidgenom. Det observerade råkopienumret definierades sedan och kopieringsnummer slogs ut för varje individ eller SNP med hjälp av en dold Markov Model 50 . Eftersom prover skickades in i 96-brunnars plattformat och matriser bearbetades på samma sätt, innehöll "batch" -analys platt-specifikt brus, vilket tydligen ledde till många falska positiva CNV-samtal. I ett försök att öka signal-till-brus-förhållandet analyserade vi matriser på ett 96-brunnsspecifikt sätt. Till exempel uteslutte vi 12 plattor med färre än 40 prover efter den initiala filtreringen, vilket lämnade 5 823 genomsökningar för plattanalysen. Matriser normaliserades inom varje uppsättning och kopienummer beräknades på samma sätt som var för "batch" -analysen. We also excluded those samples with more than ten CNVs per sample from all analyses to avoid calling a high number of false positives. Because we had family data, certain CNV could be tentatively confirmed by using the family structure and mendelian errors (although the original CNV calls were blind to family status). Using these data as a benchmark, the 'plate' analysis produced a cleaner data set than the 'batch' analysis and was therefore parsed further using a combination of more stringent thresholds (fewer than five CNVs per sample) and manual curation of the raw data to give a 'filtered' data set. The inferred CNVs for all three data sets were interpreted on several levels. We also completed similar analysis for the X chromosome but did not include the results, as only 263 SNPs covered this segment of the genome (40 CNVs were found). Called CNVs were also examined for overlap with genomic features including mapped chromosome rearrangement breakpoints annotated in the Autism Chromosome Rearrangement Database and polymorphic CNVs in the Database of Genomic Variants. For all three analyses, affected individuals and families with CNVs that did not have complete overlap with the DGV were removed from linkage analysis.

Anslutningskoder.

Gene Omnibus Expression (GEO): raw data from the Affymetrix 10K experiments, GSE6754.

URL: er.

Autism Chromosome Rearrangement Database: //projects.tcag.ca/autism/; Database of Genomic Variants: //projects.tcag.ca/variation/; GEO: //www.ncbi.nlm.nih.gov/geo/.

Note: Supplementary information is available on the Nature Genetics website .

Förändra historien

anslutningar

Genuttryck Omnibus

  • GSE6754

Kompletterande information

PDF-filer

  1. 1.

    Supplementary Fig. 1

    Binned size distribution of CNVs in batch, plate and filtered analyses.

  2. 2.

    Supplementary Fig. 2

    Linkage results due to removing families in which affected individuals putatively carry CNV.

  3. 3.

    Supplementary Fig. 3

    Principal component plot used to infer ancestry.

  4. 4.

    Supplementary Fig. 4

    Linkage results obtained by analyzing families inferred to be of homogeneous European ancestry.

  5. 5.

    Kompletterande tabell 1

    List of 624 CNVs in filtered analysis.

  6. 6.

    Kompletterande tabell 2

    List of 254 CNVs in affected individuals.

  7. 7.

    Kompletterande tabell 3

    Breakdown of CNVs in affected individuals.

  8. 8.

    Kompletterande tabell 4

    List of validated CNVs.

  9. 9.

    Kompletterande metoder