Dechiffrera föreningar för lungcancerrisk genom imputation och analys av 12 316 fall och 16 831 kontroller | europeisk tidskrift för mänsklig genetik

Dechiffrera föreningar för lungcancerrisk genom imputation och analys av 12 316 fall och 16 831 kontroller | europeisk tidskrift för mänsklig genetik

Anonim

ämnen

  • Cancergenomik

Abstrakt

Nyligen genomomfattande föreningsstudier har identifierat vanliga varianter vid flera ställen som påverkar risken för lungcancer. För att dechiffrera den genetiska basen för associeringssignalerna vid 3q28, 5p15.33, 6p21.33, 9p21 och 12p13.33, utförde vi en metaanalys av data från fem genombredda föreningsstudier i populationer av europeiska förfäder totalt 12 316 lungor cancerfall och 16 831 kontroller med hjälp av imputation för att återställa otypade genotyper. För fyra av regionerna var det möjligt att förfina associeringssignalen som identifierade en mindre region av intresse som troligen kan hysa den funktionella varianten. Vår analys gav inte bevis på att någon av föreningarna på lokalerna var en följd av syntetiska föreningar snarare än att koppla misjämvikt med en vanlig riskvariant vid dessa risklokaler.

Introduktion

Lungcancer orsakar över en miljon dödsfall varje år över hela världen. 1, 2 Även om de främst orsakas av tobaksrökning, erkänns ärvda genetiska faktorer i allt högre grad som viktiga vid lungcancer. noterbart har genombreddsassocieringsstudier (GWAS) hos européer konsekvent identifierat polymorf variation vid 15q25.1 ( CHRNA5-CHRNA3-CHRNB4 ), 5p15.33 ( TERT-CLPTM1 ) och 6p21.33 ( BAT3-MSH5 ) som determinanter för lunga cancerrisk. 3, 4, 5, 6, 7 Dessutom har känslighetsplatser för lungcancer vid 3q28, 6q22.2, 13q12.12, 10q25.2 och 22q12.2 hos asiater identifierats med användning av GWAS. 8, 9, 10 Nyligen genomförda studier har validerat 3q28-föreningen i européer. 11, 12

Icke-småcellig lungcancer (NSCLC) är den vanligaste histologiska subtypen av lungcancer, som främst består av adenokarcinom (AD) och skivepitelcancer (SQ). De olika lungcancerhistologierna har olika kliniska egenskaper som återspeglar skillnader i karcinogenes och molekylprofil. 13 Kanske, inte överraskande, finns det variation i de genetiska effekterna på lungcancerrisk genom histologi med subtypspecifika föreningar vid 5p15, 33 ( TERT-CLPTM1 ) för AD 14, 15 och vid 9p21 ( CDKN2A / CDKN2B ) 16 och 12p13. 33 ( RAD52 ) 17 för SQ.

De föreningar som identifierats av GWAS ger nya insikter i utvecklingen av lungcancer. Emellertid är taggen enkel-nukleotidpolymorfismer (tagSNP) som är genotypade i allmänhet inte starka kandidater för kausalitet, och därför är det utmanande att belysa den funktionella grunden för associeringssignaler. En anledning till detta är att korrelationsmatrisen mellan tagSNP (er) och funktionell variant (er) på valfri plats kan vara komplex. Till exempel är åtminstone två oberoende risk loci karta till 5p15.33, 14 och 6p22.1 – p21.31 locus en del av den humana leukocytantigen (HLA) regionen, som är mycket polymorf. 7 Dessutom har det nyligen föreslagits att många GWAS-signaler kan vara en följd av "syntetiska föreningar", till följd av den kombinerade effekten av en eller flera sällsynta kausalvarianter snarare än att bara koppla disequilibrium (LD) med en vanlig riskvariant. 18

Även om det kan vara svårt att avkolla associeringssignaler, hjälper funktionell variantupptäckt av en djupare undersökning av genetisk variation i LD-blocken där tagSNP: er finns och detta har stor nytta av ansträngningar som 1000 Genomes Project, som ger upptäckt av nya varianter . 12

För att dechiffrera den alleliska strukturen som understryker föreningarna för lungcancer vid nio av de tidigare rapporterade lungcancerriskassocierade regionerna, 3q28, 5p15.33, 6p21.33, 6q22.2, 9p21, 10q25.2, 12p13.33, 13q12. 12 och 22q12.2 utförde vi en metaanalys av data från fem oberoende GWAS. För att maximera återhämtningen av alla varianter som bidrar till risken för lungcancer på dessa platser, tilldelade vi otysta varianter med 1000 Genome Project-data som referenspanel.

Material och metoder

Ämnen och datamängder

Vi använde GWAS-data från fem icke-överlappande fall-kontrollserier av nordeuropeiska förfäder, som tidigare har rapporterats (kompletterande tabell 1): MD Anderson Cancer Center GWAS i NSCLC omfattande 1150 fall och 1134 kontroller; 4 Institute of Cancer Research (ICR) GWAS omfattande 1952 fall och 5200 kontroller; 7 National Cancer Institute GWAS omfattande 5713 fall och 5736 kontroller; 15 International Agency for Research on Cancer (IARC) GWAS bestående av 2533 fall och 3791 kontroller 6 och Harvard GWAS baserat på 984 fall och 970 kontroller, 19 som var genotypade med hjälp av antingen Illumina HumanHap 317, 317 + 240S, 370Duo, 550, 610 eller 1 M-matriser (Illumina Inc., San Diego, CA, USA; kompletterande tabell 1).

Etik

Alla deltagare gav informerat skriftligt samtycke. Alla studier granskades och godkändes av institutionella etiska granskningskommittéer vid de involverade institutionerna.

Kvalitetskontroll

Standardkvalitetskontroll utfördes på alla skanningar exklusive individer med låg samtalshastighet (<90%) och extremt hög eller låg heterozygositet (dvs. P <1, 0 × 10 −4 ), liksom alla individer som utvärderades vara av icke-europeiskt ursprung (använder HapMap-version 2 CEU-, JPT / CHB- och YRI-populationer som referens; kompletterande tabell 1). För uppenbara första grads relativa par tog vi bort kontrollen från ett fall-kontrollpar; annars utesluter vi individen med lägre samtal. Kvantil – kvantilika (Q – Q) -diagram av genomöverbredd teststatistik visade att det fanns minimal inflation som gav betydande kryptisk befolkningsunderstruktur eller differentiell genotyp som kallade mellan fall och kontroller osannolikt i varje GWAS (genomisk kontrollinflationsfaktorer, λ = 1, 00–1, 05 ; Kompletterande figur 1). För att föra genotypdata erhållna från olika matriser till en gemensam plattform från de fem GWAS och för att återställa otypade genotyper, beräknade vi SNP med 1000 Genomes Project-data som referens (kompletterande tabell 1). Q – Q-tomter för alla SNP: er och de som var begränsade till sällsynta SNP: er (mindre allelfrekvens (MAF) <1%) efter imputation visade inte bevis för substantiell överdispersion införd genom imputation ( λ = 0, 99–1, 06 och 0, 82–1, 05).

Statistisk analys

Data tillfördes för varje skanning med användning av 1000 Genome Project-data (fas 1 integrerad utgåva 3, mars 2012) som referens, med IMPUTE2 (v.2.1.1), 20 MaCH (v.1.0) 21 eller minimac (v.2012.10). 3) 22 programvara (kompletterande tabell 1). Genotyper anpassades till den positiva strängen i både imputation och genotypning. Imputation genomfördes separat för varje skanning där varje GWAS-datauppsättning beskrevs till en gemensam uppsättning SNP mellan fall och kontroller före imputering. Som tidigare förespråkat, sätter vi trösklar för imputationskvalitet för att behålla både potentiella vanliga och sällsynta varianter för validering. 16, 23 Specifikt, dåligt imputerade SNP: er definierade av en RSQR <0, 30 med MaCH eller ett informationsmått Is <0, 40 med IMPUTE2 utesluts från analyserna. Föreningarstest mellan imputerade SNP och lungcancer utfördes med användning av SNPTEST (v.2.5), 24 ProbABEL, 25 MaCH2dat (v.124) 21 eller glm-funktion i R. Huvudkomponenter genererade med vanliga SNP: er inkluderades i analysen för att begränsa effekter av kryptisk befolkningstratifiering som kan orsaka inflation i teststatistiken. Klassiska HLA-alleler tillfördes med användning av HLA * IMP2, som är en metod för att tillrätta klassiska HLA-alleler från SNP-data. 26, 27

Föreningen mellan varje SNP och lungcancerrisk bedömdes med Cochran – Armitage-trendtestet. Möjligheten för signifikant dold populationssubstruktur eller differentiell genotyp som ringer mellan fall och kontroller i varje GWAS utvärderades med hjälp av Q – Q-diagram av teststatistik. Inflationsfaktorn λ baserades på de 90% minst signifikanta direktskrivna SNP: erna. 28 Metaanalys genomfördes med användning av invers-varians-tillvägagångssätt. Oddsförhållanden (OR) och tillhörande 95% konfidensintervall (CI) beräknades genom ovillkorlig logistisk regression med användning av R (v.2.6) och PLINK 29 (v.1.06) mjukvara. Cochran's Q-statistik för att testa för heterogenitet och I2-statistiken för att kvantifiera andelen av den totala variationen på grund av heterogenitet beräknades. 30 För att utforska variationen i genetiska föreningar enligt tumörhistologi, härledde vi OR för alla lungcancer och AD- och SQ-cancer. Undergruppsbaserade metaanalyser av AD- och SQ-lungcancer, stratifierade med AD- och SQ-histologi, genomfördes med programmet ASSET. 31 Alla statistiska test var dubbelsidiga.

Bioinformatik

LD-mätvärden beräknades baserat på 5200 kontroller från Wellcome Trust Case Control Consortium release 2 (WTCCCII) genotypade med användning av Illumina 1, 2 M-matriser och planerad med SNAP. 32 LD-block definierades på basis av HapMap-rekombinationsfrekvens (cM / Mb) såsom definierades med användning av Oxford-rekombinations-hotspots och på basis av fördelningen av CI: er definierade av Gabriel et al. 33 För att utforska den epigenetiska profilen för associeringssignaler, använde vi kromatintillståndssegmenteringsdata genererade av ENCODE-projektet. Vi använde HaploReg 34 och RegulomeDB 35 för att undersöka om någon av SNP: er eller deras proxyer (dvs. r 2 > 0, 8 i referenspanelen för 1000 Genomes EUR) kommenterar antagande om antagande transkriptionsfaktor (TF) bindande eller förstärkande element. Vi bedömde sekvensbevarande med GERP; GERP-poäng (−12 till 6, varav 6 tyder på fullständigt bevarande) återspeglar andelen substitutioner på den platsen som avvisas genom selektion jämfört med de observerade substitutionerna som förväntas enligt en neutral evolutionär modell baserad på sekvensinställning av 34 däggdjursarter. 36

eQTL, meQTL och mutationsanalys

För att få insikt i den biologiska basen för var och en av risklokalerna för lungcancer utförde vi först en uttryck kvantitativ drag loci (eQTL) -analys för direktskrivna SNP som använde expressionsdata på över 1100 normal lungvävnad. 37 För att utforska förhållandet mellan SNP-genotyp och genkroppsmetylering användes tidigare publicerade metyleringskvantitativa drag loci (meQTL) data från tumörcancergenomatlas (TCGA) och EAGLE-studien 37 med användning av provstorleksviktad metaanalys implementerad i METAL . 38 För att undersöka den somatiska mutationsfrekvensen för specifika gener, använde vi data från analysen av SQ- och AD-lungcancer genererade av TCGA och MutSigCV v.1.4 39 för att bestämma om genen har fler icke-synonyma mutationer än väntat av en slump med tanke på dess storlek, sekvenskontext och mutationsgrad. Som förespråkare införde vi en falsk upptäcktsfrekvens (FDR) på 0, 1 som statistiskt signifikant. 39

Resultat

Ämnen och definition av genomiska regioner

Vi studerade fem lungcancer GWAS i populationer av europeiska förfäder (tilläggstabell 1). Efter filtrering på grundval av förutbestämda kvalitetskontrollåtgärder tillhandahöll de fem GWAS genotyper på 12 316 fall av lungcancer och 16 831 kontroller (kompletterande tabell 1).

För att undersöka möjligheten att finkappa risklägen för lungcancer, som har identifierats i asiater, återhämtade vi SNP: erna som hade rapporterats definiera respektive loci: specifikt på rs9387478 (6q22.2, hg19 chr6: g.117786180A> C ), rs753955 (13q12.12, hg19 chr13: 24293859T> C), rs7086803 (10q25.2, hg19 chr10: g.114498476A> G) och rs17728461 (22q12.2, hg19 chr22: g.30598552C> G). Ingen av dessa SNP visade en signifikant förening med risken för all lungcancer (dvs. P > 0, 05). För rs9387478 visade den tidigare rapporterade riskallelen en associering med både AD och SQ om än endast vid P- värden på 0, 01 respektive 0, 03. Med tanke på dessa resultat har vi inte gått vidare till den formella integrationen av regionerna som begränsade vår analys till lokaler som är inblandade i européer.

Vi definierade haplotypblocken och rekombinationshotspots innehållande taggenNN: er som tidigare rapporterats vara associerade med lungcancerrisk vid 3q28 ( TP63 , rs4488809, hg19 chr3: g.189356261T> C), 5p15.33 ( TERT , rs2736100, hg19 chr5: g. 1286516T> G och CLPTM1L , rs402710, hg19 chr5: g.1320722C> T), 6p21.33 (rs3117582, hg19 chr6: g.31620520A> C), 9p21 ( CDKN2A / CDKN2B , rs1333040, hg19 T40440 och 12p13, 33 ( RAD52 , rs10849605, hg19 chr12: g.1064438T> C). För att inkludera möjligheten till långväga syntetiska föreningar, beräknade vi regionerna definierade av minst 1 Mb-regionen som omger tagSNP förknippad med lungcancerrisk vid var och en av de nio platserna. Sammantaget fångades de sex europeiska och tre asiatiska riskcancer för lungcancer i 12, 5 Mb-regionen i genomet.

För analys av 6p21.33-föreningen ansåg vi att det stora histokompatibilitetskomplexet (MHC) skulle definieras av ett 4, 5 Mb område som gränsar till RFP- och MLN- generna (rs209130, hg19 chr6: g.28867800A> G och rs1547668, hg19 chr6: g.33775446A> G, respektive) vid de telomera och centromera ändarna av 6p21.33. För HLA-imputationen använde vi GWAS SNP-data för ett utökat område i 6p21.33 avgränsat av rs1165196 (hg19 chr6: g.25813150T> C) och rs2772372 (hg19 chr6: g.33427350T> C).

Tilläggstabell 1 visar antalet SNP: er direkt skrivna och framgångsrikt beräknade (INFO-poäng ≥0, 4) vid var och en av de fem platserna. Regionala sammanslagningsresultat och rekombinationsgrader för alla fem områden som tillskrivs finns i figur 1.

Regionala associeringsresultat och rekombinationsgrader för 5p15, 33 i all lungcancer ( a ), 3q28 och 5p15, 33 i AD ( b och c ), 6p21, 33, 9p21 och 12p13, 33 i SQ ( d - f ). Alla lungcancerrelaterade paneler ( a ) baserades på 12 332 fall av lungcancer och 16 831 kontroller; AD-relaterade paneler ( b och c ) baserades på 3930 AD och 15 864 kontroller; och SQ-relaterad panel ( c ) baserades på 3490 SQ och 16 008 kontroller. Associeringsresultat av både genotypade (cirklar) och beräknade (diamanter) SNP: er i GWAS-proverna och rekombinationsgraden för varje lokus: för varje plot visas −log 10 P- värden (y-axeln) för SNP: erna enligt deras kromosomala positioner ( x axel). Den översta genotypade SNP i varje kombinerad analys är en stor diamant och är märkt av dess rsID. Färgintensiteten för varje symbol återspeglar graden av LD med den övre genotypade SNP: vit ( r 2 = 0) till mörkröd ( r 2 = 1, 0). Genetiska rekombinationshastigheter (cM / Mb), uppskattade med användning av HapMap CEU-prover, visas med en ljusblå linje. Fysiska positioner är baserade på NCBI-uppbyggnad 37 av det mänskliga genomet. Även visas de relativa positionerna för gener och transkript som mappas till varje associeringsregion. Gener har ritats om för att visa de relativa positionerna; därför är kartor inte i fysisk skala.

Bild i full storlek

Analys av enskilda lungcancerrisklägen

För fyra av de fem regionerna tillhandahöll imputation förfining av associeringssignalen som identifierar en region av intresse som är smalare än det ursprungliga LD-blocket som troligen kan hysa den funktionella varianten. Men för 6p21.33 är LD-strukturen stor och komplex. I alla regioner avslöjade vid silikofunktionell kommentar av de mest associerade varianterna, med användning av offentligt tillgängliga data från ENCODE, att många bor inom potentiella reglerande regioner av DNA.

Vid 3q28 drevs föreningen av förhållandet till risk för AD (tabell 1); den starkaste föreningen för denna lungcancerhistologi tillhandahölls av rs13314271 (hg19 chr3: g.189357602T> C; P = 3, 35 × 10 −7 ), som lokaliserar till intron 2 i TP63 . Den starkaste eQTL inom associeringsområdet visades av rs4488809 (hg19 chr3: g.189356261T> C) för TP63 ( P eQTL = 6, 77 × 10 −14 ), som är i perfekt LD med rs13314271 ( D ′ = 1.0, r 2 = 1.0) och är bosatt inom en genomisk region med epigenetiska markörer för förstärkningsfunktion och TF-bindning (kompletterande tabell 3).

Full storlek bord

Föreningen 6p21.33 är nästan uteslutande konsekvensen av en ökad risk för SQ-lungcancer (tabell 1 och kompletterande tabell 2). Den bästa föreningen för SQ tillhandahölls av rs115549526 (hg19 chr6: g.189356261T> C, P = 3, 80 × 10 −9 ), som kartlägger till 2, 3 kb till 5 ′ av apolipoprotein M-transkriptvariant 2. Förutom rs115549526, flera andra SNP: er inom den utvidgade regionen av LD visar också starka föreningar (dvs inom en storleksordning), som återspeglar HLA-haplotypstrukturen och de omfattande korrelationerna över hela MHC-regionen. Med användning av HLA-imputationsdata visades den starkaste individuella HLA-alleliska föreningen för SQ-lungcancer av HLA-B * 0801 ( P = 1.09 × 10 −9 ; kompletterande tabell 4). Tagen tillsammans med HLA-A * 0101 och DRB * 0301, utgör denna allel den förfäder 8.1 haplotyp som ses hos européer. De starkaste eQTL: erna i normal lungvävnad för SNP: erna för 6p21.33 visas med rs3131383 (hg19 chr6: g.31704294C> A) och rs497309 (hg19 chr6: g. 31892484T> G) för HLA-A ( P eQTL = 9.48 × 10 −18 respektive 2.13 × 10 −18 ) och mellan rs3117577 (hg19 chr6: g.31727474A> G) och HLA-DQB1 ( P eQTL = 3, 76 × 10 −17 ; tilläggstabell 5). Rs115549526, rs3131383, rs497309 och rs3117577 är alla mycket korrelerade SNP: er (parvis LD-mätvärden D ′ ≥0, 9, r2 ≥0, 8). Det starkaste meQTL inom riskpositionen 6p21 har tidigare dokumenterats att 37 är rs3131379 (hg19 chr6: g.31721033C> T) för MSH5 ( P meQTL = 1, 14 × 10 −17 ; kompletterande tabell 5). Kanske, inte oväntat, är rs3131379 starkt korrelerat med rs115549526 ( D ′ = 1, 0, r 2 = 0, 9). Många av de riskassocierade SNP: erna kartlägger till förstärkare och har dokumenterat TF-bindande motiv (tilläggstabell 3).

Som tidigare dokumenterats, visades 7 två oberoende föreningar vid 5p15, 33, vilket antecknade TERT- och CLPTM1L- gener. 5p15.33 TERT-lokuset som har associerats med risker för många tumörtyper med flera oberoende riskloki. 40 Dessa risksignaler representeras av SNP i lokala regioner i LD, inom promotorn och inom intronerna 2–4. 41, 42 I överensstämmelse med tidigare publicerade observationer, 15 den starkaste 5p15.33– TERT- föreningen tillhandahölls av rs2736100, som kartlägger till intron 2 i TERT (figur 1), och drivs av risken för AD ( P = 2, 51 × 10 - 18 ). I motsats härtill, föreningen definierad av rs37004 (hg19 chr5: g.1356684G> A, P = 6, 91 × 10 −16 ), som kartlägger 12 kb telomer till CLPTM1L (figur 1), påverkade risken för både AD- och SQ-lungcancerhistologier . Rs2736100 gav den starkaste meQTL med TERT ( P meQTL = 5, 28 × 10 −19 ; kompletterande tabell 5). För det andra associeringsområdet 5p15, 33 gav intron 13 SNP rs401681 den starkaste meQTL med CLPTM1L ( P meQTL = 7, 74 × 10 −17 ; kompletterande tabell 5) men korrelerades endast delvis med rs37004 ( D ′ = 1, 0, r 2 = 0, 28).

Signalen vid 9p21 drevs främst av risk för SQ, den starkaste föreningen tillhandahölls av rs1333040 (hg19 chr9: g.22083404C> T), som kartlägger inom intron 13 i CDKN2B ( P = 2, 54 × 10 −6 ; figur 1). Rs1333040 och nära korrelerade SNP: er visade inga signifikanta eQTL- eller meQTL-föreningar och kommenterade inte förstärkare eller DNAas-överkänslighetselement (kompletterande tabell 3).

Som förväntat från tidigare publicerade data, var 17 12p13.33-föreningen för lungcancer främst drivet av föreningen med risk för SQ-lungcancer; rs3748522 (hg19 chr12: g.1058688A> C) som ger den starkaste associeringssignalen ( P = 2, 35 × 10 −8 ). Rs3748522 kartlägger till intron 1 av DNA-dubbelsträngsreparationsgenen RAD52 (figur 1) inom en förutsagd promotor som har flera TF-bindningsställen (kompletterande tabell 3).

Diskussion

Att karakterisera all den genetiska variationen inom varje associeringsregion, som vi har utfört, är avgörande för att dechiffrera den alleliska arkitekturen som är ansvarig för GWAS-risklokaler och för att nominera specifika varianter för funktionella analyser. För fyra av risklägena har vi kunnat förfina associeringssignalen som identifierar en mindre intressant region som troligen är en plats för en funktionell variant och / eller identifierar en bra kandidat.

Det framgår alltmer att flera oberoende risklokaler för olika cancerformer kännetecknar 5p15.33-lokuset. Telomerunderhåll är ett universellt krav för onkogen utveckling. Telomerlängd (TL) visar betydande interindividuell variation och genetiskt definierade TERT-medierade skillnader i TL representerar en lovande epidemiologisk riskfaktor för cancer. När det gäller TERT-riskläget ger våra resultat starka bevis på att rs2736100 troligtvis är ansvarig för 5p15.33-föreningen för lung AD. En sådan påstående stöds av en ny studie som visar att genotypen rs2736100 är associerad med TL-variation. 43 Däremot är den genetiska grunden för CLPTM1L- föreningen och risken för all lungcancer mindre väl definierad.

De starkaste föreningarna vid 3q28 för AD visades av SNP som mappades till intron 2 av TP63. TP63 är en medlem av tumörsuppressorns TP53- genfamilj, som är avgörande för cellulär differentiering och respons på cellulär stress. Höga expressionsnivåer av TP63 visas i lungcancer med och utan amplifiering av TP63 . Exponering av celler för DNA-skada, genom cancerframkallande medel såsom tobaksrök, leder till induktion av TP63 och transaktivering av TP53 -målgener. Eftersom ett starkt samband mellan rs4488809 genotyp och TP63- uttryck kunde påvisas, är det helt troligt att genetiskt bestämt differentiellt uttryck påverkar förmågan att påverka cellulär reaktion på DNA-skador. Eftersom rs4488809 är en av de högst rankade SNP: erna och överlappar ett förutsagt förstärkareelement, är det troligt att denna SNP representerar en spårbar bas för 3q28-föreningen.

Som tidigare nämnts vid 12p13.33, kan ett antal SNP: er som är korrelerade med rs3748522 och karta till funktionella element redogöra för denna förening a priori. Däremot är 9p21-föreningen mer dåligt definierad och återspeglar den mer måttliga påverkan av riskområdet förutom överväganden av LD-struktur. Det är också värt att notera att Illumina Infinium Humamethylation450 Beadchip (Illumina Inc) som används i meQTL-analys har en mycket låg täckning på detta läge, vilket också förespråkar svårighetsgraden för att identifiera meQTL i regionen.

Riskplatsen 6p21.33 är stor, genrik och komplex. Eftersom det omfattar det stora histokompatibilitetskomplexet har det många starkt korrelerade varianter över en stor region vilket gör associeringssignalen svår att förfina. MeQTL-uppgifterna ger bevis för MSH5: s roll som grund för föreningen 6p21.33. Ett tvingande fall kan emellertid avanceras för att stödja HLA-variation i att definiera SQ-lungcancerrisk. Somatiska förlust av funktionsförändringar av HLA-A har rapporterats tidigare i genomiska studier av lungcancer. Dessutom är HLA-A signifikant muterad i SQ (FDR = 0, 07) men inte i AD-lungcancer. Spännande, iakttagelsen av att HLA-klass II-variation påverkar risken för skador i matstrupen i cancer i magsäcken antyder en större roll för MHC-regionen i utvecklingen av solida tumörer.

I vår studie fann vi inga bevis som stöder förekomsten av "syntetiska föreningar" som understryker de för närvarande identifierade autosomala GWAS-signalerna för lungcancer. Vid alla de fem lokalerna hade de varianter som identifierats som mest förknippade med lungcancer en MAF> 10%. Även om GWAS-tagSNP: er osannolikt inte själva är funktionella, verkar de mycket mer benägna att märka en funktionell variant av samma frekvens än enstaka eller flera sällsynta kausalvarianter. Eftersom vissa sällsynta varianter kan tillskrivas dåligt i GWAS finns det fortfarande möjligheten att vissa lågfrekventa varianter som medför måttliga risker kan ha missats. Även om inflammatorisk tarmsjukdom ger stöd för förekomsten av "syntetiska föreningar", kommer de flesta "bevisen" för en sådan modell av sjukdomsförening från simuleringsstudier. I själva verket, om en sådan genetisk modell fanns, skulle sådana föreningar vara mycket spårbara genom kopplingsanalys. Inga förmodade kopplingssignaler har emellertid identifierats i dessa regioner. 44

Med tanke på varningar i korrekt beräknad mycket sällsynta varianter, gav vår analys inte bevis för att någon av föreningarna på loci var en följd av syntetiska föreningar snarare än LD med en vanlig riskvariant vid dessa risklokaler. Detta säger inte att sällsynta sjukdomsframkallande varianter med stor effekt inte bidrar till den ärftliga lungcancerrisken i allmänhet. Bevis för denna klass av känslighet tillhandahålls av den senaste observationen att de subpolymorfa varianterna BRCA2 -K3326X och CHEK2- I157T är förknippade med en väsentlig risk för skivepitelcancer hos rökare. 12

Sammanfattningsvis har vi i stor utsträckning karakteriserat all genetisk variation mellan fem regioner som har rapporterats vara förknippade med lungcancer hos individer av europeiskt anständigt. Förutom att ge insikt i den alleliska arkitekturen för dessa associeringssignaler ger våra studieresultat en resurs som informerar funktionella analyser som syftar till att definiera den biologiska grunden för risklokaler. Vår analys förstärker också observationen att många av föreningarna är histologispecifika. Att identifiera sådana histologispecifika SNP: er bör i slutändan förfina vår förståelse för ursprunget till morfologiska skillnader och kan bidra till den pågående sökningen efter personlig behandling för subtypspecifika fall av lungcancer.

Kompletterande information

Powerpoint-filer

  1. 1.

    Kompletterande figur 1

Word-dokument

  1. 1.

    Kompletterande tabell 1

  2. 2.

    Kompletterande tabell 2

  3. 3.

    Kompletterande tabell 3

  4. 4.

    Kompletterande tabell 4

  5. 5.

    Kompletterande tabell 5

    Kompletterande information åtföljer detta dokument på webbplatsen European Journal of Human Genetics (//www.nature.com/ejhg)