Om Jim Watsons apoe-status: genetisk information är svår att dölja | europeisk tidskrift för mänsklig genetik

Om Jim Watsons apoe-status: genetisk information är svår att dölja | europeisk tidskrift för mänsklig genetik

Anonim

Den senaste tidens publicering och utsläpp till offentliga databaser av Dr James Watsons sekvensbestämda genom, 1 med undantag för all geninformation om apolipoprotein E (ApoE), ger ett relevant exempel på utmaningarna kring integritet och komplexiteten i informerat samtycke i en era av personifierad genomik. 2 Dr Watson begärde att hans information om ApoE-genen ( APOE ) skulle redigeras, med hänvisning till oro över föreningen som har visats med sen början Alzheimers sjukdom (LOAD), som för närvarande är obotlig och hävdade en av hans mormödrar. 3

I detta brev, utan någon "analys" av Dr Watsons genom, och därmed respektera Dr Watsons önskemål om anonymitet med APOE-riskstatus , belyser vi utmaningarna kring integriteten och komplexiteten i informerat samtycke genom att påpeka att raderingen av APOE-geninformationen Endast kanske inte förhindrar noggrann förutsägelse av Dr Watsons risk för LOAD som förmedlas av APOE-riskalleler . Specifikt kan kopplingsdifferens (LD) mellan en eller flera polymorfismer och APOE användas för att förutsäga APOE- status med avancerade beräkningsverktyg. Därför är det helt enkelt inte att rensa ut genotyper vid kända riskfaktorer om syftet är att dölja genetisk information på dessa platser.

Den största APOE- risken för LOAD antas vanligen komma från haplotypsystemet ɛ 2 / ɛ 3 / ɛ 4, där ɛ 4- allelen ökar risken för störningen och ɛ 2- allelen är skyddande. 4 HaPotyp-systemet ɛ 2 / ɛ 3 / ɛ 4 definieras av två nonsynonyma enstaka nukleotidpolymorfismer (SNP) i APOE exon 4. En är en C / T SNP (rs429358) som kodar antingen arginin (C) eller cystein (T) i ApoE vid aminosyra 112. Det andra stället som definierar detta haplotypsystem är en C / T SNP (rs7412), som igen kodar arginin (C) eller cystein (T) vid ApoE-aminosyra 158. De alleliska kompositionerna i de vanligt undersökta rs429358-rs7412 haplotyper är TT för ɛ 2, TC för ɛ 3 och CC för ɛ 4 . Effekterna av dessa kodningsvarianter på ApoE-funktionen är väl definierade. 5 En nyligen metaanalys av LOAD-risk hos kaukasier (klinik / obduktions kohorter) indikerade oddsförhållanden (OR) på 15, 6 (95% CI, 10, 9–22, 5) och 4, 3 (95% CI, 3, 3–5, 5) för APOE ɛ 4 homozygoter respektive ɛ 4 / ɛ 3 heterozygoter, jämfört med ɛ 3 homozygoter. 6 Metaanalysiska oddsförhållanden i befolkningsbaserade kaukasiska prover var 11, 8 (95% CI, 7, 0–19, 8) respektive 2, 8 (95% CI, 2, 3–3, 5). 6 I en stor, Rotterdam (Nederländerna), befolkningsbaserad prospektiv studie av personer över 55 år, uppskattades att 17% av den totala risken för AD kunde tillskrivas ɛ 4- allelen, med 3% (95% CI, 0–6%) av fallen tillskrivs ɛ 4 / ɛ 4- genotypen, och 14% (95% Cl, 7–21%) till ɛ 4 / ɛ 3- genotypen. 7

En nyligen genomförd undersökning av LD för 50 SNP i och omgivande APOE i 550 kaukasier identifierade flera SNP i TOMM40- genen 15 kb uppströms APOE, och åtminstone en SNP i de andra omgivande generna LU , PVRL2 , APOC1 , APOC4 och CLPTM1 var associerade med LOAD risk. 8 Speciellt är C-allelen för SNP rs157581 i TOMM40 i stark LD ( r 2 > 0, 6) med C-allelen från rs429358 i APOE , som definierar ɛ 4- allelen. För en additiv (allelisk) logitmodell uppskattades OR för närvaro av ɛ 4 mot status för LOAD till 4, 1, medan OR för LOAD-status med användning av allelerna för rs157581 var 2, 9. 8 Vidare, med användning av datauppsättningar som de för Yu et al. 8 och SNP: er som identifierats i de omgivande regionerna i APOE i Dr Watsons sekvens, kunde haplotypfaseringsprogramvara användas för att enkelt och exakt förutsäga Dr Watsons APOE-riskhapotypstatus .

Även om genotyper för icke- APOE- SNP: er som överför LOAD-risk inte är listade i Dr Watsons sekvens (dvs. på grund av låg sekvensstäckning), som i fallet med TOMM40 SNP rs157581, skulle det vara enkelt att förutsäga Dr Watsons APOE- risk status genom att uteslutande använda offentligt tillgängliga data, till exempel HapMap-data. Specifikt, även om LOAD-högrisk APOE SNPs rs429358 och rs7412 och TOMM40 SNP rs157581 inte finns i HapMap, en ny genombredd associeringsskärm med 502 627 SNP: er utförda i 1086 histopatologiskt verifierade LOAD-fall ( n = 664) och kontroller ( n = 664) = 442), identifierade HapMap SNP rs4420638, belägen i APOC1- genen 14 kb nedströms om APOE- 4- allelen, som har en kraftfull associering med LOAD. 9 Föreningen mellan LOAD och G-allelen för rs4420638 ( P = 1 × 10 −39 ) liknar verkligen associeringen med APOE all 4- allelen (rs429358 C-allelen) själv ( P = 1 × 10 −44 ), med additiva alleliska OR på ungefär 4 respektive 5. 9, 10 Coon et al 9 rapporterar stark LD mellan rs4420638 och rs429358 vid D ′ = 0, 86, vilket innebär en r2 på ungefär 0, 60 baserat på kaukasiska allelfrekvensuppskattningar för dessa SNP som anges i dbSNP.

Vi noterar att Dr Watson fick genetisk rådgivning och efter att ha blivit medveten om de sekretessrisker som är förknippade med public data-sändning, beslutade Dr Watson att dela sitt personliga genom genom att släppa det i en allmänt tillgänglig vetenskaplig databas (för fullständig information om Dr Watson och skydd av mänskliga ämnen , Återlämnande av forskningsresultat till forskningsdeltagare , och datalagring och dataflöde, se ruta 1 i Wheeler et al 1 ). Under beredningen av detta brev kontaktade vi ändå Dr Watson och kollegor i december 2007 och februari 2008 för att informera dem om möjligheten att dra slutsatsen om sin risk för LOAD som överförts av APOE-riskalleler med omgivande SNP-data. Som en följd av detta har onlinebryggaren James Watson Genome Browser (JWGB) nominellt tagit bort all information från 2-Mb-regionen kring APOE .

För att visa vår poäng att genetisk information är svår att dölja, utan att strida mot Dr Watsons önskemål om APOE-riskstatus anonymitet (se ruta 1 i Wheeler et al 1 ), använde vi SNP-genotyper som identifierats i Dr J Craig Vents genomsekvens. 11 Vidare rapporterar Dr Vents sekvensdata att han är heterozygot för både LOAD-högrisk APOE SNP rs429358 (T / C) och APOC1 SNP rs4420638 (A / G). I korthet utfördes imputering av genotyp med användning av datorprogrammet MACH (version 1.0.16), 12 HapMap (CEU) -hapotypdata (omfattande 144 SNP) och Dr Vents genotyper listade för 200 kb-regionen som omger rs4420638 (omfattar alla 144 HapMap SNP). Efter tvåstegssättet som beskrivs i MACH online-tutorial och efter att ha uteslutit Dr Venter's genotypdata för rs4420638 och alla APOE SNP: er kunde vi korrekt beräkna Dr Venter's rs4420638 genotyp som A / G. De bakre sannolikheterna för Dr Vents genotyp av rs4420638 som A / A, A / G eller G / G uppskattades till 0, 008, 0, 992 respektive 0, 000. Den höga noggrannheten i Dr Vents imputerade genotyp rs4420638 exemplifierar användbarheten av att tilldela APOE genetisk risk för belastning.

Slutligen, även om borttagningen av 2 Mb sannolikt är överdriven för den omgivande APOE- regionen (baserad på rapporterad LD), eftersom mer detaljerad karaktärisering av det mänskliga genomet kommer att synas, kommer det att bli ännu mer nödvändigt att redigera väsentliga regioner kring identifierade genetiska riskvarianter för att undvika den indirekta, men korrekta, uppskattningen av genetisk risk som de som vi beskriver ovan. Till exempel, i en nyligen genomförd studie, där man använde genuttrycksprofilering av Epstein – Barr-virustransformerade lymfoblastoidcellinjer av alla 270 individer som genotypats i HapMap Consortium, rapporterade Stranger et al 13 att många fall av den mest betydelsefulla SNP förknippad med genuttryck befinner sig. ofta 100 s kb och upp till 1 Mb utanför gentranskriptet, med ytterligare, mindre signifikanta SNP: er, även om de fortfarande är användbara för att uppskatta risk, som ligger ännu längre från genen. Dessutom kommer potentialen för indirekt uppskattning av risk att öka ytterligare när ytterligare och mer detaljerade genomomfattande föreningsstudier utförs (som identifierar nya riskloki) och individuella humana genom sekvenseras.

Sammanfattningsvis är dold genetisk information i en annars fullständigt avslöjad genomsekvens inte enkel på grund av tillgängligheten av genomiska data i den offentliga domänen som kan användas för att förutsäga de saknade data. Vi tror att potentialen för en sådan indirekt uppskattning av genetisk risk har betydande relevans för oro över sekretess, konfidentialitet, diskriminerande och förtalande användning av genetiska data och komplexiteten i informerat samtycke för både forskningsdeltagare och deras nära genetiska släktingar i en era av personaliserad genomik .

Intressekonflikt

Ingen förklarade.

Webbresurser

URL: en för data som presenteras här är följande:

James Watson Genome Browser (JWGB),

//jimwatsonsequence.cshl.edu/cgi-perl/gbrowse/jwsequence/

James Watson Genome Browser (JWGB); nedladdning av lokal kopia, ftp://jimwatsonsequence.cshl.edu/jimwatsonsequence/gbrowse/

Dr J Craig Vents genomsekvens, //huref.jcvi.org/

MACH (version 1.0.16) datorprogram, //www.sph.umich.edu/csg/abecasis/MACH

HapMap (CEU) fasas av haplotypdata (omfattande 144 SNP), //www.hapmap.org/cgi-perl/gbrowse/hapmap_B35/

Dr Vents genotyper (laddas ner 19 juni 2008), ftp://ftp.jcvi.org/pub/data/huref/HuRef.InternalHuRef-NCBI.gff

MACH onlinehandledning, //www.sph.umich.edu/csg/abecasis/MACH/tour/imputation.html