Mutationslandskap av gingivo-buccala orala skvamösa cellkarcinom avslöjar nya återkommande muterade gener och molekylära undergrupper | naturkommunikation

Mutationslandskap av gingivo-buccala orala skvamösa cellkarcinom avslöjar nya återkommande muterade gener och molekylära undergrupper | naturkommunikation

Anonim

ämnen

  • Cancergenetik
  • Mutation
  • Oral cancer

Abstrakt

Gingivo-buccalt oralt squamous cellcarcinom (OSCC-GB), en anatomisk och klinisk subtyp av huvud- och nackpitelcancercarcinom (HNSCC), är vanlig i regioner där tobakstuggning är vanligt. Exom sekvensering ( n = 50) och återfallstest ( n = 60) avslöjar att vissa signifikant och ofta förändrade gener är specifika för OSCC-GB ( USP9X , MLL4 , ARID2 , UNC13C och TRPM3 ), medan vissa andra delas med HNSCC (för exempel TP53 , FAT1 , CASP8 , HRAS och NOTCH1 ). Vi hittar också nya gener med återkommande amplifieringar (till exempel DROSHA , YAP1 ) eller homozygota deletioner (till exempel DDX3X ) i OSCC-GB. Vi finner en hög andel av C> G-transversioner bland tobaksanvändare med stort antal mutationer. Många vägar som är anrikade för genomiska förändringar är specifika för OSCC-GB. Vårt arbete avslöjar molekylära subtyper med distinkta mutationsprofiler som patienter som huvudsakligen har mutationer i CASP8 med eller utan mutationer i FAT1. Medeltiden för sjukdomsfri överlevnad är betydligt förhöjd i vissa molekylära undergrupper. Dessa fynd öppnar nya vägar för biologisk karakterisering och utforskning av terapier.

Introduktion

Oralt skivepitelcancer (OSCC) är den åttonde vanligaste cancer i världen 1 och är den ledande cancer bland män i Indien 2 . Årligen uppstår> 260 000 nya fall och ~ 128 000 dödsfall inträffar 3 . Tobaksrökare har 27 gånger högre oral oral cancer än icke-rökare 4 . Tugga betel-quid bestående av betelblad ( Piper betle ), areca mutter ( Areca catechu ) och slaked lime (främst kalciumhydroxid), med eller utan tobak, är traditionellt och populärt i Indien och är känt för att orsaka muncancer 5 . Utbredd användning av rökfri tobak i Indien, vilket förklarar över hälften av orala cancer 6, är vanligt bland ungdomarna (13–15 år): 14, 1% bland pojkar och 6% bland flickor 7 . Mänsklig papillomavirus (HPV) -infektion är en fastställd riskfaktor, med prevalens i OSCC mellan 20 och 50% i geografiska regioner 8 . Oral cancer förekommer främst som tungcancer (~ 65%) i väst, medan det i Indien främst (~ 60%) påverkar den gingivo-buccala regionen, innefattande bukal slemhinna, retro-molär trigon och lägre tandköttet 9, 10 . Patienter med oralt skivepitelcancer i gingivo-buccalregionen (OSCC-GB) förekommer mestadels i avancerade stadier (steg III och IV) och har en mycket hög loko-regional bristfrekvens och dödlighet trots bästa multimodala behandling 11 . De två tidigare exome-sekvenseringsstudierna 12, 13 på huvud- och nacke-squamous cellcarcinom (HNSCC) inkluderade patienter som drabbades vid en heterogen uppsättning av anatomiska platser, inklusive munhålan. Båda studierna identifierade att TP53 , CDKN2A , PIK3CA , HRAS och NOTCH1 ofta var muterade. En ny integrerad genomisk analys av OSCC 14 upptäckte dessutom frekvent mutation av CASP8 som definierade en ny molekylär subtyp och identifierade fyra huvudsakliga drivrutiner - mitogen signalering, Notch, cellcykel och TP53. En annan nyligen genomförd studie 15 har identifierat att tumörsuppressorerna CTNNA2 och CTNNA3 är frekvensmuterade i laryngeale karcinom. Oral hålighet omfattar undersidor med distinkta biologiska egenskaper 16 . Det är därför troligt att gener som driver cancer i dessa undersidor kan vara annorlunda.

Här karaktäriserar vi det somatiska mutationslandskapet hos OSCC-GB, den vanligaste och anatomiskt homogena cancer i Indien som utgör en betydande global cancerbörda. Vi identifierar arten och omfattningen av genomiska förändringar som är specifika för denna anatomiska undergrupp (OSCC-GB) inom den bredare anatomiska uppsättningen (HNSCC) och studerar deras prognostiska implikationer. Vår studie avslöjar nya gener och mutationsanrikade vägar som är specifika för OSCC-GB och föreslår molekylära subtyper som kan vara förknippade med betydligt bättre sjukdomsfri överlevnadsperiod (DFS).

Resultat

Patientbeskrivning

Med informerat samtycke samlades blod- och tumörvävnader vid tidpunkten för kirurgisk excision, från 50 behandlingsnaiva OSCC-GB-patienter (upptäcktset) som genomgick en omfattande iscensättning, botande resektion, postoperativ strålterapi ± kemoterapi och uppföljning vid ACTREC. Endast patienter med konkordant histologisk diagnos av två oberoende granskare inkluderades. Avsnitt av tumörer som innehöll minst 80% tumörkärnor bland totala cellkärnor användes för DNA-isolering och kvantifiering (Metoder). Data om demografi, riskfaktorer, kliniska, radiologiska och histopatologiska egenskaper, behandlingsparametrar och sjukdomstatus vid uppföljning samlades in. Varje patient följdes upp tills död eller återfall. Sammanfattande statistik finns i tilläggstabellen S1. De flesta (88%) patienter var manliga, ~ 50% var mellan 40 och 50 år, 96% exponerades för tobak ± alkohol och 94% presenterades i avancerat stadium III / IV. Kirurgisk dissektion och histologisk undersökning av regionala noder bekräftade nodal metastas i 50% fall. Infektion med HPV och Herpes Simplex Virus (HSV) detekterades hos 26% (alla infekterade med högriskundertyper; 22% med subtyp 16, 2% med subtyp 18 och 2% med blandade subtyper) respektive 2% av patienterna.

Dessutom rekryterades 60 oberoende OSCC-GB-patienter (bekräftelsesset) på liknande sätt och bioprover som samlats in från dem analyserades på liknande sätt för bekräftelse av genomiska upptäckter. Egenskaper hos patienter som omfattade "bekräftelsesset" liknade de som upptäcktesuppsättningen: medelålder (i år) för patienter i upptäckts- och bekräftelset var 48, 0 respektive 47, 5 ( t- test P- värde för jämlikhet mellan betyder> 0, 05) och könsproportioner var inte annorlunda ( Z- test P- värdet för jämställdhetsproportioner> 0, 05). Andelen HPV-positiva patienter i bekräftelsessatsen var dock lägre, vilket resulterade i en total andel på 19, 3%.

Exome sekvensering och verifiering

Kodande exoner av 19 806 proteinkodande gener och 1 040 icke-kodande RNA sekvenserades från DNA isolerat från blod (för att utesluta ärvda sekvensvarianter) och primär tumör hos varje patient. Av dessa sekvenserades kodande exoner av 15 906 gener och 394 icke-kodande RNA oberoende på två ortogonala sekvenseringsplattformar (Illumina HiSeq 2000 och Roche GS-FLX). På grund av den sekvenserings- och verifieringsstrategi som används i dubbelplattformen är våra data av mycket hög kvalitet. Genomsnittliga ± sd djup av sekvensering för blod och tumör-DNA på HiSeq 2000 var 37, 58 ± 6, 76 respektive 36, 67 ± 8, 44; motsvarande uppskattningar för GS-FLX var 24, 92 ± 2, 52 respektive 35, 43 ± 5, 73. Detaljer för varje patient finns i (kompletterande tabell S2). Konkordans för genotyp av kärnlinje med en nukleotidvariant (SNV) på de två sekvenseringsplattformarna var 92, 36%. Konkordansuppskattning av könsgenotyper för ~ 10 000 SNV som också var närvarande på Illumina Omni Quad DNA-mikroarray var över 99, 5% för varje djupföljande plattform. Av alla SNV: er i generna som ofta och signifikant muterades och endast kunde sekvenseras på en plattform, verifierades 98% med användning av Ion Torrent PGM (Life Technologies) på ett medeldjup på 200 ×. Eftersom TP53 är den oftast muterade HNSCC-genen, Sanger-sekvenserade vi TP53 . Somatiska mutationer i TP53 hos sju patienter som upptäcktes genom Sanger-sekvensering rapporterades inte i massivt parallella sekvenseringsdata på grund av bristen på adekvat täckning, även om läsningar med relevant mutantallel fanns närvarande i data om var och en av dessa sju patienter. Alla TP53- mutationer detekterade genom massivt parallell- eller Sanger-sekvensering katalogiserades. Variationer av kopienummer (CNV) identifierades genom analys av genotypdata genererade med DNA-mikroarrayer; de flesta verifierades med realtid PCR.

Mutationslandskap av OSCC-GB

Kodningsregioner för genom av de 50 patienterna innehöll 5 646 somatiska varianter, varav 176 (3%) var indlar och de återstående var substitutioner med en nukleotid. Av enstaka nukleotidsubstitutioner förutsagdes 1 398 (24, 8%) att vara synonyma; 3 629 (64, 3%), missense; 311 (5, 5%), nonsens och 104 (1, 8%), skarvplats. Bland indlarna var raderingsförskjutningar de vanligaste (56, 2%). Det genomsnittliga antalet varianter (enkel-nukleotidvarianter (SNVs) och indeller) per patient, inklusive och exklusive synonyma varianter, var 113 (intervall: 13–939) respektive 85 (intervall: 12–637). Sekvenseringsdjupet för patienten med det lägsta antalet verifierade varianter i genomsnitt över de två plattformarna och de två DNA-källorna var 36, 98 ± 6, 69. Genomsnittliga mutationsgrader per Mb, inklusive och exklusive synonyma mutationer, uppskattades till 3, 52 ± 0, 59 respektive 2, 65 ± 0, 41 (kompletterande tabell S3). Det genomsnittliga antalet varianter (intervall: 1–39) i icke-kodande RNA-gener per patient var 7, 56 ± 5, 99 (kompletterande data 1 och kompletterande tabell S4).

Primära tumörer hos 13 (26%) patienter hade hög risk (16 och / eller 18) HPV-subtyper. I motsats till en tidigare rapport 12 om HNSCC, hos OSCC-GB-patienterna hittade vi inte en statistiskt signifikant skillnad ( Z- test P- värde för jämlikhet mellan andelar> 0, 05) i proportionerna av olika typer av mutationer hos patienter med eller utan HPV-infektion, och fann att en hög andel (61%) av HPV-associerade tumörer bar TP53- mutationer (Fig. 1). Till skillnad från en tidigare rapport 13 uppvisade de HPV-infekterade patienterna inte heller en lägre mutationsgrad (4, 07 mutationer per Mb) jämfört med HPV-negativa patienter (3, 36 mutationer per Mb).

Demografiska egenskaper, miljöexponeringar och landskap av genomiska förändringar visas. Dessa data har organiserats i ökande ordning av det totala antalet mutationer som observerats hos varje patient. Patientnummer som är understrukna är kvinnliga; de återstående är hane. ( a ) Exponeringar mot kända riskfaktorer, inklusive HPV. Tobaksexponering inkluderar alla former av tobaksbruk. Exponerade patienter indikeras som en fylld kvadrat. ( b ) Tio gener som har visat sig vara signifikant förändrade, indikerade med fetstil, är arrangerade i fallande ordning för procentandelen patienter som visade förändringar (SNV och CNV, som indikeras med en "+" separator). Typer av förändringar är färgkodade; färgkodningsschemat indikeras längst ner i figuren. Sex gener som tidigare identifierats ofta förändras i andra cancerformer och visade sig vara närvarande i minst 10% av patienterna som ingår i denna studie är också listade. Tre gener som visade sig vara muterade ofta i en tidigare studie på skivepitelcancer i huvud och hals är understrukna. ( c ) Gener av relevans som amplifieras (5 gener) eller raderas (4 gener) hos minst 10% av patienterna (notera: CNV: er upptäckta i gener såsom luktreceptorgener listas inte på grund av brist på bevis för deras deltagande i cancrar). Alla amplifieringar är fullgenamplifikationer; borttagningen som involverar GSTT1 är en delgenering av full gen, medan de andra är delvis borttagning. ( d ) Antal tyst och icke-tyst mutationer per Mb (Obs: för patientnummer 7 och 41 överstiger det totala antalet mutationer per Mb, 12 respektive 29 skalan; följaktligen visas dessa nummer). ( e ) Spektrum av mutationer för varje patient: procentfrekvenser för olika kategorier av SNV: er och indel. Stängerna som representerar frekvensen för C> G / T på platser som inte är CpG markeras för de tre patienterna 2, 7 och 41 (se text för förklaring), * Hela MMP-genfamiljen på kromosom 11 förstärktes.

Bild i full storlek

Nästan alla (96%) av OSCC-GB-patienterna som ingick i denna studie exponerades för tobak (tugga ± rökning). C: G> A: T-transversion, vars övervägande är ett kännetecken för mutationer inducerade av tobakscarcinogener 17, hittades i hög andel (61%) i OSCC-GB-tumörerna; mycket högre än observerats (15–26%) i olika cancerformer som inte är associerade med tobak 18, och även i den allmänna befolkningen (31%) (Kompletterande figur S1). Vi observerade (kompletterande figur S2) att C: G> A: T-transversion (tobaksignatur) inträffade vid 5'-GCX (C är den muterade basen, och X är vilken bas som helst) vid frekvenser signifikant ( Z- test P- värden för jämställdhet mellan proportioner varierade mellan 3, 8 × 10 −12 och 0, 02) högre än väntat. Det fanns en överrepresentation av C> T och C> G-mutationer vid 5′-TCX ( Z- test P- värden för jämlikhet av proportioner varierade mellan 4, 1 × 10 -130 och 1, 4 × 10 −14 ), liknande resultat på bröstcancer 19 och C> T somatiska mutationer var dominerande på icke-CpG-ställen (fig. 1e), i motsats till vad som normalt observeras i groddlinjen (kompletterande fig. S2D). Intressant nog hade tre OSCC-GB-patienter (patientnummer 2, 7 och 41; Fig. 1), alla tobaksanvändare, som innehöll ett stort antal mutationer (315, 391 respektive 939), relativt små andelar av C: G> A: T-transversion jämfört med C: G> G: C-transversion, som var den högsta andelen i alla de tre patienterna (Fig. 1e). C> G-transversion orsakas av 8-oxoguanin 20, en DNA-lesion som bildas genom exponering för tobak och reaktiva syrearter 21 . Över aktivitet av APOBEC-genfamiljen har rapporterats resultera i C> T- och C> G-mutationer vid TpCpX-trinukleotider i olika humana cancerformer 22 .

Fem nya gener associerade med OSCC-GB

Somatiska mutationer observerades i 4 109 gener; 981 muterades i ≥2 tumörer (kompletterande data 1), varav 45 muterades i ≥10% av tumörerna. Bland dessa 45 gener är de som muterades med en signifikant högre än bakgrundsfrekvensen (fastställs med användning av data om endast SNV: er och indeller, men inte CNV: er i genen) efter lämpligt justering för deras längder och baskompositioner med användning av MuSiC-algoritmen 23, och oberoende verifierats av MutSigCV-algoritmen 24, betraktades som gener associerade med OSCC-GB. Tio gener muterades signifikant (alla FDR-korrigerade P- värden med endast SNV-data, men inte CNV-data, var <0, 05) och förändrades: TP53 (0, 62 + 0 = 0, 62; det vill säga 62% av patienterna med SNV: er och 0% med CNV: er, FAT1 (0, 40 + 0, 04 = 0, 44), CASP8 (0, 34 + 0, 02 = 0, 36), USP9X (0, 12 + 0, 10 = 0, 22), MLL4 (0, 16 + 0 = 0, 16), NOTCH1 (0, 16 + 0 = 0, 16), HRAS (0, 12 + 0 = 0, 12), UNC13C (0, 12 + 0 = 0, 12), ARID2 (0, 10 + 0 = 0, 10) och TRPM3 (0, 10 + 0 = 0, 10). Vissa av dessa gener - TP53 , FAT1 , CASP8 , HRAS och NOTCH1 - var tidigare implicerade i HNSCC 12, 13, 25 . Mutationer, många avkortade, i FAT1 inträffade med en högre frekvens än rapporterat tidigare 13 (12%). Två andra medlemmar i FAT- familjen, FAT3 och FAT4 , muterades också i 12 respektive 8% av OSCC-GB-patienterna.

Vi har hittat fem nya gener förknippade med OSCC-GB — USP9X , MLL4 , ARID2 , UNC13C och TRPM3 — som ofta förändras (10–22% av patienterna) med en hastighet som är betydligt högre än bakgrundsfrekvensen, fastställd av GenomeMuSiC 23, med två av de tre FDR-korrigerade P- värdena för Z- test för att testa jämvärdet av proportioner som är <0, 2 och oberoende verifierade som statistiskt signifikanta ( Z- test P- värdet för jämlikhet av proportioner <0, 05) av MutSigCV 24 (kompletterande tabell S5) . USP9X kodar för ett deubiquitinerande enzym 26 och är en tumörsuppressor 27 ; 22% av OSCC-GB-patienterna innehöll DNA-förändringar (mutationer och CNV: er) i USP9X . Vi har hittat förlust av kopieringsnummer och trunkerande mutationer i USP9X (fig. 1), i överensstämmelse med dess roll som tumörsuppressor 27 . Två kromatinombyggande gener, MLL4 och ARID2 , muterades också signifikant (Fig. 1), främst med trunkerande mutationer. MLL4 fungerar som en co-aktivator av tumörsuppressorn p53 och reglerar trimetylering av H3K4 (ref 28, 29). ARID2 kodar ett protein som är involverat i transkriptionell aktivering och repression av gener genom kromatinombyggnad 30, 31 . De återstående två nya generna förknippade med OSCC-GB som identifierades i denna studie - UNC13C och TRPM3 - tillhör neurotransmitter release-relaterade processer 32, 33 . TRPM3 är en potentiell tumörundertryckare som möjligen fungerar synergistiskt med miR-204 (ref. 34).

Två eller flera mutationer hos samma patient observerades (kompletterande tabell S6) i: TP53 (4/31; det vill säga 4 patienter innehöll ≥2 mutationer i TP53 bland de 31 patienterna som innehöll mutationer i denna gen), FAT1 (3 / 20), MLL4 (2/8) och NOTCH1 (1/8). Observerade mutationer i endast TP53 klusterades; klusteringen var i den DNA-bindande domänen (kompletterande fig. S3). Av de åtta kända 35 somatiskt muterade hotspotsen i cancer var bara fyra muterade i flera OSCC-GB-patienter (kompletterande tabell S7).

Flera cancerassocierade gener muterades ofta, men inte signifikant, i OSCC-GB. Dessa inkluderar SYNE2 (10%) och SYNE1 (6%), i överensstämmelse med en tidigare HNSCC-studie 13, involverad i kärnpolaritet och spindelorientering som fungerar uppströms om NOTCH1- signalering i den skiveformiga celldifferentieringsvägen 36 . PCLO , en gen involverad i kalciumsignalering, muterades hos 14% av OSCC-GB-patienter; denna frekvens liknar (12%) som en tidigare rapport om HNSCC 13, även om en nyligen genomförd studie 24 har hävdat att PCLO inte är en cancergen. SMG1 , muterad i 12% av patienterna, fungerar som ett genotoxiskt stressaktiverat proteinkinas som kan fosforylera p53 och krävs för optimal p53-aktivering efter cellulär exponering för genotoxisk stress 37 . Den välkända tumörsuppressorn, MLL2 , muterades hos 10% av OSCC-GB-patienterna. Det finns också en lång svans av mutationer i kända cancergener som muterades i <10% av OSCC-GB-patienter (kompletterande figur S4).

Återfallstest i oberoende prover

Målriktat massivt parallellt resekvenserande av de 10 signifikant muterade generna (SMG) i 60 oberoende OSCC-GB tumör / normala par visade att alla gener muterades i 5–72% av tumörerna och att FAT1 var signifikant ( Z- test P- värde för likvärdighet av proportioner = 0, 01) mindre frekvent muterade (18% av patienterna i bekräftelsessats mot 40% i upptäcktsuppsättningen). Denna lägre frekvens kompenserades delvis med en högre (72 mot 62%; Z- test P- värde för lika stor andel = 0, 28) frekvens för muterad TP53 . I upptäckts- och bekräftelsesuppsättningarna var frekvenserna med vilka de fem nya OSCC-GB-generna muterades liknande (tilläggstabell S8).

Kopiera nummervariationer

Genomiska segment med mer än tre kopior eller förlust av minst en kopia hos ≥10% av patienterna identifierades (kompletterande data 2). CNV: er identifierades också i gener med återkommande mutationer (SNV: er och / eller indeller) hos OSCC-GB-patienter. Vi hittade och bekräftade (kompletterande tabell S9) flera gener, som inte tidigare rapporterats ha CNV: er i HNSCC, med återkommande amplifiering, såsom DROSHA (12% av patienterna), MECOM (10%), MMP -genklusterregion på kromosom 11q som inkluderar YAP1 (10%); NFIB (10%); eller med återkommande homozygot deletion, såsom DDX3X (10%). Bland de gener som rapporterats tidigare i HNSCC fann vi amplifieringar av CCND1 (22%) och TP63 (8%), homozygot deletion av GSTT1 (14%) och heterozygota deletioner av CDKN2A 25 (10%) och CDH19 (10%). TP63- genprodukten är riklig i skivepitel; detta protein främjar förnyelse av basala keratinocyter genom en mekanism som kräver nedreglering av NOTCH1 och CDKN2A 13 . Både NOTCH1 och CDKN2A muterades ofta i OSCC-GB. Genen som kodar för cellcykelprotein D1 ( CCND1 ) rapporterades tidigare att amplifieras hos ~ 30% av HNSCC-patienter 38 ; observerad amplifieringsfrekvens i OSCC-GB var 22%, mestadels (81%) i HPV-negativa tumörer i överensstämmelse med en tidigare rapport 25 . Deletioner i CSMD1 , en förmodad tumörsuppressor implicerad i olika cancerformer inklusive HNSCC 39, 40, hittades i en väsentlig fraktion (26%) av OSCC-GB-patienter.

Pathway-analys

Förändringar i gener som ofta och betydligt muterades bland OSCC-GB-patienter betraktades som drivkrafter för vägar för initiering och progression. SNV- och Indel-data analyserade med PathScan-modulen i GenomeMuSiC 23 identifierade 16 statistiskt signifikanta KEGG-vägar baserade på anrikning av mutationer (tabell 1). CNV-data lades till för att identifiera ytterligare drivrutiner i anrikade vägar. Många viktiga regleringsvägar som inte tidigare rapporterats vara associerade med HNSCC eller oral cancer berikades hos OSCC-GB-patienter. Anrikning utvärderades genom test av sannolikhetsförhållanden för en ökning av den totala mutationsgraden justerad för längder av gener i en väg och för kluster av mutationer. Dessa är neurotrofin signalering ( P = 7, 1 × 10 −6 ), Wnt signalering ( P = 9, 0 × 10 −4 ), bildning av dorso-ventral axel ( P = 2, 4 × 10 −3 ) och axonstyrning ( P = 3, 9 × 10 −3 ).

Full storlek bord

Vi identifierade också flera vägar som är kända för att vara viktiga för cancer och HNSCC-patogenes: p53-signalering ( P = 4, 87 × 10 −9 ), apoptos ( P = 5, 21 × 10 −9 ), PI3K – Akt-signalering ( P = 1, 0 × 10 −3 ) och Notch-signalering ( P = 4, 4 × 10 −2 ). Vissa andra vägar som inte är kända för att vara förknippade med cancer ändrades signifikant hos OSCC-GB-patienter; dessa inkluderar neuroaktiv ligand – receptorinteraktion ( P = 0, 026), serotonerg synapse ( P = 0, 046). Vi noterar att anrikning av kromatinombyggnadsvägen i OSCC-GB inte kunde detekteras eftersom KEGG-databasen inte innehåller information om många kända kromatinombyggnadsgener.

Molekylära undergrupper och sjukdomsfri överlevnad

Eftersom egenskaperna och genomiska profilerna hos patienter som tillhör upptäckts- och bekräftelsesseterna var likadana, samlade vi data från alla patienter ( n = 50 + 60 = 110) för att identifiera en eventuell förekomst av molekylära undergrupper i OSCC-GB. Antalet förändringar (SNV: er eller indeller) i SMG: erna i varje OSCC-GB-patient användes i denna analys. Kvadratisk euklidiskt avstånd användes för att mäta skillnaden mellan mutationsprofiler mellan patienter. Ward's 41 metod användes för agglomerativ gruppering. Tre breda kluster identifierades (fig. 2). CASP8 är muterad, främst (54, 3%) med trunkerande mutationer, hos 35 (92, 1%) av de 38 patienter som tillhör det första klustret (C 1 ). Förutom CASP8 hade 21 (60%) av dessa 35 patienter också mutationer (främst trunkerande) i FAT1 och / eller NOTCH1 (Fig. 2). TP53 är muterad i alla de 43 patienterna som tillhör det andra klustret (C2), främst med missense och in-frame indels (67, 4%). Det tredje klustret (C3) innefattande 29 patienter bär förändringar i en heterogen uppsättning gener, även om en hög andel (55%) av dem har mutationer i MLL4 och USP9X . Patienter med mutationer i dessa två gener är väsentligen begränsade till det tredje klustret. Varje bred kluster innehåller mutationsmässigt mer homogena underkluster (fig. 2).

Hierarkisk gruppering av 110 gingivo-buccala orala skvamösa cellkarcinompatienter baserade på 10 signifikant och ofta muterade gener bildar tre breda kluster (C1 – C3) med följande väsentliga egenskaper: ( a ) Patienter med mutationer i CASP8 med eller utan mutationer i FAT1 , ( b ) patienter med mutationer i TP53 och ( c ) patienter med mutationer i olika andra gener. Inom varje kluster finns det flera underkluster. Varaktigheten (i månader) för sjukdomsfri överlevnad i genomsnitt jämfört med patienter som tillhör varje subcluster anges i panelen nedan. Den genomsnittliga varaktigheten för sjukdomsfri överlevnad är lång för tre underkluster som omfattar patienter med mutationer i (i) CASP8 , NOTCH1 och FAT1 (C 1.2 ), (ii) CASP8 , NOTCH1 och ARID2 (C 1.4 ) och (iii) MLL4 med andra gener (C 3.2 ). Fyllda lådor indikerar DNA-förändringar; röda och blå rutor indikerar respektive nonsens / ram-shift / splice-site och missense / in-frame insertion-radering.

Bild i full storlek

Varje patient följdes upp efter operation tills död eller återfall. Varaktigheten av DFS varierade från 1 till 39 månader, med ett totalt medelvärde på 14, 22 ± 0, 93 månader. Medelvärden för DFS-varaktighet bland underkluster var varierande (fig. 2). För patienter som tillhör underkluster C 1.2 (med mutationer i CASP8 , NOTCH1 och FAT1 ), C 1.4 (med mutationer i CASP8 , NOTCH1 och ARID2 ) och C 3.2 (med mutationer i MLL4 och andra gener), var och en omfattande sex patienter (totalt 16% av alla patienter), den genomsnittliga DFS-varaktigheten var signifikant längre än det totala medelvärdet ( t- test P- värden för jämlikhet av medel var respektive 0, 01, 0, 04 och 0, 03). Genomsnittlig DFS-varaktighet för patienter som tillhörde andra underkluster skilde sig inte signifikant ( t- test P- värdet för jämlikhet av medel> 0, 05) från det totala genomsnittet. Bland möjliga prediktorer för DFS - ålder vid första presentationen, tumörstadium och regional noderinvolvering (ingen patient hade avlägsen metastas vid första presentationen) - enda noderinvolvering var statistiskt signifikant ( t- test P- värdet för regressionsavlyssning = 0, 002). Andelen patienter med regional noderinvolvering bland de som tillhörde underklusterna C 1.2, C 1.4 och C 3.2 (5 av 18 patienter) var inte signifikant annorlunda ( P- värdet av Fishers exakta två-tailed test = 0, 073) från den bland alla patienter (59 av 110 patienter).

För varje gen signifikant associerad med OSCC-GB testade vi om patienter med eller utan mutationer i genen har förändrat medelvaraktigheter för DFS. Förutom MLL4 hittades ingen sådan förändring för någon gen. Patienter med mutationer i MLL4 ( n = 11) hade en signifikant ( t- test P- värde för lika medel = 0, 047) förhöjd varaktighet av DFS (20, 4 ± 3, 1 månader) jämfört med de ( n = 99) som inte hade mutationer (13, 5 ± 0, 9 månader). Patienter som innehöll mutationer i MLL4 uppvisade inte regional noderinvolvering (8 av 11 patienter) jämfört med den sammanslagna uppsättningen patienter ( P- värde för Fishers exakta två-tailed test = 0, 12). Kaplan – Meier överlevnadssannolikhetsfördelningar ges i Fig. 3.

Resultaten visas för gingivo-buccala orala skvamösa cellkarcinompatienter med ( n = 11; blå linje) och utan ( n = 99; grön linje) mutationer i MLL4.

Bild i full storlek

Diskussion

Katalogen med somatiska mutationer med högt konfidens skapat genom massiv parallell sekvensering på två ortogonala plattformar av exomerna från 50 indiska orala skvamösa cellkarcinompatienter med involvering av endast det gingivo-buccala komplexet har avslöjat många specifika funktioner som skiljer sig från tidigare exome-sekvensering studerar 12, 13, 14 på HNSCC. Mutationsprofiler av HPV-associerade (19, 3% i de sammanslagna upptäckts- och bekräftelsessatserna av prover, högre än 12–14% som hittades i tidigare HNSCC-studier 12, 13 ) och HPV-negativa OSCC-GB-tumörer var liknande. TP53- mutationer inträffade på både HPV-positiv och -negativ bakgrund i nästan lika stora proportioner (~ 65%; n = 110), till skillnad från i den anatomiskt mindre homogena HNSCC 12, 13 . Således kan sambandet mellan TP53- mutationsbakgrund och HPV-positivitet skilja sig mellan anatomiska ställen i HNSCC. De flesta (96%) av OSCC-GB-patienterna exponerades för tobak; följaktligen uppvisade mutationsprofilen hos en stor fraktion (61%) av patienterna en övervägande av C: G> A: T-transversioner (tobaksignatur), som övervägde främst vid 5'-GCX-ställen. Det fanns också en överrepresentation av C> T och C> G-mutationer vid 5′-TCX ( P- värden som sträckte sig från 4, 1 × 10 −130 till 1, 4 × 10 −14 ), liknande resultaten i bröstcancer 19 . Tobaksanvändare med stort antal mutationer hade en relativt mindre andel C: G> A: T-transversion, jämfört med C: G> G: C-transversion. C> G-transversionen orsakas möjligen av 8-oxoguaninskador i DNA som bildas av tobak och reaktiva syresorter 20 och / eller överaktivitet av APOBEC-familjen av cytidindeaminaser tillsammans med uracil-DNA-glykosylas som genererar både C> T-övergång och C > G-transversion vid TpCpX trinuclotider 22 . Eftersom anatomiskt HNSCC är en superset av OSCC-GB, identifierades och bekräftades många HNSCC-drivmutationer 12, 13 som OSCC-GB-drivrutiner. Frekvenserna med vilka dessa gener muterades bland OSCC-GB-patienter skiljer sig emellertid från de som rapporterats i HNSCC. Mest anmärkningsvärt är FAT1 , muterat hos 28, 1% ( n = 110) av OSCC-GB-patienterna med många trunkerande mutationer, jämfört med 0% (ref. 12) och 12% (ref. 13) rapporterade tidigare i HNSCC. Mutationer i FAT1 främjar avvikande Wnt-aktivering som leder till tumörigenes i olika cancerformer 42 . FAT3 och FAT4 muterades också ofta i OSCC-GB. FAT4 spelar en avgörande roll i karcinogenesen som en nyckelkomponent i Hippo-signalvägen och i hämning av cellproliferation 43 . FAT3 , vars exakta funktion är oklar, rapporterades inte ofta muteras i HNSCC, men muterades hos 12% av OSCC-GB-patienter. Vi har upptäckt fem nya gener associerade med OSCC-GB, varav en, USP9X , är en tumörsuppressor 27 och en annan, MLL4 , är en samaktivator av en tumörsuppressor (p53). En ytterligare medlem av MLL-familjen, MLL2 , muterades också ofta hos 10% av OSCC-GB-patienterna, men den uppskattade mutationsgraden i denna gen var inte signifikant högre än bakgrundshastigheten. Villkorad radering av SMAD4 leder till HNSCC i musen 44 . SMAD4 är en central omvandlare av TGFp-responsrelaterad tumorogenes 45 . USP9X är ett deubiquitinerande enzym för SMAD4 . Förlust av USP9X förhindrar därför deubikitinering av SMAD4 , vilket ökar tumörprogressionen. SMG1 , ofta muterad i 12% av OSCC-GB-patienter, är en aktivitetsoptimisator för p53. Den tredje nya genen associerad med OSCC-GB, ARID2 , är en kromatinombyggnadsgen, som tidigare rapporterats vara muterad ofta i olika cancerformer 46, 47, 48 . Vissa andra gener för renovering av kromatin ( EP300 , NSD1 , KDM5A , ARID1A, CHD7 , TET1 och HIST1H3E ) muterades också ofta. De två återstående OSCC-GB-generna som upptäckts är UNC13C och TRPM3 , båda associerade med neurotransmitterprocesser. UNC13C är troligtvis involverat i regleringen av neurotransmitterfrisläppande 32 TRPM3- kanaler fungerar som nya modulatorer av glutamatergisk transmission i hjärnan under utveckling 33 . Det glutamatergiska systemet verkar vara kritiskt involverat i nikotinberoende 49 . Det är spännande att dessa gener borde muteras somatiskt hos OSCC-GB-patienter, även om vi noterar att en rimlig andel (26%) av patienterna innehar grovmutationer också i UNC13C , men inte i TRPM3 . TRPM3 , som är en värdgen för miR-204, fungerar möjligen synergistiskt med miR-204 för att reglera undertryckande av tumörtillväxt såväl som tumörcellmigration och invasion 34 .

Undersökningar av möjliga funktionella effekter av de icke-synonyma mutationer som finns i de 10 generna som ofta och signifikant muteras i OSCC-GB, utförda med hjälp av bioinformatikverktyg PROVEAN 50 och SIFT 51, avslöjade att minst 91% av mutationerna är skadliga eller skadliga (Tilläggstabell S10).

Tre molekylära undergrupper av patienter identifierades (Fig. 2). En undergrupp har mutationer i CASP8 , med mutationer i FAT1 och / eller NOTCH1 . Undergruppen med CASP8- mutationer erkändes tidigare 14 . En annan undergrupp innefattar patienter med muterad TP53 , medan hos patienter som tillhör den tredje undergruppen övervägande MLL4 och USP9X bland andra gener muteras. Tolv procent av patienterna har kända onkogena missensmutationer i HRAS 52 . HRAS- mutationerna är kända mål för terapeutiska läkemedel för olika cancerformer 53 .

Tre undergrupper av patienter - de med CASP8 och NOTCH1- mutationer med ytterligare mutationer i FAT1 (C 1.2 ) eller ARID2 (C 1.4 ) och de med muterad MLL4 (C 3.2 ) - som utgör 16% av alla patienter har en signifikant förhöjd (med 8 månader) ) genomsnittlig varaktighet för sjukdomsfri överlevnad jämfört med det sammanlagda medelvärdet för alla patienter. På grund av ett begränsat antal tumörer som har mutationer i dessa gener ( CASP8 , MLL4 , etc.) måste slutsatserna om sjukdomsfri överlevnadsfördel accepteras som preliminär, i avvaktan på verifiering.

Flera nya gener med CNV: er associerades med OSCC-GB, vissa med amplifieringar ( DROSHA , MECOM , MMP -genkluster, YAP1 , NFIB och PSIP1 ) och andra med deletioner ( POLB , CCNC , DDX3X ). Somatiska SNV: er, men inte CNV: er, identifierades i några av dessa gener i HNSCC 13 och medulloblastom 54 . DDX3X spelar en viktig roll i apoptos 13 . MECOM- genprodukten fungerar som en transkriptionell regulator som binder till DNA i promotorregionen för målgener och reglerar positivt eller negativt deras uttryck 55 . Detta onkogen spelar en viktig roll i utveckling, cellproliferation och differentiering 55 . I likhet med vårt konstaterande förstärktes MECOM ofta i äggstockscancer 56 . RNase III-genprodukten från DROSHA , amplifierad i 12% av OSCC-GB-patienterna, är kärnnukleaset som initierar mikroRNA (miRNA) -behandling i kärnan; förändringar i uttrycket av Drosha är associerade med cancer 57 . Kärnfaktor I / B ( NFIB ), förstärkt i 10% av OSCC-GB-patienter, reglerar cellviabilitet och -förökning under transformation i modellen med skvamcellcancer lungcancer (SCLC) och i human SCLC 58 . Signifikant hög nivå av NFIB-mRNA hittades i trippel negativ bröstcancer 59 . Andra deleterade gener inkluderar polymeras beta - POLB (14%), ett DNA-polymeras involverat i basexcision och reparation; cyklin C - CCNC (10%), en cellcykelregulator; YWHAZ , en medlem av signaltransduktionsvägen och en proto-onkogen JUN , förstärktes hos tre OSCC-GB-patienter. TP63- amplifiering observerades också hos fyra patienter. Fibroblasttillväxtfaktorreceptorgen FGFR1 och FGFR4 hittades förändrade i 10% av HPV-negativa OSCC-GB-tumörer. Dessa gener förmedlar cellulär signalering. Det finns ökande bevis på att FGFR: er driver onkogener i vissa cancerformer och agerar på ett autonomt sätt för att bibehålla de maligna egenskaperna hos tumörceller 60 . Eftersom autofosforylering av en eller flera FGFR krävs för aktivering av FGF-inducerad nedströms signalering har molekyler utvecklats för att hämma autofosforylering 61, 62 . De funktionella effekterna av förändringar i FGFRs 1 och 4 som finns i 10% av OSCC-GB-patienter kräver undersökning i samband med tillgängligheten av hämmarmolekyler för behandling.

Vi har också identifierat flera nya förändringar av vägar i OSCC-GB. Dessa inkluderar Wnt-signalering, dorso-ventral axelbildning och axonstyrning. Nyligen visade sig axon-vägledningsvägar vara viktiga i bukspottkörtelcancer 30 . Integrativ analys börjar ge djupare insikter om molekylära egenskaper som driver OSCC 14 .

I den heterogena klassen av cancer i huvud och nacke indikerar det mutativa landskapet att mutationer i flera cancergener är specifika för att driva den homogena delmängden av gingivo-buccal oral squamous cellkarcinom. Dessa specifika gener är tumörundertryckare eller funktionellt associerade med en känd tumörsuppressor, såsom p53. Totalt sett är tumörsuppressorgener jämfört med onkogener främst involverade i oral cancer; detta faktum kan ha terapeutiska konsekvenser 14 . CNV: er i gener som modulerar cellcykel, apoptos, mikroRNA-behandling, och så vidare, var signifikant associerade med gingivo-buccal oral cancer; många av dessa föreningar upptäcktes inte i tidigare studier på huvud- och nackcancer. Anrikning av förändringar i nya vägar upptäcktes också. Dessa nya fynd understryker vikten av noggranna, högkvalitativa undersökningar av homogena cancerundertyper med objektiv DNA-sekvensering. Förarens mutationer i de nyligen identifierade generna förknippade med gingivo-buccal oral cancer kräver funktionell förståelse för bedömning av deras translationella potential.

metoder

Etiskt godkännande och informerat samtycke

Denna studie godkändes av de institutionella etiska kommittéerna för Advanced Center for Treatment, Research and Education in Cancer (ACTREC), Mumbai och National Institute of Biomedical Genomics (NIBMG), Kalyani. Alla patienter rekryterades till denna studie efter att ha fått sitt frivilliga informerade samtycke.

Bedömning av isolerad DNA- och HPV-infektion

Genomiskt DNA extraherades från tumörvävnaden med användning av PAXgen Tissue DNA-kit (Qiagen) och från helblodsprover med användning av Blood DNA Mini-kit (Qiagen), enligt tillverkarens protokoll. Provens kvalitet och DNA-koncentration bedömdes med användning av NanoDrop ND1000 spektrofotometer (Thermo Fisher) och 0, 8% agarosgelelektrofores. Prover med OD 260 / OD 280- förhållandet ≥1, 8, OD 260 / OD 230- förhållandet ≥1, 9, DNA-koncentration mellan 250 till 500 ng μl −1 och med inga synliga bevis på kontaminering med RNA eller DNA-nedbrytning godtogs för ytterligare genomisk analys, inklusive exome-fångst och massivt parallell DNA-sekvensering.

Varje tumör-DNA-prov screenades för närvaro av HPV-DNA med hjälp av en PCR- och DNA-sekvensbaserad metod 63 . Cirka 100 ng genomiskt DNA per prov användes för PCR med HPV L1-konsensusprimers (MY09 och MY11) 63 och FastStart Taq DNA-polymeras (Roche Applied Science) i ABI 9700 Guld termiska cykler (Life Technologies) för att förstärka ett 450 bp fragment . För varje prov amplifierades 2 ul av L1 PCR-produkten med hjälp av kapslade primrar GP05 och GP06 med inriktning på ett 140 bp-fragment. PCR-produkterna visualiserades genom 2% agarosgelelektrofores, renades med AmPure XP-reagens (Beckman Coulter) och utsattes för Sanger dideoxykedjeavslutnings-sekvensering med PCR-primrarna GP05 och GP06 med användning av ABI Big Dye Terminator v3.1-sekvenseringssats och analyserades i ABI 3500XL DNA-sequenser (Life Technologies). De erhållna DNA-sekvenserna användes för att utföra BLAST för identifiering av HPV-typer.

Varje tumör-DNA-prov screenades också för närvaro av Herpes simplex- virus 1 och -2 (HSV-1 och HSV-2) DNA med LightMix Kit HSV-1/2 (TIB MOL BIOL) och LightCycler FastStart DNA Master HybProbe (Roche Diagnostics ). I korthet amplifierades och detekterades ett 214-bp-fragment av HSV-1 och ett 215 bp-fragment av HSV-2 POL- genen och detekterades med användning av hybridiseringssond specifik för HSV-1 märkt med LightCycler Red 640 i en realtids PCR-analys i LightCycler 480 instrument (Roche Diagnostics). Närvaron av HSV-1 och HSV-2 diskriminerades genom att köra en smältkurvmetod efter PCR, eftersom HSV-2 amplikon-sondduplex har lägre smälttemperatur ( Tm ) jämfört med HSV-1 amplikon-sondduplex. Falskt negativa PCR-resultat identifierades med en ytterligare PCR-produkt på 278 bp erhållen från en intern kontroll tillagd till reaktionerna.

Exam fångst och massivt parallell DNA-sekvensering

Cirka 62 Mb av det kodande området för det mänskliga genomet, innefattande 201, 121 exoner och 9, 0 Mb miRNA-kodande regioner, fångades med hjälp av TruSeq Exome Anrichment Kit (Illumina). Kortfattat, för varje prov användes 1, 5 μg genomiskt DNA för att generera fragment med storlek 200–300 bp av Covaris (Covaris Inc). Fragmenten slutreparerades genom blandning med End Repair Mix (TruSeq DNA Sample Prep Kit, Illumina) och inkuberades vid 30 ° C under 30 minuter och renades med Ampure XP-system (Beckman Coulter). Dessa fragment adenylerades vid 3'-ändar med A-Tailing Mix vid 37 ° C under 30 minuter och ligerades till DNA-adapterindex för multiplexering med DNA-ligasblandning vid 30 ° C under 10 minuter. Ligeringsprodukterna renades först med Ampure XP-system (Beckman Coulter) och sedan med 2% agarosgeleltrofores följt av MinElute Gel Extractions Kit (Qiagen). DNA-fragmenten anrikades därefter genom PCR-amplifiering med PCR Master Mix (TruSeq DNA Sample Prep Kit, Illumina) under 10 cykler (98 ° C-10 s, 60 ° under 30 s, 72 ° under 30 s) i ABI 9700 PCR-system (Life Technologies) och renas med Ampure XP-system (Beckman Coulter). Kvaliteten och kvantiteten på de sålunda erhållna genomiska DNA-biblioteken bedömdes genom att analysera dem i High Sensitivity DNA-chip i 2100 Bioanalyzer (Agilent) och realtid PCR med Kapa Library Quant Kit (Kapa Biosystems) i ABI 7900HT-system (Life Technologies). Genomiska DNA-bibliotek med fragmentstorlek mellan 300 och 400 bp och minimiutbyte på 500 ng valdes för exakt anrikning. För berikning av exomer blandades DNA-bibliotek för att bilda sexplexpooler baserade på sekvensen av indexadaptrar som användes och hybridiserades till Capture Target Oligonucleotides (TruSeq Exome Anrichment Kit, Illumina) genom inkubering vid 93 ° C under 1 min (minskande 2 ° C per cykel under 18 cykler) följt av 58 ° C under 19 timmar i ABI 9700 PCR-system (Life Technologies). De hybridiserade biblioteksfragmenten binds till Streptavidin magnetiska pärlor och tvättades i tur och ordning med tvättlösningar 1, 2 och 3. Dessa eluerades sedan i Elution Target Buffer 1 och 2 N NaOH och underkastades en andra omgång av hybridisering för att fånga mål-oligonukleotider (TruSeq Exome Anrikningssats, Illumina) och eluering som ovan. De eluerade exom-anrikade bibliotekfragmenten PCR-amplifierades under 12 cykler (98 ° C under 10 s, 60 ° C under 30 s, 72 ° C under 30 s) i ABI 9700 PCR-system (Life Technologies) och renades med Ampure XP system (Beckman Coulter). De anrikade DNA-biblioteken kvantifierades genom realtid PCR med Kapa Library Quant Kit (Kapa Biosystems) i ABI 7900HT-system (Life Technologies). Varje exome-anrikad 6-plex DNA-bibliotekspool parades i slutet i 210 cykler i minst två banor av HiSeq-2000 System (Illumina) med användning av TruSeq PE Cluster Kit v3 och TruSeq SBS Kit v3 (Illumina).

I ett samtidigt ortogonalt tillvägagångssätt fångades ~ 26 Mb av det kodande området för det mänskliga genomet, innefattande 180 000 kodande exoner från CCDS-databasen och 551 miRNA-kodande regioner, med 2, 1 miljoner sonder i Seq Cap EZ Exome Capture Probe Library (Roche- NimbleGen). För varje prov genererades genomiska DNA-fragment med storleksintervall 500–800 bp genom nebulisering av 1 μg renat genomiskt DNA med kvävgas vid 30 psi-tryck under 1 min. Det nebuliserade DNA renades med MinElute PCR-reningskit (Qiagen), slutpolerades med T4-DNA-polymeras, polynukleotidkinas och Taq-DNA-polymeras (Roche) genom inkubering vid 25 ° C under 20 minuter och 72 ° C under 20 minuter följt av ligering av bibliotekadapteroligonukleotider med DNA-ligas (Roche). De genomiska DNA-biblioteken renades sedan av Ampure XP (Beckman Coulter). Dessa genomiska DNA-bibliotek förstärktes sedan PCR i 10 cykler (95 ° C under 30 s, 64 ° C under 30 s, 72 ° C under 3 minuter) med FastStart High Fidelity Enzyme Blend (Roche) och Rapid-A och Rapid- B oligonukleotider (Roche-NimbleGen Rapid Library-kit) i ABI 9700 PCR-system (Life Technologies). PCR-produkterna renades med QIAquick PCR-reningskit (Qiagen) och hybridiserades till Seq Cap EZ exome fångsonder (Roche-NimbleGen) tillsammans med COT-DNA och Rapid HE1 och HE2-oligonukleotider vid 47 ° C under 70 timmar. De hybridiserade DNA-fragmenten binds sedan till streptavidin-Dynabeads (Invitrogen) vid 47 ° C under 45 minuter, tvättades och förstärktes direkt från bundna Dynabeads med 15 cykler PCR såsom nämnts ovan. De amplifierade produkterna renades med QIAquick PCR Purification Kit (Qiagen). Kvaliteten på de exome biblioteken som erhölls utvärderades genom att analysera dem med användning av DNA 7500-chip i 2100 Bioanalyzer (Agilent) och kvantifieras med användning av Picogreen-färgämne i Qubit Fluorometer (Invitrogen). Omfattningen av exome anrikning i DNA-biblioteken bedömdes med SYBR-Green Real Time PCR-baserad relativ kvantifiering av fyra exonmål för generna RUNX2 , PRKG1 , SMG1 och NLK . Bibliotek med fragmentstorlek mellan 500 och 800 bp, av minsta kvantitet 1 μg och minimi anrikning av 100 gånger i minst tre av de fyra exonmålen i Real Time PCR valdes för djup sekvensering. Varje bibliotek av blod- och tumörexom sekvenserades sedan vid ett minimum djup av 25 × respektive 40 × med användning av Titanium-seriekemi (Roche). Kortfattat, för varje sekvenseringsförlopp, amplifierades 2 × 10 7 exome biblioteksmolekyler genom emulsion PCR i ABI 9700 PCR-system (Life Technologies), renades med användning av REMe-integration (Roche) på Biomek 3000 (Beckman Coulter) och pyrosekvinerades i pikotiter plattor i GS-FLX Genomföljare (Roche) och titankemi (Roche).

Inledande analyser av massivt parallella DNA-sekvensdata

Exome-sekvenseringsdata genererade på HiSeq 2000 analyserades med användning av FASTQC 64 för kvalitetskontroll. BWA 65 användes för inriktning och kartläggning av läsningar mot hg19 med lockföljdsekvenser som användes i 1 000 Genom-projekt 66 . SAMtools 67 användes för konvertering av SAM-filer till BAM-filer och för stapling efter lokal inriktning. Specifika moduler av GATK 68 användes för lokal inriktning kring infogningar / raderingar och baskvalitetsresultatkalibrering. Detaljer för den första analysen av Gs-FLX (454) -data ges i kompletterande metoder.

Statistiska slutsatser om arten av genomisk förändring

Initial standard statistical methods of analysis are presented in Supplementary Methods. Here we describe a new statistical method for variant calling implemented in the base-by-base (BbB) variant caller (Supplementary Methods) developed by us and used here.

Let n denote the total number of reads covering a locus (site), n 1 the number of reads with the reference allele (R), and n − n 1 the number of reads with the variant allele (V). Let π denote the probability that the allele is R, in blood.

The null hypotheses of interest are: (i) π =1 (if n 1 ≥ n − n 1 ) or (ii) π =0 (if n 1 < n − n 1 ). We note that if π =1 (or 0), then n 1 (or n 2 ) must equal n . However, in practice this does not happen, because of errors on massively parallel sequencing platforms. For example, even if the genotype at the locus is RR, there are some variant reads. Let the 'machine error rate' as denoted as ε (numerically small, ~0). In view of the above, instead of testing the null hypotheses (i) and (ii), we test: (i′) π =1−ε (if n 1 ≥ n - n 1 ) or (ii′) π =0+ε (if n 1 < n − n 1 ). If the null hypothesis (i′) is accepted, then the genotype in blood is RR; if (ii′) is accepted, then the genotype is VV; and, if neither hypothesis is accepted, then the genotype is RV. Unless, ultra-deep sequencing is performed, the total number of reads ( n ) is often small. This may lead to the rejection of both hypotheses and therefore by default to making a heterozygote call when in fact there may not be sufficient strength of statistical evidence favoring a heterozygote call (because of the small number of reads). To avoid vagaries of making spurious calls 'by default', when both hypotheses were rejected, we further tested the null hypothesis (iii) π =0.5−ε (or, 0.5+ε). There were instances, when both (i′) and (ii′) were rejected and (iii) was also rejected (or, (i′) or (ii′) were accepted and (iii) was also accepted); in such instances, we did not make a call at that locus and scored it as 'missing genotype', thereby avoiding incorrect scoring of genotypes.

A binomial test of proportions was carried out to test each of the null hypotheses stated above. P -values were calculated by evaluating the probability that a binomial random variable ( n , π) assumes a value greater than the observed number of reference (or variant) reads, n 1 (or n − n 1 ). We used Benjamini−Hochberg False Discovery Rate of 0.01 to reject a null hypothesis.

We empirically estimated the value of the 'machine error rate', ε . Essentially, since in each sequencing run data on some 'control sequences' are automatically generated, these data were used to estimate ε . Estimates of ε varied between 0.0015 and 0.013, across sequencers and runs (Supplementary Fig. S5). We have used ε =0.01 (a conservative upper limit) in all our calculations.

Using statistical methodology similar to that described above, data on tumour DNA were also analysed. The overview of the methodology and inferences is depicted in Supplementary Fig. S6 and Supplementary Table S11.

Verification of somatic mutations

Variant sites of acceptable quality that were present in HiSeq 2000 data, but were outside of the Nimblegen capture region and hence not present in GS-FLX data, and frequently mutated in ≥10% of the patients, were verified using the Ion Torrent platform. Sanger sequencing was done for TP53. Details are provided in Supplementary Methods.

Genome-wide SNP scan and CNV detection

Each DNA sample was genotyped for 1.14 million SNP markers using Illumina Omni Quad arrays and scanned on iScan (Illumina). The results were analysed by Genome Studio Illumina Genome Studio v2011.1 (genotyping module 1.4.9). CNV detection from these data was performed using ASCAT 69 . Details are provided in Supplementary Methods. Real-time PCR assays were performed (Supplementary Methods, Supplementary Table S12) for representative somatic CNVs for confirmation of ASCAT results.

Identification of SMGs

We identified genes that are significantly mutated by statistically comparing the observed numbers of mutations to the numbers expected to accumulate if the genes were evolving at background mutation rate (BMR). These calculations were carried out using Genome MuSiC package, Ver. 0.4 (ref. 23). This algorithm appropriately adjusts mutation rates for gene-length and base-composition. We have used the number of nucleotides in the coding segment of a gene as the length of the gene. Only the number of bases with adequate coverage in both blood and tumour BAM files for each patient was used. For each gene, to test the significance of enhanced mutations compared with the background rate, MuSiC calculates three test-statistics—Fisher's combined P -value test (FCPT), Likelihood-Ratio test (LRT) and the Convolution test (CT)—and then estimates the P -value and the false discovery rate (FDR). In this study, a gene with FDR<0.2 in at least two of the three tests and also recurrently mutated in at least 10% of the patients was declared as a SMG.

We have also applied the MutSigCV v1.3 algorithm 24 for an independent validation of SMGs. MutSigCV estimates the background mutation rate for each gene–patient–category set based on the observed silent mutations in the gene and non-coding mutations in the neighbouring regions. MutSigCV uses patient-specific mutation frequency and spectrum, and gene-specific background mutation rates incorporating expression level and replication time to identify SMGs. The null hypothesis that the observed number of mutations in a gene is equal to that expected under the background mutation rate is tested using standard statistical methods.

Nucleotide context

To understand the mutational processes that drive the C>X (X being any one of the four nucleotides) mutations, we identified nucleotides flanked immediately 5′ and 3′ of the mutated cytosine bases from the human genome reference sequence (hg19) from both strands. Expected distribution of 5′XC-3′X sequence motif in exons of the human genome (hg19) was obtained by random sampling of 10, 000 cytosine bases. For each sampled cytosine base, the 16 possible 5′XC-3′X nucleotide contexts were noted, and their frequencies determined. These served as expected frequencies. Frequencies of the various nucleotide contexts in which C>X mutations were observed among OSCC-GB patients were statistically compared with the expected frequencies using a 2 × 16 contingency χ 2 test. If the χ 2 test was significant, then we statistically tested (using Z -test of equality of proportions) whether frequencies of specific 5′XC-3′X context categories were enriched in OSCC-GB patients compared with those expected.

Pathway-analys

PathScan module in GenomeMuSiC package 23 was used to discover significant pathways enriched with somatic mutations in annotated KEGG (Kyoto Encyclopedia of Genes and Genomes) pathways. PathScan uses the two features in the pathway analysis: variation in gene lengths and the consequent differences of their mutation likelihood under the null hypothesis, and distributions of mutations among samples and their combination into an overall P -value. We have used only the coding segment of a gene as its length in PathScan calculations. All pathways comprising <10 genes (16 such pathways) from the KEGG database were removed. One hundred and ninety KEGG pathways were subsequently used as the input pathway database in GenomeMuSiC package. Only those non-silent somatic variations that, as per UniProt annotation, affect active domains of a protein were used as inputs for pathway analysis in PathScan module. Significantly overrepresented gene pathways in gingivo-buccal oral cancer ( P <0.05) were used for our further analysis. Non-relevant pathways such as olfactory transduction pathways were removed from the final report.

Ytterligare information

Accession codes: Sequence BAM files have been deposited in the European Genome-Phenome Archive under accession code EGAS00001000249.

How to cite this article: India Project Team of ICGC. Mutational landscape of gingivo-buccal oral squamous cell carcinoma reveals new recurrently-mutated genes and molecular subgroups. Nat. Commun. 4:2873 doi: 10.1038/ncomms3837 (2013).

Kompletterande information

PDF-filer

  1. 1.

    Supplementary Figures, Tables, Notes and References

    Supplementary Figures S1-S6, Supplementary Tables S1-S12, Supplementary Methods and Supplementary References

Excel-filer

  1. 1.

    Kompletterande data 1

    Complete list of single nucleotide variants and indels in 50 gingivo-buccal oral squamous cell carcinoma patients in mutation annotation format (MAF)

  2. 2.

    Kompletterande data 2

    Genome-wide amplification and deletion segments identified in 50 gingivo-bucccal oral squamous cell carcinoma patients

kommentarer

Genom att skicka en kommentar samtycker du till att följa våra villkor och gemenskapsriktlinjer. Om du finner något missbruk eller som inte överensstämmer med våra villkor eller riktlinjer ska du markera det som olämpligt.