Det atlantiska laxgenomet ger insikter om rediploidisering | natur

Det atlantiska laxgenomet ger insikter om rediploidisering | natur

Anonim

ämnen

  • Genome
  • Genomutveckling

Abstrakt

Hela genomdupliceringen för 80 miljoner år sedan av den gemensamma förfäderna till laxfiskar (laxidspecifikt fjärde ryggradsdupleduplikation, Ss4R) ger unika möjligheter att lära sig om det evolutionära ödet för ett duplicerat ryggradsgenom i 70 befintliga linjer. Här presenterar vi en högkvalitativ genomsamling för atlantisk lax ( Salmo salar ), och visar att stora genomiska omorganisationer, som sammanfaller med skurar av transposon-medierade upprepade utvidgningar, var avgörande för omförloppsprocessen efter Ss4R. Jämförelser av duplicerade genuttrycksmönster över ett brett spektrum av vävnader med ortologa gener från en pre-Ss4R-outgrupp visar oväntat mycket fler fall av neofunktionalisering än subfunktionalisering. Överraskande upptäcker vi att gener som bibehölls som dubbletter efter den teleostspecifika helgenomduplikationen för 320 miljoner år sedan inte var mer benägna att behållas efter Ss4R, och att duplikatretentionen inte påverkades i stor utsträckning av naturen av de förutsagda proteininteraktionerna av genprodukterna. Slutligen visar vi att den atlantiska laxenheten kan fungera som en referenssekvens för studien av andra laxfiskar för en rad olika syften.

Huvudsaklig

Den 22 000 år gamla grottmålningen av en atlantisk lax ( Salmo salar ) nära floden Vézère i Frankrike är en påminnelse om vår fascination för och beroende av atlantisk lax under hela människans historia. Atlantisk lax tillhör laxfamiljen som omfattar 11 släkter, med minst 70 arter som uppvisar ett brett spektrum av ekologiska anpassningar och använder en mångfald av livshistoriska strategier för marin och sötvatten 1 . Salmonider innehar viktiga positioner som socialt ikoniska arter och ekonomiska resurser inom vattenbruk, vilda fiske och fritidsfiske. Dessutom fungerar de som viktiga indikatorarter för hälsa i Nordatlantiska och Stillahavets kust- och flodekosystem.

Alla teleostar delar minst tre omgångar med helgenomduplikation (WGD), 1R och 2R innan avvikelsen av lamprey från de käftade ryggradsdjur 2, och en tredje teleost-specifik WGD (Ts3R) vid basen för teleostema ~ 320 miljoner år sedan (Mya) 3, 4, 5 . Mycket lite är känt om mekanismerna för genomisk och kromosomal omorganisation efter WGD i ryggradsdjur eftersom 1R, 2R och Ts3R inträffade så länge sedan att få tydliga signaturer av omorganisationer efter WGD kvarstår. Däremot inträffade en fjärde WGD (den Ss4R laxidspecifika autotetraploidiseringshändelsen) i den gemensamma förfäder till laxfiskar ~ 80 Mya efter deras avvikelse från Esociformes ~ 125 Mya 6, 7, 8 (fig 1), och den fortsatta närvaron av multivalent parning vid meiose och bevis på tetrasomisk arv hos laxfiskarter tyder på att diploidi ännu inte är helt återupprättat 6, 9, 10 . Salmonider verkar således ge en enastående möjlighet att studera ryggradsgenomutveckling efter en autotetraploid WGD 11, 12 under en tidsperiod som är tillräckligt lång för att avslöja långsiktiga evolutionära mönster, men tillräckligt kort för att ge en högupplöst bild av processen. Dessutom ger de en utmärkt miljö för kontekstualisering av genomutveckling med en dramatisk strålning efter WGD-arter och komplicerade anpassningar till en hel rad livshistoriska regimer.

Image

Divergensåldrar för laxfiskar tas från ref. 8 och äldre avviker från ref. 7. Parahucho ingår inte i figuren på grund av osäkerhet om dess fylogenetiska position. Åldrarna representerar inte de exakta poänguppskattningarna från respektive studier. Gula och röda cirklar representerar den teleostspecifika helgenomduplikationen (Ts3R) respektive laxidspecifik helgenomduplikation (Ss4R).

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Här presenterar vi en högkvalitativ referensgenomenhet av atlantisk lax, och använder den för att beskriva huvudmönster som karakteriserar utvecklingen av laxidgenom efter Ss4R genom de senaste 80 miljoner åren (Myr). Våra resultat utmanar det nyligen påstående att omfördelning av laxfiskar har varit en gradvis process som inte är kopplad till betydande genomarrangemang 13 . De utmanar också aktuella åsikter om den relativa vikten av sub- och neofunktionalisering i ryggradsgenom (granskad i ref. 14), och vikten av dosbalans som en gent duplikatretentionmekanism 15 .

Genomkaraktärisering

Genommontering av atlantisk lax (GenBank: GCA_000233375.4) ger upp till 2, 97 gigabaser (Gb) med en ctgN50 = 57, 6 kb, vilket överensstämmer med genomstorleksuppskattningarna 16 . Kopplingskartläggning användes för att placera och orientera 9 447 ställningar (scfN50 = 2, 97 megabaser (Mb)), representerande 2, 24 Gb, i 29 enkla kromosomsekvenser (kompletterande tabell 4). De flesta ställningar som inte är förankrade till kromosomer består av upprepade sekvenser. 58–60% repetitionsinnehåll av atlantisk lax är bland de högsta som finns i ryggradsdjur 17 . Den enskilt största klassen transponerbara element är familjen Tc1- mariner , som representerar 12, 89% av genomet (avsnitt 3 om kompletterande information). Tc1-marinertransponeringar tenderar att förekomma i centromera regioner (Fig. 2, spår c), som rapporterats i andra arter 18 .

Image

Homeologa regioner i det atlantiska laxgenomet uppdelade sig i 98 kollinära block längs de 29 europeiska atlantiska laxkromosomerna. Röda rektanglar representerar sekvensblock utan identifierbara duplicerade regioner någon annanstans i genomet. a, Detta spår visar gruppering av laxsekvens i regioner; röd = hög (> 95% sekvenslikhet), orange = förhöjd (90–95% sekvenslikhet), grön = låg (~ 87% sekvenslikhet), gul = telomerregioner (10 Mb) kännetecknad av starkt förhöjd manlig rekombination (se se ref. 10). b, Detta spår visar genomisk likhet (i intervaller på 1 Mb) mellan duplicerade regioner (röd = hög, gul = medium, grön = låg sekvenslikhet). c, Detta spår visar frekvensen av Tc1- mariner transposonelement i det atlantiska laxgenomet.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Annotering av genstrukturer med användning av RNA-sekvensering (RNA-sekv) och uttryckta sekvenstaggar (EST) identifierade 46 588 gener klassificerade som icke-upprepade associerade loci med sekvensliknande stöd från PFAM-databasen och / eller sebrafisk- och stickleback-kommentarer (kompletterande tabell 11) . Funktionell annotation identifierade en slutlig uppsättning av 37 206 proteinkodande genloci med hög konfidens som har tilldelats en förmodad funktionell annotation baserad på homologi inom SwissProt-databasen. Nittifem procent av de 498.245 offentliga EST: erna och 98, 3% av de identifierade loci kartlades till de 29 kromosomsekvenserna, vilket indikerar en nästan fullständig representation av det proteinkodande genomet (Kompletterande informationsavsnitt 1.5).

Post-Ss4R rediploidiseringsegenskaper

Återlämnandet av ett duplicerat genom från tetrasomiskt till disomiskt arv förlitar sig på hindringen av kvadrival parning under meiotisk celldelning. Stora kromosomarrangemang genom kromosomfusioner, fissioner, raderingar eller inversioner stör kraftigt möjligheten för homeolog parning (parningen av homeologduplikat som härrör från en WGD) 19, 20 . Som omfattande kollinära block som inkluderar telomeren för åtminstone ett av kromosomparen är en diagnostik för aktuell eller nyligen multivalent parning på grund av sekvenshomogenisering (granskad i ref. 21), förutspådde vi att det skulle finnas ett omvänt samband mellan homeolog sekvenslikhet och kromosomarrangemang i de duplicerade blocken.

För att testa denna förutsägelse, identifierade och analyserade vi 98 homeologa (duplicerade) block med hög kollinearitet genom att anpassa kromosomsekvenser från atlantiska lakor mot varandra (avsnitt 2 om kompletterande information). De 98 blocken (196 regioner) står för 2, 11 Gb (94, 4%) av kromosomförankrad sekvens (fig. 2, kompletterande tabell 6). En stor del av homologa block, som representerade ungefär 573 Mb (25, 6% av den kromosompositionerade sekvensen), hade en sekvenslikhet> 90%. Dessa regioner samlades i sju par kromosomarmar (2p – 5q, 2q – 12qa, 3q – 6p, 4p – 8q, 7q – 17qb, 11qa – 26, 16qb – 17qa, och till viss del 9qc – 20qb och 5p – 9qb (Fig. 2), och kännetecknas alla av stora kollinära block innefattande telomeren inom minst ett av kromosompar. Tidigare studier av laxfiskar har hävdat att minst en metacentrisk kromosom måste vara involverad för att tillhandahålla den stabilitet som krävs för bildandet av multivalenter och homeolog parning 22 . Våra resultat för regionerna 11qa – 26 och 16qb – 17qa tyder på att detta inte är en absolut nödvändighet. Notera att ökat läsinställningsdjup och kortare ställningar var karakteristiskt för regioner som översteg 95% likhet, vilket representerade 210 Mb (9, 4% av den kromosompositionerade sekvensen), vilket tyder på sammansättningens kollaps (fig. 2, avsnitt 1.5 om kompletterande information).

Utan undantag visade duplicerade regioner med omarrangemang vid telomerer i form av inversioner, translokationer eller större raderingar en sekvenslikhet på ~ 87%. Denna tydliga överensstämmelse mellan graden av intra-block-sekvenslikhet och block som förutspås fortfarande delta i tetrasomisk arv (eller nyligen har gjort det) antyder att upp till 25% av laxgenomet upplevde försenad rediploidisering efter den initiala stora kromosomarrangemangen, och att så mycket som 10% av genomet kan fortfarande behålla kvarvarande tetrasomi (kompletterande tabell 7). De stora och mycket kollinära blocken med delad synteny mellan atlantisk lax och regnbågsöring (Utvidgad data fig. 1) innebär att dessa omarrangemang måste ha ägt rum innan delningen av de två linjerna. Detta stöds också av kombinerade genomkartläggningar och karyotypningsundersökningar i andra medlemmar av Salmoninae-underfamiljen, vilket dokumenterar bevarande av stora block som omfattar hela kromosomarmar 22 .

För att granska detta ytterligare analyserade vi en uppsättning av 2 487 genträd från ortologa genuppsättningar som innehåller förmodade homeologa par för både atlantisk lax och regnbåge ( Oncorhynchus mykiss ) (Kompletterande informationsavsnitt 5). Eftersom denna analys krävde kalibrering mot en utgrupp inkluderade vi endast homeologa par med en ortolog i den norra gäddan ( Esox lucius ), en medlem av den närmaste besläktade diploida systergruppen till laxfiskar 23 . Våra resultat antyder ~ 100–80 Mya som en nedre gräns för Ss4R och att Salmo – Oncorhynchus divergens inträffade ~ 21 Mya (Fig. 3b; Utökad data Fig. 2c och Kompletterande information avsnitt 6), i överensstämmelse med nyligen uppskattade åldrar 8, 13 Intressant nog visade analys av asymmetri vid kodning av sekvensutveckling mellan homeologer att en stor del av sekvensdivergensen inträffade sedan Salmo – Oncorhynchus delades, vilket tyder på en betydande temporär frikoppling mellan Ss4R-händelsen och sekvensdivergensen av Ss4R-duplikaten (Kompletterande informationsavsnitt 6) . Dessutom antyder våra molekylära dateringsresultat att majoriteten av Ss4R-duplikaten återvände till disomisk arv i en gemensam förfader till alla laxfiskar före ~ 60 Mya (fig. 3c). Resultaten från genträdanalysen överensstämmer således med data om homolog sekvenslikhet (Utvidgad data fig. 2b), vilket tyder starkt på att stora genomiska omorganisationer har varit instrument för rediploidiseringsprocessen efter Ss4R. Våra fynd utmanar således en av de huvudsakliga slutsatserna från den nyligen sekvensbestämda regnbåge öringgenomet, vilket antydde att rediploidisering hos laxfiskar har varit en gradvis process som inte är kopplad till betydande omorganiseringar av genom 13 .

Image

a, Fig. 3a visar en signifikant och pågående expansion av transponerbara element från Tc1- mariner- superfamiljen med stora toppar i genomsnitt 87%, 93% och 98% likhet mellan familjemedlemmar. Färgerna motsvarar samma färger som i lådens plot i Utvidgade data Fig. 5. b, Åldersberäkningar av tiden från homeologdivergens till Salmo – Oncorhynchus divergens för varje enskild homeolog region. Endast kromosomregioner med> 10 genträd inkluderades. c, En trestegs hypotetisk modell för omplacering efter Ss4R (bredd av modellfack reflekterar inte den faktiska tidsskalan). Den gröna cirkeln indikerar början på laxidstrålningen.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Med tanke på möjliga mekanismer som ligger till grund för dessa stora genomiska omorganisationer antyder fördelningen av stora transposonfamiljer i det atlantiska laxgenomet en transposerbar elementutvidgning i en förfäderlaxid före kromosomfusionerna som inträffade i den atlantiska laxstammen (fig. 2, spår c). Avvikelsen från 85% i sekvensen bland ett stort antal transposonfamiljmedlemmar är jämförbar med den nedre gränsen för homeologblocklikhet (~ 87%). Antagande av jämförbar neutral klockliknande sekvensdivergens, är denna korrespondens i överensstämmelse med en skur av upprepade utvidgningar som sammanfaller med initieringen av rediploidisering efter Ss4R (fig. 3a och utvidgad data, fig. 2b och kompletterande informationsavsnitt 6.2). Eftersom storskalig expansion och förflyttning av transponerbara element är kända för att öka under genomisk stress 24, kan detta antyda att Ss4R orsakade exponering av transponerbara element genom att kompromissa regleringsprocesser som är ansvariga för transposonpoliseringen. Denna utvidgning kan i sin tur ha varit en viktig bestämmande faktor för att driva genomet mot ett diploid tillstånd genom förbättrad divergens i homologsekvensen och stora kromosomarrangemang på grund av rekombinering av ektopiskt transponerbart element och kromosombrott som orsakar icke-homolog slutförening 25 (fig. 3c).

Duplicerad retention - mönster och mekanismer

För att bedöma de evolutionsövergångar för duplicerade gener i laxgenomet analyserade vi mönster av Ss4R-duplikatretention och funktionell divergens av proteinkodande gener inom de 98 homologa blocken. Med tanke på att vi hittar väldigt lite bevis för genförlust genom fraktionering 26, och att vi i 56% av de 9 162 singletonerna kunde identifiera ett pseudogeniserat homologgenfragment i en förväntad position (Kompletterande informationsavsnitt 4 och kompletterande tabell 11), pseudogenisering visas att vara den dominerande mekanismen som ligger bakom Ss4R-duplikatförlusten.

För att kontrastera Ss4R med 240 Myr äldre Ts3R-duplikatretentionmönster, analyserade vi duplicerade retentionsmönster i teleost-genfamiljeträd (ref. 27; Kompletterande information avsnitt 8). Detta avslöjade att 20% av Ts3R och 55% av Ss4R-duplikaten behålls som två funktionella kopior i atlantisk lax. Som jämförelse har 12–24% av de duplicerade gener som härrör från Ts3R-händelsen behållits i andra befintliga teleostfisklinjer (granskad i ref. 28), och retentionen 75 Myr post-Ts3R har uppskattats ha varit cirka 40% 3, 29 Med tanke på osäkerheten som är knuten till sådana uppskattningar är den temporära retentionsprofilen efter Ss4R för atlantisk lax utan tvekan ganska lik den för andra teleostar efter Ts3R, vilket indikerar att mekanismer som är ansvariga för duplikatretention hos atlantisk lax kan vara generiska.

Överraskande nog hade inte Atlantiska laxgener som bibehölls som dubbletter efter Ts3R-händelsen bibehållits efter Ss4R (Utvidgad data Fig. 3; Kompletterande informationsavsnitt 8). De övervägande oberoende sannolikheterna för retention antyder ett komplext samspel mellan processer, olika evolutionära drivkrafter för duplikatretention eller en till stor del neutral och stokastisk icke-funktionell process efter Ts3R- och Ss4R-händelserna. Intressant sett observerade vi förbättrad retention av icke-WGD-genduplikat (äldre eller yngre än Ss4R-händelsen) när WGD (både Ts3R och Ss4R) duplikater också hade bibehållits ( P <0, 001; Kompletterande informationsavsnitt 8).

Två huvudmekanismer genom vilka ett par dubbletter kan undkomma ödet för icke-funktionalisering är subfunktionalisering (partitionering av förfädernas genfunktioner) 30 och neofunktionalisering (tilldela en ny funktion till en av duplikaten) 31 . För att bedöma den relativa vikten av dessa två mekanismer analyserade vi genuttrycksdivergens av Ss4R-duplikat över 15 vävnader (Utvidgad data Fig. 4a, b; Kompletterande informationsavsnitt 7). Fyrtiofem procent (3 991/8 954) av väl definierade uttryckta Ss4R-par visade tecken på divergerat uttryck genom att vara belägna i olika samuttryckskluster (fig. 4a). Avvikna homeologer tenderade att tillhöra nära besläktade men fortfarande olika samuttryckskluster (fig. 4a och utvidgade data, fig. 4d).

Image

a, Circos plottar distributionen av homeologa genpar och deras tilldelning till 11 samuttryckskluster baserade på 15 olika vävnader. Linjer ansluter Ss4R-par som tillhör olika samuttryckskluster. För visualiseringsändamål sorterade vi Ss4R-paren beroende på typen av samuttrycksdivergens. Röda linjer betyder signifikanta omamplingstest ( P <0, 05) för anrikning av homeologdivergens mellan två specifika samuttryckskluster. b, Värmekarta av 2 272 tripletter (två laxhomologer och en gäddaortolog), där en av de atlantiska laxhomologerna har divergerat i genuttrycksreglering.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Även om dessa resultat antyder att funktionell divergens är vanligt bland Ss4R-duplikater, är information om förfädernas tillstånd avgörande för klassificeringen av denna divergens i sub- och neofunktionalisering. Vi använde därför jämförbara uttrycksdata över 13 vanliga vävnader från diploid norra gädda 23 som en fullmakt för förfädernas tillstånd av Ss4R-duplikat. Vi identifierade 8 102 ortologa gentripletter (det vill säga två Ss4R-kopior och deras förmodade gäddaortolog) och i 42% av tripletterna visade båda Ss4R-duplikaten en bevarad samuttrycksprofil med gäddaortologen (Pearson korrelation> 0, 6, P <0, 03). Detta indikerar starkt renande selektionstryck på genreglering över mer än 100 Myr och lägger till trovärdighet för användningen av Northern Pike för att bedöma förfädernas genreglering. I 28% av tripletterna hade ett Ss4R-duplikat ett konserverat samuttrycksmönster med gädda och det andra tillhörde ett annat samuttryckskluster (Fig. 4b), vilket tyder på reglering av neofunktionalisering.

Även om vi observerade fall av förmodad pseudogenisering i Ss4R-duplikat som visade en låg korrelation i uttrycksreglering i kombination med stor kodningsföljdslängdskillnad, hade de flesta Ss4R-duplikat liknande längder oberoende av deras uttryckslikhet (Extended Data Fig. 4e), vilket antyder att neutral utveckling kan förklarar bara marginellt denna lagstiftningsavvikelse.

Vi identifierade 1 084 tripletter där laxduplikaten tillhörde olika uttryckskluster och hade uttrycksprofiler signifikant annorlunda från gädda (Pearson korrelation <0, 55, P > 0, 05), vilket pekade på möjlig subfunktionalisering. I denna grupp fann vi, något överraskande, bara 23 tydliga exempel på subfunktionalisering där summan av uttrycksmönstren för laxhomeologer korrelerade signifikant med antaget förfäder. Denna klusterbaserade analys försummar emellertid subtila subfunktionaliseringsfall inom kluster, liksom de som involverar förvärv av nya funktioner efter subfunktionalisering. För att redogöra för detta använde vi en "on-off" klassificeringsmetod (utvidgad data fig. 4f och tilläggsinformation avsnitt 7.2) som ökade uppskattningen till 167 fall; en siffra som fortfarande är dvärgad av det uppskattade antalet fall av neofunktionalisering (3.028) (Kompletterande information avsnitt 7.2).

Rening av val på doskänsliga interaktioner med andra duplicerade gener anses vara en viktig mekanism för mellanliggande duplikatretention efter WGDs 15, innan neo-, sub- och nonfunctionalization bestämmer duplikaternas slutliga öde 32 . I linje med detta observerade vi en överrepresentation av GO-termer associerade med signaltransduktion, proteinkomplexbildning och transkription bland de duplicerade generna med bevarad reglering (Kompletterande information avsnitt 7.3 och kompletterande tabell 16). Eftersom en mångfald GO-termer som inte fokuserar på dosbalanshypotesen (kompletterande tabell 16) också är överrepresenterade bland Ss4R-duplikat med bevarad reglering, är det inte motiverat att dra slutsatsen att dosbalansen är den enda mellanliggande retentionsmekanismen. Vidare antyder analyser av retentionsmönster efter Ts3R och Ss4R oberoende retentionssannolikhet och en mycket svag effekt av förmånsbestämd co-retention av kända proteininteraktionspartners ( P <0, 001) för både Ts3R- och Ss4R-duplikationshändelser (utvidgad data fig. 3 och kompletterande Informationsavsnitt 8).

Sammantaget visar> 60% av homeologparna signaturer av vävnadsberoende regleringsdivergens vid hela genen eller exon-nivå (Kompletterande information avsnitt 7.2). Övervägande av fall där endast en kopia har ändrat sin reglering jämfört med det antagna förfäderna tillståndet indikerar att den regulatoriska subfunktionaliseringen inte har varit en dominerande duplikatretentionsmekanism efter Ss4R, såvida det inte följdes av efterföljande neofunktionalisering, vilket har föreslagits som en gemensam process 33 34, Men våra subfunktionaliseringsuppskattningar tillsammans med den höga frekvensen av tripletter där en laxhomeolog hade ett bevarat samuttrycksmönster med gädda medan dess duplikat inte gjorde det (fig. 4b), är inte i överensstämmelse med generaliteten i det senare scenariot.

Ett referensgenom för laxfiskar

Bevarande av synteny mellan laxfiskar 22, 35 antyder att information från ett högkvalitativt laxidgenom kan användas för att förbättra genomsekvenssammansättningar för andra laxfiskar. För att testa genomförbarheten av en sådan jämförande genomikmetod, använde vi den atlantiska laxenheten för att konstruera kromosomsekvenser för den icke-kromosomförankrade regnbågsöringsgenomsekvensen 13 . Vi kunde kartlägga 99, 5% av regnbågsöringstillverkningar> 100 kilobaser (kb) (totalt 1, 22 Gb) till kromosomsekvenserna i Atlantiska laxerna (avsnitt 1.5 om kompletterande information).

Med hjälp av kromosomsekvenser från Atlanten lax tillsammans med en tät kopplingskarta för regnbåge öring konstruerad från en 57K enkel nukleotid polymorfism (SNP) grupp, kunde vi förankra, orientera och sammanfatta 11.335 regnbåge öring scaffolds (scfN50 = 940 kb, från ref. 13 ) i 29 regnbåge-öringkromosomsekvenser (avsnitt 9 om kompletterande information). Detta gjordes genom att först använda regnbågsöringskopplingskartan för att bestämma den närmaste ordningen på 2.439 öringstillverkningar innehållande SNP, vilket vi tyckte vara tillräckligt för att bestämma konserverade block. Sedan använde vi jämförande information från atlantisk lax för att införliva byggnadsställningar utan SNP-information, och finjustera ordningen och orienteringen av alla 11.335 öringstillverkningar i kromosomsekvenser. Även om regnbågsöringskopplingen innehåller fler markörer än de flesta andra laxfiskar (till exempel ref. 22), skulle detta höga antal korrekt placerade ställningar inte kunna uppnås utan atlantisk laxinformation.

Inriktning av dessa regnbågeöringskromosomer (som representerar 1, 37 Gb i sekvens) med det atlantiska laxgenomet avslöjade bevarande av mycket stora synteniska block, i många fall motsvarande hela kromosomarmar i regnbågsöring (Utvidgad data Fig. 1). Denna analys stödjer tidigare resultat 35 som antyder bevarande av 50 synteniska regioner som representerar karyotypen av 50 akrocentriska kromosomer i den gemensamma förfäder till laxfisk 36 . Våra analysdokument att dessa synteniska regioner vanligtvis representerar block utan omarrangemang för 38 regioner och med endast en eller två inversioner eller translokationer bland de återstående delarna.

Implikationer

Bevarandet av stora kollinära block mellan Salmo och Oncorhynchus tyder starkt på att informationen om atomenet från laxen kommer att underlätta utnyttjandet av genomisk information i ett brett spektrum av ekologiska, evolutionära, bevarande- och produktionsbiologiska miljöer inom laxfiskar. Dessutom ger tillgången till en högkvalitativ sammansättning och anteckningar av det atlantiska laxgenomet nya insikter om ryggradsdjur efter WGD-utveckling som kan bidra till en mer grundlig förståelse av de underliggande mekanismerna och WGD: s långsiktiga betydelse för anpassning .

metoder

Datarapportering

Inga statistiska metoder användes för att förutbestämma provstorlek. Utredarna var inte blinda för tilldelning under experiment och utvärdering av resultatet.

Genom sekvensering och montering

DNA från en enda dubbla haploid kvinna från AquaGen-stammen, producerad genom mitotisk androgenes, tjänade som mallen för sekvensering med användning av Sanger och nästa generations sekvenseringsteknologier (kompletterande tabell 1). Olika sammansättningar genererades med användning av olika kombinationer av mjukvara och underuppsättningar av data (tilläggstabell 2). Grunden för den valda enheten genererades från Sanger (~ 4 ×) och Illumina (~ 202 ×) data samlade med användning av MaSuRCA (v2.0.3) monteringsanordningen 37 . Församlingen förenades och fylldes med luckor med information från preliminära församlingar (avsnitt 1.3 om kompletterande information). Genetisk länkinformation som beskriver 565 887 SNP användes för att både bekräfta och korrigera byggnadsställningar och, när det stöds av information från andra enheter, användes det för att sammanfoga ställningar inom kopplingsgrupper. Därefter användes kopplingsanalys med användning av CRIMAP 38 och en delmängd av SNP-sekvenstaggar (27 221) för att beställa, orientera och sammanfoga ställningar i 29 enkelkromosomsekvenser. Nomenklaturen för kromosomer från atlantisk lax är baserad på ref. 35.

Genanteckning

Genstrukturer bestämdes genom att kombinera data från fullängds cDNA-sekvenser 39, EST-databaser 39, 40, 41 och RNA-sekvensdata från 15 vävnader (kompletterande tabell 9). RNA-seq-avläsningar trimmades med användning av Trimmomatic (v0.32 (ref. 42)) och mappades till referensgenomsekvensen med användning av STAR (v2.3.1z12 (ref. 43)), och alla offentligt tillgängliga mRNA och EST kartlades med användning av GMAP 44 . Genstrukturer förutses med CUFFLINKS 45 . ORF-förutsägelser för öppen läsram genomfördes med hjälp av TransDecoder 46 . Genmodeller utan homologi matchar antingen PFAM, stickleback eller zebrafisk. Funktionell kommentering gjordes med Blast2GO 47 mot SwissProt-databasen. Transposerbara elementrelaterade ORF: er identifierades med BLAST-sökningar mot de kommenterade transposerbara elementsekvenserna och frågorna i de funktionella annotationsgennamnen för transposerbara elementrelaterade termer (det vill säga retrotransposon, transposon, transposabelt, transposas, omvänt transkriptas, gag, bpol). Förmodade uttryckta och tystade Ss4R-homologer identifierades med användning av en kombination av homologinsökningar med BLAST och GenomeThreader 48 som var inriktade på en priori definierade konserverade kollinära duplicerade regioner ( n = 98).

Upprepa biblioteksmetoder

Ett atlantiskt laxupprepningsbibliotek med 2 005 element samlades från sekvenser som tidigare rapporterats i laxfiskar 13, 49, 50 och resultatet från de novo repeteringsprogrammen LTRharvest 51, RepeatModeller 52 och REPET 53 . Med undantag av kuraterade upprepningar som tidigare rapporterats av Matveev och Okada 50 och de som hittades i RepBase-databasen 49, validerades alla preliminära sekvenser med BLASTn 54 för att säkerställa att de var närvarande på flera platser i genomet. LTRharvest-sekvenser filtrerades baserat på proceduren för upprepning av bibliotekets konstruktion som beskrivs i MAKER-dokumentationen 55 . Med användning av BLASTn, förklarades sekvenser från andra de novo- källor och regnbågens öringrepeteringsbibliotek som potentiellt chimaeriska om de inte genererade minst tre högpoängande segmentpar (HSP) som täckte minst 80% av deras längd i det atlantiska laxgenomet. Varje distinkt mycket repetitiv region inom sådana sekvenser extraherades och behölls medan andra delar kasserades. Alla bibliotek slogs samman och redundanta sekvenser avlägsnades baserat på riktlinjerna presenterade av Wicker et al . 56 och MAKER-dokumentationen. Sekvenser i det kombinerade biblioteket antecknades, och icke-transposerbara elementvärdgener avlägsnades baserat på deras likhet med välkarakteriserade sekvenser i annotationsdatabaser 49, 57, närvaron av strukturella motiv och manuell undersökning.

För att uppskatta den historiska aktiviteten för Tc1- mariner transponerbara element extraherades upp till 100 slumpmässigt utvalda genomiska kopior i full längd från var och en av 40 Tc1-marinerfamiljer med hjälp av MUSCLE 58 . Alla familjer bekräftades vara fylogenetiskt åtskilda från varandra och innehöll en stjärnliknande granne-sammanfogande trädtopologi som är karakteristisk för Tc1- marineraktivitet 59 . Fördelningen av parvis procent likhet, en proxy för tid, mellan familjemedlemmar användes för att analysera den temporära dynamiken i transponerbar elementaktivitet.

Identifiering av homeologa block i laxgenomet

Upprepade maskade kromosomsekvenser för atlantisk lax (se ovan) justerades mot varandra med användning av LASTZ 60 för att identifiera 98 homologa block som härrör från Ss4R (för detaljer se avsnitt 2 om kompletterande information). Sekvenslikhet mellan homeologa sekvenser bestämdes i intervaller på 1 Mb genom medelvärde av lokal procentandel av nukleotidsekvensidentitet med användning av högt poängsegmentpar (HSP) från LASTZ-anpassningar 60 och presenterades som en Circos-plot 61 i fig. 2.

Sekvensutvecklingsanalyser av laxhomeologer

Förmodade ortologssekvensuppsättningar sammanställdes med Bästa Reciprocal Blast (BRB) proteinmatchningar. För laxfiskarter tilldelades de två bästa BRB-träffarna förmodade ortologgrupper. Flera kodonsekvensinriktningar konstruerades med användning av MAFFT 62 och kvalitet trimmades med vägledning i ett iterativt ramverk där sekvenserna justerades om efter identifiering av dåligt anpassade kodoner.

Geneträd för maximal sannolikhet (ML) beräknades med R-paketet Phangorn 63 med användning av kodoninställningar, GTR + G + I-modellen och 100 bootstrap-replikat. Grenspecifika GTR + G + I-substitutionsgrader var uppskattade funktioner från R-paketets ape 64, medan grenspecifika synonyma (dS) och icke-synonyma (dN) substitutionsgrader uppskattades med icke-negativa minsta kvadraters regression i Phangorn R-paketet 63 med hjälp av parvisa dN- och dS-avståndsmatriser från kodeml 65 och ML-genträdtopologierna som input.

Filialspecifikt test för positivt urval genomfördes med ett sannolikhetsförhållande test på ML-sannolikhetsberäkningarna för sekvensutveckling under olika modeller i codeml. Den minsta sannolikhetsberäkningen från fyra omega-startvärden (0, 5, 1, 1, 5 och 2) användes i sannolikhetsförhållandestestet (LRT). Falska upptäcktsfrekvensjusteringar av p-värden utfördes med p.adjust-funktionen i R.

Genträd dating

BEAST 66 was used to calibrate gene trees using a HKY+G substitution model, uncorrelated lognormal clock, and yule tree prior. The BEAST analyses were exclusively based on codon alignments that produced a ML-gene tree topology containing two Ss4R homeologues in both Salmo and Oncorhynchus , and where rediploidization had occurred before the Salmo–Oncorhynchus divergence. No priors on tree topology were specified and a single secondary calibration of 127 Myr (confidence interval 12.5 Myr) on the most recent common ancestor of Salmoniformes + Esociformes was used 7, 8 . All Markov chain Monte Carlo (MCMC) analyses were run for 10 million generations with sampling every, 1000 generations. Tracer v1.6 (available from //beast.bio.ed.ac.uk/Tracer) was used to inspect effective sample sizes (ESS) of tree parameters. Fifty per cent consensus topologies were constructed based on 100 randomly sampled tree topologies from the last 1, 000 MCMC-samples. Age of Salmo–Oncorhynchus divergence was estimated as the median of two nodes per tree.

Transcriptome analysis

A gene was classified as 'expressed' if the FPKM value of at least one tissue was above 1.0, and values were transformed to log 2 (FPKM+1) values for consecutive analysis. Samples and genes were clustered using Pearson correlation and Ward's method in the R function hclust 67, and visualized as heatmaps using the R function heatmap.2 (gplots library). Genes were scaled individually in the heatmaps.

Clusters with a significant number of shared homeologue-pairs were identified by simulation (10, 000 randomizations). A salmon gene (or exon) was classified as conserved if the Pearson correlation to the pike orthologue was above 0.6 ( P = 0.03) across the 13 common tissues, and diverged if the correlation was below 0.55 ( P > 0.05). A salmon homeologue-pair was classified as neofunctionalized if at least one salmon gene was conserved and the two salmon genes were in different clusters, and as subfunctionalized if both salmon genes were diverged and in different clusters, but their summed expression was conserved.

Expression specificity was computed as one minus the sum, over all samples, of the gene's expression in that sample divided by the maximum expression in any sample. Significant difference in specificity between clusters was computed using the Wilcoxon test.

Duplicate retention

Existing gene families for all teleost species were downloaded from Ensembl Compara 79 (ref. 27). Genomes for Salmo salar , Esox lucius , and Oncorhynchus mykiss were added to these gene families or used to create new gene families with BLAST to determine homologous relationships ( e -value >1 e -10 and %id>50)). Multiple sequence alignments of extended gene families with Lepisosteus oculatus as an outgroup were produced using MAFFT 62 (command line option –auto) and gene trees were built with PhyML 3.4 (ref. 68) using the JTT+G substitution model. Using the NCBI teleost species tree, Softparsmap 69 was used to identify duplication and speciation event in trees. This resulted in 12, 388 gene families with a speciation root node, encompassing 26, 325 salmon genes.

The constructed gene trees were then assessed for duplicate retention for the Ts3R, Ss4R, small scale salmon specific duplications (SSD) following the Ss4R event, and duplications occurring between the Ts3R and Ss4R. Duplicate retention was counted by examining the conditional percentages of genes that were retained from the Ss4R following the Ts3R, and from the Ss4R to small-scale duplications on the salmon lineage. The duplication lineage for each gene was counted, ensuring that each lineage accounted for the retention or loss of a duplicate, with the expectation that each Ts3R duplication should give rise to two Ss4R, and every Ss4R should lead to two small scale duplications. Post3R–preSs4R SSDs also share an expectation of having resulted in two Ss4R duplications. Where nodes could be assigned as being either Ss4R or SSD, the chromosomal locations of the genes were used to differentiate between the ambiguous nodes. Such ambiguous nodes were determined to be SSDs if the duplicate salmon genes resided on the same chromosome; otherwise it was classified as being Ss4R. Since only a single Ss4R duplication occurred along a lineage, if two ambiguous nodes were found that could be classified as Ss4R along the same lineage, one was classified as being Ss4R and the rest were classified as being SSD, with the oldest duplication being the Ss4R, an assumption that did not affect the trends in the data. Although most gene tree topologies were consistent with the teleost species tree, some gene trees showed large deviations from the accepted species tree. These trees may have been influenced by phylogenetic error which could cause spurious duplication counts and cause an overestimation of the number of duplication events within a gene family. Conditional probabilities were then calculated to determine the fraction of retained gene duplicates following each of the WGDs, given the opportunity for retention.

To assess if duplicate retention was impacted by protein–protein interactions, known protein–protein interactions were downloaded from the STRING database 70 . BLAST against Danio rerio was performed and putative STRING interactions in salmon were determined. Only interactions labelled 'binding' were kept, which are putative physical protein–protein interactions based on various forms of evidence. Patterns of co-retention following Ts3R, Ss4R, and SSD were then examined among STRING binding partners using the phylogenetic trees described above with custom perl scripts.

Statistical tests of significance were performed to determine if duplication counts were significantly different from each other. The duplication process was represented by a binomial distribution where each duplication could have either been retained or not. A two-proportion pooled z -test was performed to calculate two-sided P values at the Bonferroni corrected α-level (0.001/7). To further explore if results were significant with a marginal effect level change or being overly influenced by large sample sizes, an odds ratio and relative risk analysis was performed for each group and two-sided P values were calculated. All tests showed extremely low P values indicating that the groups were significantly different from one another 71 . Effect sizes were considered as the fractional change in mean values.

All scripts used in this analysis are freely available on the Liberles Group website at Temple University (USA) at //liberles.cst.temple.edu/public/Salmon_Genome_Project/.

Use of salmon assembly to improve rainbow trout genome sequence

Salmon chromosome sequences were repeat masked using a salmon repeat database and RepeatMasker v4.0.3 (ref. 72) and aligned against rainbow trout scaffolds 13 using MegaBLAST 73 . Rainbow trout scaffolds mapping to multiple salmon chromosomes were broken when supported by information from a rainbow trout linkage map containing 31, 390 SNPs constructed in a family material of 2, 464 individuals using Lep-MAP 74 . The relative positions of trout scaffolds within the salmon genome were used, together with trout linkage maps, to position, orient and concatenate 11, 335 rainbow trout scaffolds into 29 single chromosome sequences (1.37 Gb). Nomenclature for rainbow trout chromosomes is based on ref. 35. Conserved syntenic blocks between rainbow trout and Atlantic salmon were determined by aligning chromosome sequences for the two species against each other using LASTZ 60 .

anslutningar

Primära anslutningar

NCBI-referenssekvens

  • GCA_000233375.4

Sequence Read Archive

  • PRJNA260929
  • PRJNA72713

Insättningar av data

Sequence information was deposited at GenBank under accession code GCA_000233375.4 and at the NCBI Sequence Read Archive (SRA): PRJNA72713 and PRJNA260929.

Utökad data

Utökade datasiffror

  1. 1.

    Atlantic salmon and rainbow trout comparative map.

  2. 2.

    Dating or Ss4R rediploidization.

  3. 3.

    Duplication count analysis and interacting partner co-retention.

  4. 4.

    Tissue gene expression regulation.

  5. 5.

    Historical activity of 40 Tc1- mariner transposable elements and their abundance in the Atlantic salmon genome.

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande information

    This file contains Supplementary Text and Data, Supplementary Tables 1-3, 5, 7-8, 10-17 and Supplementary References – see contents page for details.

Excel-filer

  1. 1.

    Kompletterande data

    This file contains Supplementary Table 4.

  2. 2.

    Kompletterande data

    This file contains Supplementary Table 6.

  3. 3.

    Kompletterande data

    This file contains Supplementary Table 9.

kommentarer

Genom att skicka en kommentar samtycker du till att följa våra villkor och gemenskapsriktlinjer. Om du finner något missbruk eller som inte överensstämmer med våra villkor eller riktlinjer ska du markera det som olämpligt.