En fysisk, genetisk och funktionell sekvenssamling av korngenomet | natur

En fysisk, genetisk och funktionell sekvenssamling av korngenomet | natur

Anonim

ämnen

  • Funktionell genomik
  • Växtgenetik

Abstrakt

Korn ( Hordeum vulgare L.) är bland världens tidigaste domesticerade och viktigaste grödor. Det är diploid med ett stort haploid genom på 5, 1 gigabaser (Gb). Här presenterar vi en integrerad och ordnad fysisk, genetisk och funktionell sekvensresurs som beskriver korngen-rymden i ett strukturerat helgenomförhållande. Vi utvecklade en fysisk karta på 4, 98 Gb, med mer än 3, 90 Gb förankrad till en högupplöst genetisk karta. Projicering av en djup hagelgevärsamling av hela genomet, kompletterande DNA och djupa RNA-sekvensdata på detta ramverk stöder 79 379 transkriptkluster, inklusive 26 159 gener med högt förtroende med homologstöd från andra växtgenom. Överflödiga alternativa skarvningar, för tidiga avslutande kodoner och nya transkriptionsaktiva regioner antyder att efter transkriptionell bearbetning utgör ett viktigt reglerande lager. Undersökningssekvenser från olika anslutningar avslöjar ett landskap med omfattande variation av en nukleotid. Våra data ger en plattform för både genomstödd forskning och möjliggör samtida grödor.

Huvudsaklig

Odlat korn, härrörande från dess vilda förfäder Hordeum vulgare ssp. spontaneum , är bland världens tidigaste tämjade grödearter 1 och representerar idag den fjärde rikligaste spannmålen i både skördad areal och tonnage (//faostat.fao.org). Cirka tre fjärdedelar av den globala produktionen används för djurfoder, 20% maltas för användning i alkoholhaltiga och alkoholfria drycker och 5% som en ingrediens i en mängd livsmedelsprodukter 2 . Korn är vida anpassat till olika miljöförhållanden och är mer spänningstolerant än dess nära vete 3 . Som ett resultat är korn fortfarande en viktig livsmedelskälla i fattigare länder 4, vilket bibehåller skörden i hårda och marginella miljöer. I mer utvecklade samhällen har det nyligen klassificerats som en riktig funktionell mat. Kornkorn är särskilt högt i löslig kostfiber, vilket avsevärt minskar risken för allvarliga mänskliga sjukdomar inklusive typ II-diabetes, hjärt-kärlsjukdomar och kolorektala cancer som drabbar hundratals miljoner människor över hela världen 5 . USA: s livsmedels- och läkemedelsförvaltning tillåter en människors hälsopåståendet för cellväggspolysackarider från kornkorn.

Som en diploid, inavel, tempererad gröda har korn traditionellt betraktats som en modell för växtgenetisk forskning. Stora samlingar av bakterieplasma som innehåller geografiskt varierande elitesorter, landraces och vilda anslutningar är lätt tillgängliga 6 och innehåller utan tvekan alleler som kan förbättra effekten av klimatförändringar och ytterligare förbättra kostfiber i spannmålen. Berikande dess breda naturliga mångfald har omfattande karakteriserade mutantkollektioner som innehåller all den morfologiska och utvecklingsvariationer som observerats i arten genererats, karakteriserats och noggrant bibehållits. Det största hinderet för utnyttjandet av dessa resurser i grund- och avelsvetenskap har varit frånvaron av en referensgenomsekvens, eller ett lämpligt möjliggörande alternativ. Att tillhandahålla någon av dessa har varit den främsta forskningsutmaningen för den globala kornsamhället.

Som svar på denna utmaning presenterar vi en ny modell för att leverera de genomresurser som behövs för att stärka korns position som en modell för Triticeae, stammen som innehåller bröd och durumvete, korn och råg. Vi introducerar korngenomrummet, som vi definierar som en integrerad, flerskiktad informationsresurs som ger tillgång till majoriteten av korngener i en mycket strukturerad fysisk och genetisk ram. I samband med jämförande sekvenser och transkriptomdata ger genutrymmet en ny molekylär och cellulär insikt i artens biologi, vilket tillhandahåller en plattform för att främja genupptäckt och genomstödet grödningsförbättring.

En sekvensanrikad fysisk kornkart

Vi konstruerade en genomomfattande fysisk karta över kornkultivaren (cv.) Morex med högt informationsinnehåll fingeravtryck 7 och kontigmontering 8 av 571.000 bakteriella artificiella kromosomkloner (BAC) kloner (∼ 14-faldig haploid genomstäckning) härrörande från sex oberoende BAC-bibliotek 9 . Efter automatiserad montering och manuell kurering innefattade den fysiska kartan 9 265 BAC-konturer med en uppskattad N50-kontigstorlek på 904 kilobaser och en kumulativ längd av 4, 98 Gb (Metoder, kompletterande anmärkning 2). Det representeras av en minimiläggningsväg (MTP) på 67 000 BAC-kloner. Med tanke på en genomstorlek på 5, 1 Gb 10 representeras mer än 95% av korngenomet på den fysiska kartan, vilket jämförs positivt med de 1 036 kontigterna som representerar 80% av 1 Gb-vete-kromosomen 3B 11 .

Vi förbättrade den fysiska kartan genom att integrera information om hagelgevärssekvensen från 5 341 geninnehållande 12, 13 och 937 slumpvis utvalda BAC-kloner (metoder, kompletterande anmärkningar 2 och 3, och kompletterande tabell 4) och 304, 523 BAC-slutföljd (BES) -par (BES) Kompletterande tabell 3). Dessa gav 1 136 megabaser (Mb) genomisk sekvens integrerad direkt i den fysiska kartan (kompletterande tabeller 3 och 4). Detta ramverk underlättade införlivandet av data från hagelgevärsekvensen med helgenom och integrationen av de fysiska och genetiska kartorna. Vi genererade data från hagelgevärsekvensen från genomiskt DNA från cv. 'Morex' genom kortläst Illumina GAIIx-teknik, med en kombination av 300 baspar (bp) parade ändar och 2, 5 kb parparbibliotek, till> 50-faldig haploid genomtäckning (kompletterande anmärkning 3.3). De novo- sammansättningen resulterade i sekvensförändringar på totalt 1, 9 Gb. På grund av den höga andelen repetitivt DNA kollapsade en väsentlig del av hagelgevärsdata från hela genom till relativt små konturer som kännetecknades av exceptionellt höga lästa djup. Totalt sett var 376 261 contigs större än 1 kb (N50 = 264 958 contigs, N50 längd = 1 425 bp). Av dessa kunde 112 989 (308 Mb) förankras direkt till den sekvensanrikade fysiska kartan genom sekvenshomologi.

Vi implementerade ett hierarkiskt tillvägagångssätt för att ytterligare förankra de fysiska och genetiska kartorna (Metoder, kompletterande anmärkning 4). Totalt 3 241 genetiskt kartlade genbaserade en-nukleotidvarianter (SNV) och 498 165 genetiska markörer för sekvensmärkning 14 tillät oss att använda sekvenshomologi för att tilldela 4556 sekvensanrikade fysiska kartkontig som sträcker sig över 3, 9 Gb till genetiska positioner längs varje kornkromosom. Ytterligare 1 881 kontakter tilldelades kromosomala fack genom sekvenshomologi till kromosomarmspecifika sekvensdatasatser 15 (kompletterande anmärkning 4.4). Följaktligen tilldelades 6.437 fysiska kartkonturer på totalt 4, 56 Gb (90% av genomet) till kromosomarmfack, varav majoriteten i linjär ordning. Icke-förankrade contigs var vanligtvis korta och saknade genetiskt informativa sekvenser som krävdes för positionsuppdrag.

I överensstämmelse med genomsekvenser av andra gräsarter 16 uppvisar de peri-centromera och centromera regionerna i kornkromosomer signifikant reducerad rekombinationsfrekvens, en funktion som komprometterar utnyttjandet av den genetiska mångfalden och påverkar genetiska studier och växtodling negativt. Cirka 1, 9 Gb eller 48% av den genetiskt förankrade fysiska kartan (3, 9 Gb) tilldelades dessa regioner (fig. 1 och kompletterande fig. 11).

Spår a ger de sju kornkromosomerna. Grön / grå färg visar överensstämmelsen med förankrat fingeravtryck (FPC) contigs med deras kromosomarmtilldelning baserat på kromosomarmspecifik läsningsvågsekvens (läs tilläggsinformation 4). För 1H var endast tilldelning av helkromosomsekvens tillgänglig. Spår b, fördelning av gener med hög förtroende längs den genetiska kartan; spår c, anslutningar kopplar genpositioner mellan genetiska och den integrerade fysiska kartan som ges i spår d . Position och fördelning av spår e klass I LTR-retroelement och spår f klass II DNA-transposoner anges. Spåra g, distribution och positionering av sekvenserade BAC: er.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Korngenomets repetitiva natur

Ett kännetecken för korngenomet är överflödet av repetitivt DNA 17 . Vi observerade att cirka 84% av genomet består av mobila element eller andra upprepade strukturer (kompletterande anmärkning 5). Majoriteten (76% i slumpmässiga BAC) av dessa består av retrotransposoner, varav 99, 6% är långa terminala repeterande (LTR) retrotransposoner. De icke-LTR-retrotransposonerna bidrar endast med 0, 31% och DNA-transposonerna 6, 3% av den slumpmässiga BAC-sekvensen. I fraktionen av genomet med en hög andel repetitiva element var LTR Gypsy retrotransposon superfamily 1, 5 gånger rikare än Copia superfamily, i motsats till iakttagelser i både Brachypodium 18 och ris 19 . Emellertid tappades genbärande BAC: er något av retrotransposoner, i överensstämmelse med Brachypodium 18 där unga Copia- retroelement företrädesvis finns i genrika, rekombinogena regioner från vilka inaktiva Gypsy- retroelement har förlorats genom LTR – LTR-rekombination. Sammantaget ser vi reducerat repetitivt DNA-innehåll inom terminal 10% av den fysiska kartan för varje kornkromosomarm (Fig. 1). Klass I och II-element visar icke-kvantitativ omvänd bildfördelning längs kornkromosomer (fig. 1), en funktion delad med andra gräsgenom 16, 20 och visad genom fluorescens in situ hybridisering (FISH) kartläggning 17 . Inte överraskande visar hagelgevärsaggregatet av helgenom ett lägre antal LTR-retrotransposoner (i genomsnitt 53%) än genbärande BAC. Att LTR-retrotransposoner är långa (∼ 10 kb), mycket repetitiva och ofta kapslade 21 stöder vårt antagande om att kortläsningar antingen kollapsade eller inte monterades. Korta isärsatsade element (SINE) 22, korta (80–600 bp) icke-autonoma retrotransposoner som är mycket upprepade i korn, visade ingen differentiell uteslutning från enheterna. Emellertid, miniatyr inverterade-upprepade transposerbara element (MITE), små icke-autonoma DNA-transposoner 23, var dock tvåfaldiga anrikade i helgenom-hagelgevärsenheterna jämfört med BES-läsningar eller slumpmässiga BAC, i överensstämmelse med genrikligheten hos enheterna och deras associering med gener 23 . Både MITE och SINE är 1, 5 till två gånger berikade i genbärande BAC, vilket kan indikera att SINE också är företrädesvis integrerade i genrika regioner, eller eftersom de är äldre än LTR retroelement, kan helt enkelt förbli synliga i och runt gener där retro insättningar har valts emot.

Transkriven del av korngenomet

Det transkriberade komplementet av korngenutrymmet antecknades genom att kartlägga 1, 67 miljarder RNA-seq-läsningar (167 Gb) erhållna från åtta stadier av kornutveckling såväl som 28.592 korn i full längd kDNA 24 till helgenome hagelgevärsenheten (Methods, Supplementary Anmärkningar 6, 7 och kompletterande tabeller 20–22). Exon-upptäckt och konsensusgenmodellering avslöjade 79 379 transkriptkluster, varav 75 258 (95%) var förankrade i helgenomens hagelgevärsaggregat (kompletterande anmärkningar 7.1.1 och 7.1.2). Baserat på en genfamiljeriktad jämförelse med genomerna av Sorghum , ris, Brachypodium och Arabidopsis , faller 26 159 av dessa transkriberade loci i kluster och har homologistöd till åtminstone ett referensgenom (kompletterande figur 16); de definierades som gener med högt förtroende. Jämförelse mot en datamängd av metaboliska gener i Arabidopsis thaliana 25 indikerade en detektionsgrad på 86%, vilket möjliggjorde att korngenuppsättningen uppskattades till cirka 30 400 gener. På grund av brist på homologi och saknad stöd från genfamiljekluster ansågs 53, 220 transkript loci som låg konfidens (tabell 1). Korngener med hög förtroende och låg konfidens uppvisade distinkta egenskaper: 75% av generna med hög konfidens hade en multi-exon-struktur jämfört med endast 27% av generna med låg konfidens (tabell 1). Genomsnittsstorleken för gener med högt förtroende var 3 013 bp jämfört med 972 bp för gener med låg förtroende. Totalt 14 481 gener med låg konfidens visade avlägsen homologi med växtproteiner i offentliga databaser (kompletterande anmärkningar 7.1.2, 7.1.4 och kompletterande fig. 18), identifierande av dem som potentiella genfragment kända för att befolka Triticeae-genomer med högt kopiaantal och som ofta är resultatet av transponerbar elementaktivitet 26 .

Full storlek bord

Totalt 15 719 gener med hög självförtroende kan direkt kopplas till den genetiskt förankrade fysiska kartan (kompletterande anmärkning 4). Ytterligare 3 743 integrerades genom att åberopa en bevarande av syntenimodellen (kompletterande anmärkning 4.5) och ytterligare 4 672 genom associering med kromosomarmens helgenomskottdata (kompletterande anmärkning 4.4 och kompletterande tabell 15). Det är viktigt att N50-längden för helgenoms hagelgevärsekvenser som innehöll gener med hög konfidens var 8 172 bp, vilket i allmänhet är tillräckligt för att inkludera hela den kodande sekvensen och 5 'och 3' otranslaterade regioner (UTR). Totalt var 24 154 gener med hög konfidens (92, 3%) associerade och placerade i det fysiska / genetiska ställningen, vilket representerar en gentäthet av fem gener per Mb. Proximala och distala ändar av kromosomer är mer genrika och innehåller i genomsnitt 13 gener per Mb (fig. 1).

I jämförelse med sekvensbestämda modellväxtgenom avslöjade genfamiljeanalys (kompletterande anmärkning 7.1.3) några genfamiljer som uppvisade kornspecifik expansion. Vi definierade funktionerna för medlemmar i dessa familjer med användning av genontologi (GO) och PFAM-proteinmotiv (kompletterande tabell 25). Genfamiljer med mycket överrepresenterade GO / PFAM-termer inkluderade gener som kodar (1, 3) -P-glukansyntaser, proteashämmare, sockerbindande proteiner och sockertransportörer. NB-ARC (en nukleotidbindande adapter delad av APAF-1, vissa R-genprodukter och CED-4 27 ) domänproteiner, kända för att vara involverade i försvarssvar, var också överrepresenterade, inklusive 191 NBS-LRR-gener. Dessa tenderade att klustera mot de distala regionerna av kornkromosomer (kompletterande fig. 17), inklusive en huvudgrupp på kornkromosom 1HS, samlokaliserande med MLA- pulverformig mögelresistensgenkluster 28 . Partisk allokering till rekombinationsrika regioner tillhandahåller den genomiska miljön för att generera sekvensdiversitet som krävs för att klara dynamiska patogenpopulationer 29, 30 . Det är anmärkningsvärt att de mycket överrepresenterade (1, 3) -P-glukansyntasgenerna också har varit inblandade i växter-patogeninteraktioner 31 .

Reglering av genuttryck

Djup RNA-sekvensdata (RNA-seq) gav insikt i den rumsliga och temporära regleringen av genuttryck (kompletterande anmärkning 7.2). Vi fann att 72–84% av generna med högt konfidens uttrycktes i alla spatiotemporala RNA-seq-prover (fig. 2a), något lägre än rapporterat för ris 32 där ∼ 95% av transkript hittades i mer än ett utvecklings- eller vävnadsprov . Ännu viktigare tycktes att 36–55% av korngener med högt konfidens verkade vara differentierade mellan prover (fig. 2b), vilket belyser den inneboende dynamiken i korngenuttryck.

a, korngenuttryck i olika rumsliga och temporära RNA-sekvensprover (kompletterande anmärkningar 6, 7). Siffror avser gener med högt förtroende. b, Dendrogram som visar besläktning av prover och färgkodad matris som visar antal signifikant uppreglerade gener med hög konfidens i parvisa jämförelser. Σ, totalt antal icke-redundanta gener med högt konfidensregler uppreglerade i jämförelse med alla andra prover. Höjd, komplett kopplingsklusteravstånd (log 2 (fragment per kilobas exon per miljon fragment kartlagda)); se kompletterande anmärkning 7.2.5.1. c, fördelning och överlappning av alternativt skarvade korntranskript mellan RNA-sekvensprover. d, Distribution och överlappning av alternativa skarvtranskript som uppfyller kriterierna för PTC + som detekterats i olika rumsliga och temporära RNA-sekvensprover (kompletterande anmärkning 7.4).

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Två anmärkningsvärda funktioner stöder vikten av posttranskriptionell bearbetning som ett centralt reglerande lager (kompletterande anmärkningar 7.3 och 7.4). Först observerade vi bevis för omfattande alternativ skarvning. Av de intronhaltiga korngenerna med högt konfidens hade 73% bevis på alternativ skarvning (55% av hela uppsättningen med hög konfidens). Den rumsliga och tidsmässiga fördelningen av alternativa skarvtranskript avvecklade signifikant från den allmänna förekomsten av transkript i de olika vävnaderna som analyserades (fig. 2c). Endast 17% av de alternativa skarvade transkripterna delades mellan alla prover, och 17–27% av de alternativa skarvade transkripten upptäcktes endast i enskilda prover, vilket indikerar uttalad alternativ skarvreglering. Vi hittade 2 466 för tidigt avslutade kodoninnehållande (PTC +) alternativa skarvtranskrypteringar (9, 4% av generna med hög konfidens) (fig. 2d och tabell 2), liknande procenten av nonsensmedierade förfall (NMD) -kontrollerade gener i ett brett sortens art 33, 34 . Tidigare termineringskodoner aktiverar NMD-vägen 35, vilket leder till snabb nedbrytning av PTC + -utskrifter och har associerats med transkriptionell reglering under sjukdom och stressrespons hos människa respektive Arabidopsis , 34, 36, 37, 38, 39 . Distributionen av PTC + -utskrifter var påfallande olika, både rumsligt och tillfälligt, med endast 7, 4% delade och mellan 31% och 40% exklusivt observerade i endast ett enda prov (fig. 2d). Gener som kodar för PTC + -innehållande transkript visar ett brett spektrum av GO-termer och PFAM-domäner och är vanligare i utvidgade genfamiljer. Dessa observationer stöder en central roll för alternativ skarvning / NMD-beroende sönderfall av PTC + -utskrifter som en mekanism som styr uttrycket av många olika korngener.

Full storlek bord

För det andra har de senaste rapporterna lyfts fram överflödet av nya transkriptionsaktiva regioner i ris som saknar homologi med proteinkodande gener eller öppna läsramar (ORF) 40 . I korn kan så många som 27, 009 företrädesvis gener med en exon lågförtroende klassificeras som förmodade nya transkriptionsaktiva regioner (kompletterande anmärkning 7.1.4). Vi undersökte deras potentiella betydelse genom att jämföra homologin för korns nya transkriptionsaktiva regioner med ris- och Brachypodium- genomen som representerar 50 respektive 30 miljoner år av evolutionär divergens 18 . Totalt 4 830 och 2 450 nya transkriptionellt aktiva regioner gav en homologi-matchning till Brachypodium respektive risgenom (skärningspunkten av 2 046; BLAST P- värde ≤ 10 −5 ), vilket indikerar en förmodad funktionell roll vid pre-mRNA-behandling eller annan RNA-reglerande processer 41, 42 .

Naturlig mångfald

Korn tämdes för ungefär 10 000 år sedan 1 . Omfattande genotypisk analys av olika kärnplasm har avslöjat att begränsad outcrossing (0-1, 8%) 43, i kombination med låg rekombination i pericentromera regioner, har resulterat i modern kimplasm som visar begränsad regional haplotypdiversitet 44 . Vi undersökte frekvensen och fördelningen av genomdiversitet genom undersökningssekvensering av fyra olika kornkultivarer ('Bowman', 'Barke', 'Igri' och 'Haruna Nijo') och en H. spontaneum- anslutning (Methods and Supplementary Note 8) till ett djup med 5–25-faldigt täckning och mappningssekvens läser mot kornkultivarnas "Morex" -genutrymme. Vi identifierade mer än 15 miljoner icke-redundanta varianter av enstaka nukleotider (SNV). H. spontaneum bidrog nästan två gånger mer SNV än var och en av kultivarerna (tilläggstabell 28). Upp till 6 miljoner SNV per anslutning kunde tilldelas kromosomarmar, inklusive upp till 350 000 associerade med exoner (kompletterande tabell 29). Cirka 50% av det exon-lokaliserade SNV integrerades i det genetiska / fysiska ramverket (fig. 3, kompletterande tabell 30 och kompletterande fig. 31), vilket tillhandahöll en plattform för att etablera verklig genombrett markörteknologi för högupplöst genetik och genom -assisterad avel.

Kornkromosomer indikeras som inre cirkel av grå staplar. Kopplingslinjer ger den genetiska / fysiska relationen i korngenomet. SNV-frekvensfördelning visas som fem färgade cirkulära histogram (skala, relativ överflöd av SNV: er inom anslutningen; överflöd, totalt antal SNV: er i icke-överlappande 50 kb-intervaller av sammankopplade "Morex" genomiska ställningar; intervall, noll till maximalt antal SNV: er per 50 kb-intervall). Valda mönster av SNV-frekvens indikerade med färgade pilspetsar (för ytterligare detaljer se tilläggsnot 8). Färgning av pilspetsar avser kultivar med avvikande SNV-frekvens för respektive region.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Vi observerade en minskning av SNV-frekvensen mot de centromera och peri-centromera regionerna i alla kornkromosomer, ett mönster som verkade mer uttalat i kornkultivarerna. Denna trend stöds av SNV identifierad i RNA-seq-data från sex ytterligare kultivarer som är mappade på den Morex genomiska enheten (kompletterande anmärkning 8.2). Vi tillskriver detta mönster av eroderad genetisk mångfald till låg rekombination i de pericentromera regionerna, vilket minskar effektiv befolkningsstorlek och följaktligen haplotypdiversitet. Medan H. spontaneum här kan tjäna som en behållare för genetisk mångfald, kan användningen av denna mångfald i sig äventyras av begränsad rekombination och den följd av oförmågan att störa snäva kopplingar mellan önskvärda och skadliga alleler. Överraskande nog hade den korta armen på kromosom 4H en signifikant lägre SNV-frekvens än alla andra kornkromosomer (kompletterande figur 33). Detta kan vara en konsekvens av en ytterligare minskning av rekombinationsfrekvensen på denna kromosom, som är genetiskt (men inte fysiskt) kortast. Minskad SNV-mångfald observerades också i regioner som vi tolkar som antingen konsekvenserna av den senaste avelshistoriken eller kan indikera landmärken för tämning (Fig. 3).

Diskussion

Storleken på Triticeae spannmålsgenom har på grund av deras mycket repetitiva DNA-sammansättning allvarligt komprometterat sammansättningen av hagelgevärsekvenser av helgenom och bildat en barriär mot genereringen av referensgenom av hög kvalitet. Vi kringgick dessa problem genom att integrera komplementära och heterogena sekvensbaserade genomiska och genetiska datamängder. Detta involverade koppling av en djup fysisk karta med genetiska kartor med hög täthet, överlagring av djup kortlästa helgenom-hagelgevärsenheter och kommentera den resulterande linjära, om än punkterade, genomiska sekvensen med djup täckande RNA-härledda data (full längd cDNA och RNA -SEKV). Detta gjorde det möjligt för oss att systematiskt avgränsa cirka 4 Gb (80%) av genomet, inklusive mer än 90% av de uttryckta generna. Det resulterande genomiska ramverket ger en detaljerad insikt i den fysiska fördelningen av gener och repetitivt DNA och hur dessa egenskaper relaterar till genetiska egenskaper såsom rekombinationsfrekvens, genuttryck och mönster för genetisk variation.

De centromera och peri-centromera regionerna i kornkromosomer innehåller ett stort antal funktionella gener som är låsta i rekombinationaliskt "inerta" genomiska regioner 45, 46 . Gen-rymdfördelningen belyser att dessa regioner expanderar till nästan 50% av den fysiska längden för enskilda kromosomer. Med tanke på väletablerade nivåer av bevarad synteni kommer detta förmodligen att vara ett allmänt inslag i relaterade gräsgenom som kommer att ha viktiga praktiska konsekvenser. Till exempel kan sällsynt rekombination fungera för att upprätthålla evolutionsutvecklade och samanpassade genkomplex. Det kommer säkert att begränsa frisättningen av den genetiska mångfalden som krävs för att avkoppla fördelaktigt från skadliga alleler, en potentiell nyckel till att förbättra den genetiska vinsten. Att förstå dessa effekter kommer att ha viktiga konsekvenser för förbättring av grödor. För genupptäckt kommer framåtriktade genetiska strategier baserade på rekombination inte att vara effektiva i dessa regioner. Medan alternativa metoder finns för vissa mål (till exempel genom att koppla omfördelningsteknik med samlingar av naturliga eller inducerade mutanta alleler), förblir det för de flesta egenskaper ett allvarligt hinder. Vissa löften kan ligga i att manipulera rekombinationsmönster genom antingen genetisk eller miljömässig intervention 47 . Ganska påfallande avslöjar våra uppgifter också att ett komplext lager av transkriptionell reglering måste beaktas när man försöker koppla korngener till funktioner. Förbindelser mellan post-transkriptionell reglering såsom alternativ skarvning och funktionella biologiska konsekvenser förblir begränsade till några specifika exempel 48, men omfattningen av våra observationer antyder att denna lista kommer att utvidgas avsevärt.

Sammanfattningsvis ger korngenutrymmet som rapporteras här en viktig referens för genetisk forskning och avel. Det representerar ett nav för att isolera egenskaper, förstå och utnyttja den naturliga genetiska mångfalden och undersöka den unika biologin och utvecklingen av en av världens första husdjursgrödor.

Metoder Sammanfattning

Metoder finns tillgängliga i onlineversionen av papperet.

Online-metoder

Bygg den fysiska kartan

BAC-kloner av sex bibliotek med kultivar "Morex" 9, 49 analyserades genom fingeravtryck med hög informationsinnehåll (HICF) 7, 9 . Totalt 571 000 redigerade profiler monterades med användning av FPC v9.2 8 (kompletterande tabell 2) (Sulston-poängtröskel på 10-90, tolerans = 5, tolererade Q-kloner = 10%). Nio iterativa automatiserade återmonteringar utfördes vid successivt reducerad stringens (Sulston-poäng på 10–85 till 10 −45 ). Ett sista steg för manuell sammanslagning av FPC-kontig utfördes vid lägre stringens (Sulston poängtröskel 10 −25 ) med tanke på genetisk förankringsinformation för markörer med ett genetiskt avstånd ≤ ± 5 cM. Detta producerade 9 265 FPcontigs (ungefär 14-faldig haploid genomtäckning) (kompletterande tabell 2).

Genomisk sekvensering

BAC-end sequencing (BES). BAC-insatsändarna sekvenserades med användning av Sanger-sekvensering (kompletterande anmärkning 2.1). Vektor- och kvalitetstrimning av sekvensspårfiler utfördes med hjälp av LUCY 50 (//www.jcvi.org/cms/research/software/). Kortläsningar (det vill säga <100 bp) togs bort. Organellära DNA- och kornpatogensekvenser filtrerades genom BLASTN-jämförelser med offentliga sekvensdatabaser (//www.ncbi.nlm.nih.gov/).

BAC-gevärsekvensering (BACseq). Frö-BAC på FPC-kartan sekvenserades för att avslöja gensekvensinformation för fysisk kartankring. 4 095 BAC-kloner togs i sekvens i pooler av 2 × 48 individuellt streckkodade BAC: er på Roche / 454 GS FLX eller FLX Titanium 51, 52 . Sekvenser samlades med hjälp av MIRA v3.2.0 (//www.chevreux.org/projects_mira.html) vid standardparametrar med funktioner "exakt", "454", "genom", "denovo". Ytterligare 2 183 genbärande BAC: er (kompletterande anmärkning 3.2) sekvenserades med användning av Illumina HiSeq 2000 i 91 kombinatoriska pooler 13 . Avkopplade läsningar monterades med VELVET 53 . Församlingsstatistik ges i tilläggstabell 4.

Höggenomgevärs-sekvensering. Illumina-parade ändar (PE; fragmentstorlek ∼ 350 bp) och par-par (MP; fragmentstorlek ∼ 2, 5 kb) bibliotek genererades från fragmenterat genomiskt DNA 54 från olika kornkultivarer ('Morex', 'Barke', 'Bowman', 'Igri') och ett S3-fröval av en vild korntillträde B1K-04-12 55 ( Hordeum vulgare ssp. Spontaneum ). Bibliotek sekvenserades av Illumina GAIIx och Hiseq 2000. Genomiskt DNA från kultivaren 'Haruna Nijo' (storleksintervall på 600-1000 bp) sekvensbestämdes med användning av Roche 454 GSFLX Titanium-kemi.

Helgenome hagelgevärsekvensenhet

PE- och MP-helgenombågsbibliotek kalibrerades för fragmentstorlekar genom att kartlägga par mot kloroplast-sekvensen för korn (NC_008590) med användning av BWA 56 . Sekvenser trimmades av kvalitet och de novo monterades med CLC Assembly Cell v3.2.2 (//www.clcbio.com/). Oberoende de novo- sammansättningar utfördes från data från kultivarerna "Morex", "Bowman" och "Barke".

Transkriptomsekvensering

Åtta vävnader av kultivar "Morex" (tre biologiska replikationer vardera) som öronmärker stadier i kornets livscykel från groddkorn till mognande caryopsis valdes för djup RNA-sekvensering (RNA-sekv). Växttillväxt, provtagning och sekvensering beskrivs i tilläggsinformation (kompletterande anmärkning 6). Ytterligare mRNA-sekvenseringsdata genererades från åtta ytterligare vårkornkultivarer inom en separat studie och användes här för sekvensdiversitetsanalys (kompletterande anmärkning 8.2).

Genetisk ram för den fysiska kartan

Den genetiska ramen för förankring av den fysiska kartan över korn byggdes på en karta för 57 med en nukleotidvariation (SNV) (kompletterande anmärkning 4.3) som gav den högsta markördensiteten (3 973) och upplösningen ( N = 360, RIL / F8) för en enskilda tvåparentala kartläggningspopulationer i korn. Ytterligare genetiska markörkartor med hög täthet (kompletterande anmärkning 4.3) jämfördes och anpassades på basis av delade markörer. Vidare använde vi genotyping-by-sequencing (GBS) 58 för att generera genetiska kartor med hög täthet innefattande 34 396 SNV och 21 384 SNV samt 241, 159 och 184, 796 dominerande (närvaro / frånvaro) taggar för de två fördubblade haploida populationerna Oregon Wolfe Barley 14 och Morex × Barke 45, respektive. Totalt användes 498 165 markörsekvensetiketter (kompletterande tabell 11).

Genetisk förankring

Genetisk integration av den fysiska kartan omfattade förfaranden för direkt och indirekt förankring.

Direkt förankring. Genetiska markörer tilldelades BAC-kloner / BAC-kontigen genom tre olika procedurer (kompletterande anmärkning 4.3 och kompletterande tabell 9). 2 032 PCR-baserade markörer från publicerade genetiska kartor 59, 60 PCR-screenade på anpassade multidimensionella (MD) DNA-pooler (//ampliconexpress.com/) erhållna från BAC-biblioteket HVVMRXALLeA 9 . En enda haploid genomekvivalent av dessa MD-pooler användes för multiplexerad screening av 42 302 korn EST-härledda unigener representerade på en anpassad 44K Agilent-mikroarray som tidigare beskrivits 61 . 27 231 kornunigener, innefattande 1 112 med en genetisk kartposition 45, 62, kunde tilldelas 12 313 BAC. 14 600 kloner från BAC-biblioteket HVVMRXALLhA screenades med 3 072 SNP-markörer på Illumina GoldenGate-analyser 45 vilket ledde till 1 967 markörer direkt tilldelade BACs 13 ; ungefär en tredjedel av denna information har inkluderats i det aktuella arbetet.

Indirekt förankring. Sekvensresurser som är förknippade med FPCmap-ramverket gav grunden för omfattande integrering av silikon av genetisk markörinformation (kompletterande anmärkning 4.3 och kompletterande tabell 11). Upprepa maskerade BES-sekvenser, sekvenser av förankrade markörer och 6 295 sekvenserade BAC: er möjliggjorde integrering av 307 Mb av "Morex" helgenom-hagelgevärkontig i FPC-kartan. Genetiska markörer och kornsekvenser placerades till denna referens genom strikt sekvenshomologassociation. Totalt 8, 170 (∼ 4, 6 Gb) BAC-konti fick information om sekvens och / eller förankring (Kompletterande anmärkning 4). 4, 556 FPC-kontig (Σ = 3, 9 Gb) förankrades till den genetiska ramen.

Analys av repetitivt DNA och upprepad maskering

Upprepad detektion och analys utfördes såsom tidigare beskrivits 18, 20 med undantag för ett uppdaterat repetitionsbibliotek kompletterat med de novo detekterade repetitiva element från korn (kompletterande anmärkning 5).

Genanteckning, funktionell kategorisering och differentiellt uttryck

Publiskt tillgängliga korn i full längd cDNA 24 och RNA-sekvensdata genererade i projektet (kompletterande anmärkning 6) användes för strukturell genkallning (kompletterande anmärkning 7). CDNA: er av full längd och RNA-sekvensdata förankrades för att upprepa maskerade helgenoms hagelgevärssekvenser med användning av GenomeThreader 63 respektive CuffLinks 64, varvid de senare tillhandahöll också information om alternativt skarvade transkript. Strukturella genanrop kombinerades och den längsta ORF för varje lokus användes som representativ för genfamiljeanalys (kompletterande anmärkning 7.1.2).

Genfamiljekluster genomfördes med användning av OrthoMCL (kompletterande anmärkning 7.1.3) genom att jämföra mot genomerna av Oryza sativa (RAP2), Sorghum bicolor , Brachypodium distachyon (v 1.4) och Arabidopsis thaliana (TAIR10-frisättning).

Analys av differentiell genuttryck (kompletterande anmärkning 7.2) utfördes på RNA-sekvensdata med CuffDiff 65 .

Analys av sekvensdiversitet

Genomomfattande SNV bedömdes genom mappning (BWA v0.5.9-r16 56 ) den ursprungliga sekvensen läser av sekvenserade genotyper till en de novo- sammansättning av kultivan "Morex". Sekvensläsningar från RNA-sekvenser kartlades mot "Morex" -samlingen. Detaljer finns i tilläggsnot 8.

anslutningar

Insättningar av data

Sekvensresurser som genererats eller sammanställts i denna studie har deponerats hos EMBL / ENA eller NCBI GenBank. En fullständig lista över sekvenser för råa dataanslutningsnummer samt URL: er för nedladdning av data, visualisering eller sökning finns i tilläggsnot 1 och tilläggstabell 1.

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande information

    Denna fil innehåller kompletterande text, kompletterande figurer 1-33, kompletterande tabeller 1-24 och 26-33 (se separat fil för kompletterande tabell 25) och kompletterande referenser - se innehållet för mer information.

Excel-filer

  1. 1.

    Kompletterande data

    Denna fil innehåller kompletterande tabell 25, som visar GO-termer och PFAM-domäner över- och underrepresenterade i kornutvidgade genkluster.

kommentarer

Genom att skicka en kommentar samtycker du till att följa våra villkor och gemenskapsriktlinjer. Om du finner något missbruk eller som inte överensstämmer med våra villkor eller riktlinjer ska du markera det som olämpligt.