Sorghum bicolor genomet och diversifieringen av gräs | natur

Sorghum bicolor genomet och diversifieringen av gräs | natur

Anonim

Abstrakt

Sorghum, ett afrikanskt gräs relaterat till sockerrör och majs, odlas för mat, foder, fiber och bränsle. Vi presenterar en inledande analys av 30 730-megabas Sorghum bicolor (L.) Moench-genomet, vilket placerar ∼ 98% av generna i deras kromosomala sammanhang med hjälp av helgenom-hagelgevärsekvens validerad med genetisk, fysisk och syntenisk information. Genetisk rekombination är till stor del begränsad till ungefär en tredjedel av sorghum genomet med genordning och densitet liknande den för ris. Retrotransposonansamling i rekombinant rekalkitant heterokromatin förklarar ∼ 75% större genomstorlek av sorghum jämfört med ris. Även om gen- och repetitiva DNA-distributioner har bevarats sedan paleopolyploidering för 70 miljoner år sedan, förlorade de flesta duplicerade genuppsättningar en medlem innan divergensen mellan sorghum och ris. Samordnad utveckling gör att ett duplicerat kromosomalt segment tycks vara bara några miljoner år gammalt. Cirka 24% av generna är grässpecifika och 7% är sorghumspecifika. Nya duplikationer av gen- och mikroRNA kan bidra till sorghums torktolerans.

Huvudsaklig

Saccharinae-växterna inkluderar några av de mest effektiva biomassackumulatorerna, som tillhandahåller mat och bränsle från stärkelse (sorghum) och socker (sorghum och Saccharum , sockerrör), och har potential att användas som cellulosa biobränslegrödor (sorghum, sockerrör, Miscanthus ). Av enskild vikt för Saccharinae-produktiviteten är C4-fotosyntes, innefattande biokemiska och morfologiska specialiseringar som ökar netto-kolassimilering vid höga temperaturer 1 . Trots deras vanliga fotosyntetiska strategi uppvisar Saccharinae mycket morfologiska och genomiska variationer (kompletterande figur 1).

Dess lilla genom (∼ 730 Mb) gör sorghum till en attraktiv modell för funktionell genomik av Saccharinae och andra C4-gräs. Ris, det första fullständigt sekvenserade spannmålsgenomet, är mer representativt för C3-fotosyntetiska gräs. Torktolerans gör sorghum särskilt viktigt i torra regioner som nordostliga Afrika (dess mångfaldscentrum) och USA: s södra slätter. Genetisk variation i uppdelningen av kol i sockerlager gentemot cellväggsmassa, och i perennialitet och tillhörande funktioner som tillsmältning och kvarhållning av stjälkreserv 2, gör sorghum till ett attraktivt system för att studera egenskaper som är viktiga i fleråriga cellulosa biomassa grödor. Den höga uppfödningsnivån gör det till ett attraktivt föreningens genetiksystem 3 Transgena tillvägagångssätt för förbättring av sorghum begränsas av högt genflöde till ogräsiga släktingar 4, vilket gör kunskap om dess inre genetiska potential ännu viktigare.

Rekonstruera ett upprepningsrikt genom från hagelgevärsekvenser

Föredragna tillvägagångssätt för sekvensering av hela genom är för närvarande att tillämpa hagelgevärsekvensering 5 antingen till en minimal "lutningsväg" för genomiska kloner eller på genomiskt DNA direkt. Det senare tillvägagångssättet, WGS-sekvensering av hela genomet, används i stor utsträckning för däggdjursgenom, eftersom den är snabb, relativt ekonomisk och reducerar kloningsförspänning. Emellertid har dess användbarhet ifrågasatts för repetitiva DNA-rika växtgenom 6 .

Trots ett upprepat innehåll på 61% samlades en genomkvalitet av hög kvalitet från homozygot sorghumgenotyp BTx623 med användning av WGS och innefattande följande: (1) ∼ 8, 5 genomekvivalenter av parade ändläsningar 7 från genomiska bibliotek som sträcker sig över ∼ 100 -faldigt antal insatsstorlekar (kompletterande tabell 1), vilket löser många repetitiva regioner; och (2) högkvalitativ läslängd i genomsnitt 723 bp, vilket underlättar montering. Jämförelse med 27 färdiga bakteriella artificiella kromosomer (BAC) visade att WGS-aggregatet var> 98, 46% fullständigt och exakt till <1-fel per 10 kb (kompletterande anmärkning 2.5).

Jämförelse med en högdensitetsgenetisk karta 8, en "fingeravtryckskontig" (FPC) -baserad fysisk karta 9 och rissekvensen 6 förbättrade sorghum WGS-aggregatet (kompletterande anmärkningar 1 och 2). Bland de 201 största byggnadsställningarna (som sträcker sig över 678, 9 Mb, 97, 3% av monteringen), 28 visade avvikelser med två eller flera av dessa bevislinjer (kompletterande anmärkning 2.6), ofta nära repetitiva element. Efter att ha brutit upp aggregatet vid punkterna av avvikelse har de resulterande 229 ställningarna ett N50 (antal ställningar som tillsammans täcker minst 50% av enheten) på 35 och L50 (längden på det kortaste ställningen bland de som tillsammans täcker 50% av enheten) monteringen) på 7, 0 Mb. Totalt 38 (2%) av 1 869 FPC-kontig 9 ansågs vara felaktiga, innehållande> 5 BAC-ändar som föll i olika sekvensställningar.

Totalt 127 ställningar som innehöll 625, 7 Mb (89, 7%) DNA och 1 476 FPC-konturer kunde tilldelas kromosomala platser och orienteras. Femton av tjugo kromosomändar avslutas i telomerupprepningar. De andra 102 byggnadsställningarna var i allmänhet mindre (53, 2 Mb, 7, 6%), med 85 (83%) innehållande mycket större än medelvärdet av Cen38 (ref. 10) centromerupprepning och med endast 374 förutsagda gener. Dessa 102 byggnadsställningar sammanfogade endast 193 FPC-konturer, förmodligen på grund av det större överflödet av upprepningar som är motvilliga till klonbaserad fysisk kartläggning 9 och kan utelämnas i BAC-för-BAC-tillvägagångssätt 11 .

Utveckling av genomstorlek och dess orsaker

Den ∼ 75% större mängden DNA i genomet av sorghum jämfört med ris är mestadels heterokromatin. Anpassning till genetiska 8 och cytologiska kartor 12 antyder att sorghum och ris har liknande mängder euchromatin (252 respektive 309 Mb; tilläggstabell 7), svarande för 97–98% av rekombinationen (1.025, 2 cM respektive 1 496, 5 cM) och 75, 4 –94, 2% av generna i respektive spannmål, med i stort sett kollinär genordning 9 . Däremot upptar sorghum heterochromatin minst 460 Mb (62%), mycket mer än i ris (63 Mb, 15%). ∼ 3 × genomutvidgningen i majs sedan dess divergens från sorghum 13 har varit mer spridd - rekombinogent DNA har vuxit 4, 5 × till 38 1 382 Mb, mycket mer än kan förklaras genom genomduplikation 14 .

Nettorstorleksutvidgningen av sorghum genom i förhållande till ris involverade till stor del långa terminala repeterande (LTR) retrotransposoner. Sorghomgenomet innehåller 55% retrotransposoner, mellanprodukt mellan det större majsgenomet (79%) och mindre risgenom (26%). Sorghum liknar närmare ris på att ha ett högre förhållande av zigenare- liknande till copia- liknande element (3, 7 till 1 och 4, 9 till 1) än majs (1, 6 till 1: kompletterande tabell 10).

Även om nyligen retroelementaktivitet distribueras i stor utsträckning över sorghum genomet, är omsättningen snabb (som i andra spannmål 15 ) med pericentromera element kvarstår längre. Unga LTR-retrotransposoninsättningar (<0, 01 miljoner år (Myr) sedan) verkar slumpmässigt fördelade längs kromosomer, vilket antyder att de företrädesvis elimineras från genrika regioner 9 men ackumuleras i genfattiga regioner (fig. 1; se även kompletterande anmärkning 3.1) . Insättningstider antyder en stor våg av retrotransposition <1 Myr sedan, efter en mindre våg för 1-2 Myr sedan (Kompletterande Fig. 2).

Områdesdiagram kvantifierar retrotransposoner (55%), gener (6% exoner, 8% introner), DNA-transposoner (7%) och centromera upprepningar (2%). Linjer mellan kromosomerna 3 och 9 förbinder kollinära duplicerade gener. Värmekartaspår detaljerar fördelningen av valda element. Siffrorna för alla sorghumkromosomer finns i kompletterande anmärkning 3. Cen38, sorghumspecifik centromera upprepning 10 ; RT: er, retrotransposoner (klass I); LTR-RT: er, långa terminala upprepade retrotransposoner; DNA-TE, DNA-transposoner (klass II).

Bild i full storlek

  • Ladda ner PowerPoint-bilden

CACTA-liknande element, de dominerande sorghum-DNA-transposonerna (4, 7% av genomet), tycks flytta gener och genfragment, liksom ris Pack-MULEs 16 och majshelitroner 17 . Många sorghum-CACTA-element är icke-autonoma deletionsderivat, i vilka transposongener har ersatts med icke-transposon-DNA, inklusive exoner från en eller flera cellulära gener såsom exemplifierats för familj G118 (fig. 2). Bland 13.775 identifierade CACTA-element (kompletterande anmärkning 3.4) kodar 200 inga transposonproteiner men innehåller minst ett cellulärt genfragment.

CACTA-familjen G118 har bara ett komplett och förmodligen autonomt "moder" -element. Bland 18 raderingsderivat är det bara de terminala 500–2 500 bp som bevaras, med 8 bärande genfragment internt. En relativt homogen undergrupp (106, 111 och 112) uppstod antagligen nyligen, medan andra derivat är unika. Platserna för träffarna på kända risproteiner indikeras som färgade lådor. Beskrivningarna av de främmande genfragmenten anges under rutorna. HP, hypotetiskt protein.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Totalt utgör DNA-transposoner 7, 5% av sorghumgenomet, mellanprodukt mellan majs (2, 7%) och ris (13, 7%; kompletterande tabell 10). Miniatyr omvända-upprepade transponerbara element, 1, 7% av genomet, är associerade med gener (fig. 1; se också kompletterande anmärkning 3) som i andra spannmål 6 . Helitroner, ∼ 0, 8% av genomet, saknar nästan alla helikas i sorghum som hos majs 17, men har färre genfragment i sorghum än majs (kompletterande anmärkning 3.5). Organell DNA-infogning har endast bidragit med 0, 085% till sorghum-kärngenomet, långt mindre än 0, 53% ris (kompletterande anmärkning 2.7).

Genkomplementet till sorghum

Bland 34 496 sorghen-genmodeller fann vi ∼ 27 640 bona fide-proteinkodande gener genom att kombinera homologibaserade och ab initio -genförutsägelsemetoder med uttryckta sekvenser från sorghum, majs och sockerrör (kompletterande anmärkning 4). Bevis för alternativ skarvning finns i 1 491 lokaler.

Ytterligare 5 197 genmodeller är vanligtvis kortare än bona fide-generna (ofta <150 aminosyror); har få exoner (ofta en) och ingen uttryckt sekvenstagg (EST) stöd (jämfört med 85% för bona fide gener); är mer avvikande från risgener; och finns ofta i stora familjer med "hypotetiska", "okarakteriserade" och / eller retroelement-associerade kommentarer, trots upprepad maskering (kompletterande anmärkning 4). En hög koncentration i pericentromera regioner där bona fide-gener är knappa (fig. 1) antyder att många av dessa modeller med låg konfidens är retroelement-härledda. Vi identifierade också 727 bearbetade pseudogener och 932 modeller innehållande domäner som endast är kända från transposoner.

Exonstorleksfördelningarna för orthologous sorghum och risgen överensstämmer nära, och intronposition och fas visar> 98% concordance (kompletterande anmärkning 5). Intronstorleken har bevarats mellan sorghum och ris, även om den har ökat i majs på grund av transpositioner 18 .

De flesta paraloger i sorghum dupliceras proximalt, inklusive 5 303 gener i 1 947 familjer med ≥2 gener (kompletterande anmärkning 4.3). Det längsta tandemgenet är 15 cytokrom P450-gener. Andra sorghumspecifika tandemgenutvidgningar inkluderar halo-syradehalogenasliknande hydrolaser (PF00702), FNIP-upprepningar (PF05725) och manliga sterilitetsproteiner (PF03015).

Vi bekräftade de genomiska platserna för 67 kända sorghummikroRNA (miRNA) och identifierade 82 ytterligare miRNA (kompletterande anmärkning 4.4). Fem kluster belägna inom 500 bp från varandra representerar förmodade polykistroniska miRNA, liknande de i Arabidopsis och Oryza . Naturliga antisense miRNA-föregångare (nat-miRNA) för familj miR444 (ref. 19) har identifierats i tre exemplar.

Jämförande geninventarier av angiospermer

Antalet och storleken på sorghum-genfamiljer liknar de hos Arabidopsis , ris och poppel (fig. 3 och kompletterande anmärkning 4.6). Totalt delades 9 503 (58%) sorghen-genfamiljer bland alla fyra arter och 15 225 (93%) med minst en annan art. Nästan 94% (25 875) av sorghumgen med hög förtroende har ortologer i ris, Arabidopsis och / eller poppel, och tillsammans definierar dessa genkomplement 11 502 förfäder angiospermgenfamiljer representerade i minst ett samtida gräs och rosid genom. Emellertid har 3 983 (24%) genfamiljer endast medlemmar i gräset sorghum och ris; 1.153 (7%) tycks vara unika för sorghum.

Antalet genfamiljer (kluster) och det totala antalet grupperade gener anges för varje art och artskärning.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Pfam-domäner som är överrepresenterade, underrepresenterade eller till och med frånvarande i sorghum relativt ris, poppel och arabidopsis kan avspegla biologiska särdrag som är specifika för Sorghum- linjen (kompletterande tabell 20). Domäner som är överrepresenterade i sorghum finns vanligtvis i de andra organismerna, ett anmärkningsvärt undantag är a-kafirin-domänen som står för de flesta frölagringsproteiner och motsvarar majs zeiner 20 men som saknas från ris.

Nukleotidbindande-plats-leucin-rik upprepning (NBS-LRR) som innehåller proteiner associerade med växtens immunsystem är bara ungefär hälften så frekventa i sorghum som i ris. En sökning med 12 NBS-domäner från publicerade ris, majs, vete och Arabidopsis- gensekvenser avslöjade 211 NBS-LRR-kodande gener i sorghum, 410 i ris och 149 i Arabidopsis 21 . Sorghum NBS-LRR-gener kodar mestadels CC-typen av N-terminala domäner. Endast två sorghumgener (Sb02g005860 och Sb02g036630) innehåller TIR-domänen och ingen av dem innehåller en NBS-domän. NBS-LRR-gener är vanligast på sorghumkromosom 5 (62) och dess rishomolog (kromosom 11, 106). Anrikning av NBS-LRR-gener i dessa motsvarande genomiska regioner antyder bevarande av R-genens placering, i motsats till ett förslag om att R-genrörelse kan vara fördelaktigt 22 .

Utveckling av distinkta vägar och processer

Utvecklingen av C4-fotosyntes i Sorghum- linjen involverade omdirigering av C3-föregångsgener samt rekrytering och funktionell divergens av både gamla och nyare genduplikater. Det enda sorghum C4-pyruvatortofosfatdikinaset ( ppdk ) och fosfoenolpyruvatkarboxylaskinasgenet ( ppck ) och dess två isoformer (producerat av hela genomduplikationen) har endast enstaka ortologer i ris. Ytterligare dubbletter bildade i majs efter sorghum- majsdelningen ( Zmppck 2 och Zmppck 3). Den C4 NADP-beroende malic enzymgenen ( me ) har en angränsande isoform men var och en motsvarar en annan majshomolog, vilket antyder tandemduplicering innan sorghum-majsdelningen. C4-malatdehydrogenas- genen ( mdh ) och dess isoform är också intilliggande, men delar 97% aminosyralikhet och motsvarar den enda kända Mdh- genen för majs , vilket antyder tandemduplicering i sorghum efter dess splittring med majs. Genen för ris och Mdh är en kopia, vilket tyder på duplikering och rekrytering till C4-vägen efter Panicoideae – Oryzoideae-divergensen (kompletterande anmärkning 9).

Sorghumsekvensen förstärker slutsatser som tidigare endast baserats på ris, om hur olika gräs- och dikotyledon-inventeringar relaterar till deras respektive typer av cellväggar 23, 24 . I gräs sammanflätas cellulosamikrofibriller belagda med blandad koppling (1 → 3), (1 → 4) -p-d-glukaner med glukuronoarabinoxylaner och ett omfattande komplex av fenylpropanoider 25 . Sorghumsekvensen bekräftar till stor del skillnader mellan dikotyledoner och ris i fördelningen av cellväggens biogenesgener (kompletterande anmärkning 10). Exempelvis har CesA / Csl-superfamiljen och kallos-syntas antingen divergerat för att bilda nya undergrupper eller funktionellt icke-väsentliga undergrupper förlorades selektivt, såsom CslB och CslG förlorade från gräserna, och CslF och CslH förlorade från arter med dikotyledonliknande cell väggar 26 . De tidigare ris unika CslF- och CslH- generna finns i sorghum. Arabidopsis innehåller en enda grupp F GT31-gen, medan sorghum och ris innehåller sex respektive tio.

Den karakteristiska anpassningen av sorghum till torka kan delvis vara relaterad till expansion av en miRNA och flera genfamiljer. Ris miRNA 169g, uppreglerad under torkstress 27, har fem sorghumhomologer (sbi-MIR169c, sbi-MIR169d, sbi-MIR169.p2, sbi-MIR169.p6 och sbi-MIR169.p7). Det beräknade förutsagda målet för underfamiljen sbi-MIR169 innefattar medlemmar av växtkärnfaktorn Y (NF-Y) B-transkriptionsfaktor, kopplad till förbättrad prestanda under torka av Arabidopsis och majs 28 . Cytokrom P450-domäninnehållande gener, ofta involverade i att rensa toxiner, såsom de som ackumuleras som svar på stress, finns i överflöd i sorghum med 326 mot 228 i ris. Expansins, enzymer som bryter vätebindningar och ansvarar för en mängd olika tillväxtresponser som kan kopplas till hållbarheten hos sorghum, förekommer i 82 kopior i sorghum mot 58 i ris och 40 vardera i Arabidopsis och poppel.

Duplicering och diversifiering av spannmål genom

Hela genomduplikationer i en gemensam förfader till spannmål återspeglas i sorghum och risgen 'kvartetter' (fig. 4). Totalt 19 929 (57, 8%) sorghen-genmodeller fanns i block kollinära med ris (kompletterande anmärkning 6). Efter den delade helgenomduplikationen behölls endast en kopia för 13.667 (68.6%) kollinära gener, varvid 13.526 (99%) var ortologa i ris-sorghum, vilket indikerar att de flesta genförluster föregår skattedivergens. Både sorghum och ris behöll båda kopiorna av 4 912 (14, 2%) gener, medan sorghum förlorade en kopia av 1 070 (3, 1%) och ris förlorade en kopia av 634 (1, 8%). Dessa mönster kommer sannolikt att vara förutsägbara för andra gräsgenom, eftersom de huvudsakliga gräslinjerna divergerade från en gemensam förfader ungefär samtidigt 29 (se även kompletterande anmärkning 7).

Prickdiagram visar intergenomiska (guld) och intragenomiska (svarta) justeringar. En sorghum – riskvartett som visar både ortologa och paralogiska (duplicerade) regioner förstoras. Sällsynt genförlust (röd; se legend) efter sorghum-risdivergens orsakar "speciella fall" där det finns paraloger men inga ortologer. Varje sorghumregion motsvarar två duplicerade majsregioner 39, med majsgenförlust föreslagna där sorghum loci bara matchar en av de två. Eftersom majs BAC är mest oavslutade, är sorghum loci anpassade till centrum. Notera den olika skalan som krävs för fysiskt avstånd från majs. Större punktdiagram finns i tilläggsnot 6.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Även om mest förlust av genförlust efter dubblering inträffade i en vanlig förädling av spannmål, uppstår vissa linjespecifika mönster. Totalt 2 och 10 proteinfunktionella (Pfam) -domäner visade anrikning för duplikat respektive singletoner i sorghum men inte ris (kompletterande anmärkning 6.1). Eftersom divergensen mellan sorghum och ris tros ha inträffat 20 Myr eller mer efter genomduplikering 29 antyder detta att även långvarig genförlust påverkar genfunktionella grupper på olika sätt.

En genomisk region har utsatts för en hög nivå av samordnad utveckling. Det föreslogs tidigare att riskromosomerna 11 och 12 delar en ∼ 5–7-Myr-gammal segmentduplikation 30, 31, 32 . Vi hittade ett duplicerat segment i motsvarande regioner i sorghumkromosomer 5 och 8 (fig. 5). Sorghum – sorghum och parisoger från ris – ris från denna region visar frekvenser av synonym DNA-substitution ( Ks ) på 0, 44 respektive 0, 22, vilket motsvarar endast 34 och 17 Myr av avvikelse. Ks- värdet för orthologer från sorghum – ris är emellertid 0, 63, vilket motsvarar de respektive genombredda medelvärdena (0, 81, 0, 87). Vi antar att den uppenbara segmentdupliseringen faktiskt härrörde från helgenomduplikationen med hela spannmål och blev differentierad från resten av kromosomen (erna) på grund av samordnad utveckling som fungerade oberoende i sorghum, ris och kanske andra spannmål. Genomvandling och illegitim rekombination är oftare i ris-11-12-regionen än på andra håll i genomet 33 . Fysiska och genetiska kartor föreslår delade terminala segment av motsvarande kromosomer i vete (4, 5) 34, rävstjärns hirs (VII, VIII) och pärlemyra (kopplingsgrupper 1, 4) 35 .

Fyra homologa ris- och sorghumkromosomer (11 och 12 i ris; 5 och 8 i sorghum) visas, med gentäthet planerad. 'L' och 'S' visar långa respektive korta armar. Linjer visar K mellan homologa genpar och färger används för att visa olika datum för konverteringshändelser.

Bild i full storlek

  • Ladda ner PowerPoint-bilden

Syntes och implikationer

Jämförelse av sorghum, ris och andra genom klargör gräsgenuppsättningen. Par av ortologa sorghum- och risgener kombinerade med paraloga duplikationer som nyligen definierar definierar 19.542 bevarade gräsgenfamiljer, var och en representerar en gen i den vanliga förfäderen till sorghum – ris. Vårt sorghumgenantal liknar det i en manuellt kurerad risanteckning (RAP2) 36, men denna likhet döljer vissa skillnader. Cirka 2 054 synteniska ortologer delade av vår sorghumanteckning och TIGR5 (ref. 37) risanteckning saknas från RAP2. Omvänt kan, 000 12 000 TIGR5-anteckningar vara transponerbara element eller pseudogener, innefattande stora familjer av hypotetiska gener i både sorghum och ris RAP2, ofta med korta exoner, få introner och begränsat EST-stöd. Filogenetiskt inkonsekventa fall av uppenbar genförlust (till exempel gener som delas av Arabidopsis och sorghum men inte ris: Fig. 3) kan också föreslå sekvensgap eller felanmärkningar.

Grasgenomarkitektur kan återspegla eukromatinspecifika effekter av rekombination och selektion, överlagrade på icke-adaptiva mutationsprocesser och genetisk drift som gäller för alla genomiska regioner 38 . Genmönster och repetitiv DNA-organisation förblir korrelerade i homologa kromosomer duplicerade för 70 Myr sedan (fig. 1), trots en omfattande omsättning av specifika repetitiva element. Synteny är högst och retroelement överflödet lägst i distala kromosomala regioner. Snabbare avlägsnande av retroelement från genrikt eukromatin som ofta rekombineras än från heterokromatin som sällan rekombinerar stöder hypotesen att rekombination kan bevara genstruktur, ordning och / eller avstånd genom att utsätta nya insertioner för urval 9 . Mindre euchromatin – heterokromatin-polarisering hos majs, där retrotransposons uthållighet i euchromatin verkar oftare, kan återspegla variation i gräsgenomarkitektur eller kanske en långvarig konsekvens av nyare genomduplikering 39 .

Identifiering av konserverade DNA-sekvenser kan hjälpa oss att förstå viktiga gener och bindningsställen som definierar gräs. Framsteg i sekvensering av Brachypodium distachyon 40 sätter scenen för panicoid-oryzoid-pooid-fylogenetisk triangulering av genomiska förändringar, liksom förening av några sådana förändringar med fenotyper som sträcker sig från molekylära (genuttrycksmönster) till morfologiska. Divergensen mellan sorghum, ris och Brachypodium är tillräcklig för att randomisera icke-funktionell sekvens, vilket underlättar bevarad icke-kodande sekvens (CNS) upptäckt 41, 42 (kompletterande fig 9). Mer avlägsna jämförelser med dikotyledon Arabidopsis visar exonbevarande men ingen CNS (kompletterande figur 10). Kloridoid- och arundinoid-genomsekvenser behövs för att prova de återstående grässtamarna, och en utgrupp som Ananas (ananas) eller Musa (banan) skulle ytterligare hjälpa till att identifiera gener och sekvenser som definierar gräs.

Det faktum att sorghum genomet inte har duplicerat i M 70 Myr 29 gör det till en värdefull utgrupp för att härleda öden av genpar och CNS i gräs som har minskat. Enstaka sorghumregioner motsvarar två regioner som härrör från majsspecifikt genom fördubblar 39 —genfraktionering är uppenbar (fig. 4), och subfunktionalisering är troligt (kompletterande fig. 10). Sorghum kan vara särskilt värdefullt för att upptäcka genomutvecklingen i den närmare besläktade Saccharum - Miscanthus clade: två genomduplikationer sedan dess divergens från sorghum 8–9 Myr sedan 43 komplicerar sockerrörsgenetik 44 men Saccharum BAC visar väsentligen bevarad genordning med sorghum (kompletterande Not 11).

Bevarande av gräsgenstruktur och ordning underlättar utveckling av DNA-markörer för att stödja förbättring av grödor. Vi identifierade ∼ 71.000 enkla sekvensupprepningar (SSR) i sorghum (kompletterande lista 1); bland ett urval av 212, bara 9 (4, 2%) karta till paraloger av deras källor. Konserverade intronscanningsprimrar (kompletterande lista 2) för 6 760 gener tillhandahåller DNA-markörer som är användbara över många monokotyledoner, särskilt värdefulla för "sällsynta spannmål" 45 .

Som det första sekvenserade växtgenomet av afrikanskt ursprung tillför sorghum nya dimensioner till etnobotanisk forskning. Av särskilt intresse är identifieringen av alleler utvalda under de tidigaste stadierna av sorghumodling, vilka är värdefulla för att testa hypotesen att konvergerande mutationer i motsvarande gener bidrog till oberoende domesticering av divergerande spannmål 46 . Förstärkt förbättring av sorghum skulle gynna regioner som den afrikanska Sahel där torktoleransen gör sorghum en häftklammer för mänskliga populationer som ökar med 2, 8% per år. Sorghum-avkastningsförbättringen har halterat efter den hos andra korn, i Afrika fick endast 37% (västerländsk) till 38% (östlig) från 1961–63 till 2005–07 (kompletterande anmärkning 12).

Metoder Sammanfattning

Genom sekvensering

Cirka 8, 5-faldigt redundant parviss-slutvapen-sekvensering utfördes med användning av standard Sanger-metodologier från små (∼ 2-3 kb) och medelstora (5–8 kb) insatsplasmidbibliotek, ett fosmidbibliotek (∼ 35 kb insatser) och två BAC bibliotek (infoga storlek 90 och 108 kb). (Kompletterande anmärkning 1.)

Integration av hagelgevärmontering med genetiska och fysiska kartor

De största 201 byggnadsställningarna, alla överstigande 39 kb, exklusive 'N, och som tillsammans representerade 678 902 941 bp (97, 3%) av nukleotider, kontrollerades för möjliga chimaärer som föreslogs av sorghumens genetiska karta, sorghum fysiska karta, plötsliga förändringar i gen eller upprepad densitet, risgenordning och täckning av BAC- eller fosmidkloner (kompletterande anmärkning 2).

Upprepa analysen

De novo sökte efter LTR-retrotransposoner som användes LTR_STRUC. De novo- upptäckt av CACTA-DNA-transposoner och MITE-anpassade program (kompletterande anmärkning 3). Kända upprepningar identifierades av RepeatMasker (Open-3-1-8) (//www.repeatmasker.org) med mips-REdat_6.2_Poaceae, en sammanställning av gräsupprepningar inklusive sorghumspecifika LTR-retrotransposoner (//mips.gsf.de / proj / växt / webapp / recat /). Insättningsåldern för LTR-retrotransposoner i full längd bestämdes utifrån det evolutionära avståndet mellan 5 'och 3' soloLTR härledd från en ClustalW-inriktning av de två soloLTR: erna.

Proteinkodande genanteckning

Förmodade proteinkodande loci identifierades baserat på BLAST-justeringar av ris- och Arabidopsis- peptider och sorghum och majs-EST. GenomeScan 47 applicerades med användning av majsspecifika parametrar. Förutsagda kodningsstrukturer slogs samman med EST-data från majs och sorghum med PASA 48 .

Intergenomiska och intragenomiska justeringar

Dotdiagram som använde ColinearScan 49 och multi-alignments använde MCScan 50, tillämpade på RAP2 36 (kartlade representativa modeller, 29 389 loci) och sbi1.4-kommentaruppsättningen (34.496 loci). Parvis BLASTP ( E <1 × 10 -5, topp fem träffar), både inom varje genom och mellan de två genomerna, användes för att hämta potentiella ankare. Zea BAC-sekvenser och FPC-contig-koordinater laddades ner (//www.maizesequence.org, release 7 januari 2008). Zea- BAC: er sökte efter potentiella ortologer av Sorghum- kodningssekvenser med användning av översatt BLAT med en minsta poäng på 100.

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande information

    Denna fil innehåller kompletterande metoder, kompletterande data, kompletterande anteckningar, kompletterande figur 1-15 med legender, kompletterande tabeller 1-23 och kompletterande referenser

  2. 2.

    Kompletterande värmekarta

    Denna fil innehåller ett värmekarta som visar det genomiska landskapet för alla kromosomer, inklusive de två som visas i figur 1

Zip-filer

  1. 1.

    Kompletterande lista

    Denna fil innehåller en kompletterande lista över alla tandemupprepningar som finns i genomet, inklusive SSR: er och andra tandemiskt upprepade element, som det hänvisas till i texten.

  2. 2.

    Kompletterande information

    Den här filen refererar till konserverade intronscanningsprimrar som hänvisas till i texten

kommentarer

Genom att skicka en kommentar samtycker du till att följa våra villkor och gemenskapsriktlinjer. Om du finner något missbruk eller som inte överensstämmer med våra villkor eller riktlinjer ska du markera det som olämpligt.