Montering av ett tidigt moget japonica (geng) risgenom, suijing18, baserat på pacbio och illumina-sekvensering | vetenskapliga data

Montering av ett tidigt moget japonica (geng) risgenom, suijing18, baserat på pacbio och illumina-sekvensering | vetenskapliga data

Anonim

ämnen

  • Växtuppfödning
  • Strukturell variation

Abstrakt

Den tidiga mognade rissorten Japonica ( Geng ), Suijing18 (SJ18), har flera elitdrag inklusive hållbar sprängmotstånd, god kornkvalitet och högt utbyte. Med hjälp av PacBio SMRT-teknik producerade vi över 25 Gb långlästa sekvenseringsrådsdata från SJ18 med en täckning på 62 ×. Genom att använda Illumina-parade slutgenotsteknologi för sekvensering av helgenom, genererade vi 59 Gb kortlästa sekvenseringsdata från SJ18 (23, 6 Gb från ett 200 bp-bibliotek med en täckning av 59 × och 35, 4 Gb från ett 800 bp-bibliotek med en täckning av 88 ×). Med dessa data samlade vi ett enda SJ18-genom och genererade sedan en uppsättning annotationsdata. Dessa datauppsättningar kan användas för att testa nya program för djupbrytning av variationer, och kommer att ge ny insikt i SJ18s genomstruktur, funktion och utveckling och kommer att ge väsentligt stöd för biologisk forskning i allmänhet.

Metadata sammanfattning

Designtyp (er)
  • sekvens montering mål •
  • hela genomsekvensering
Mätningstyp (er)

  • genomenhet
Teknologi Typ (er)

  • DNA-sekvensering
Faktortyp (er)

  • protokoll
Exempelkarakteristik (er)

  • Oryza sativa Japonica Group

Ladda ner metadatafil

Maskinåtkomlig metadatafil som beskriver rapporterade data (ISA-flikformat)

Bakgrund och sammanfattning

Som den ledande livsmedelsresursen för människor har ris antagits som en viktig modellorganism för biologisk forskning, särskilt för monocots. Asiatiskt odlat ris ( Oryza sativa L.) består av två underarter: O. sativa subsp. japonica (även känd som Keng 1 med motsvarande Pinyin, Geng ) och subsp. indica (även känd som Hsien 1 med motsvarande Pinyin, Xian ). För närvarande blir japonica / Geng , särskilt den tidigt mogna typen, allt viktigare i risproduktionen. År 2016 var odlingsområdet för tidigt mogna japonica / Geng mer än 4 miljoner hektar i nordöstra Kina.

Det har visat sig att ett enda genom inte är tillräckligt för att representera den enorma variationen i risgenom. Nyligen, förutom de tidigare publicerade de novo- föreningarna, inklusive 93–11 ( indica / Xian , tvålinjers hybridrestaurator), PA64S (blandningstyp med ungefär 55% indica / Xian , 25% japonica / Geng och 20% javanica , en steril linje med två linjer), IR64 ( indica / Xian ), DJ123 ( aus typ indica / Xian ) 2, HR-12 ( indica / Xian ) 3 och Swarna ( indica / Xian ) 4, tre nya uppsättningar av indica / Xian- genom har släppts med hjälp av tredje generationens sekvenseringsteknik för variation i djupbrytning, inklusive MH63RS1 ( indica / Xian , tre-linjes hybridåterställare), ZS97RS1 ( indica / Xian , tre-linjes hybridunderhållare) 5 och R498 ( indica / Xian , tre-linjes hybridåterställare) 6 . Dessa datamängder har berikat vår kunskap om de genomiska variationerna av indica / Xian ris. Ändå är genomet japonica / Geng helt annorlunda än indica / Xian . Sedan frigörandet av guldstandardgenomet av Nipponbare 7, 8, en medelåldrad japonica / Geng- sort med ljuskänslighet, förblir allmänhetens tillgänglighet av japonica / Geng- genom, särskilt för den tidiga mogna typen, till stor del tom.

Enligt vår uppfödares erfarenheter är tidigt mognad japonica / Geng en relativt unik typ jämfört med den medelåldrade japonica / Geng . Vanliga variationer, såsom enstaka nukleotidpolymorfismer (SNP) inom tidigt mognad japonica / Geng- grupp är dessutom relativt glesa. För att förbättra effektiviteten för molekylär avel i tidigt mognad japonica / Geng krävs det snabbt djupbrytning av ytterligare genomvariationer. SRS-tekniker med kort läsning (SRS), som Illumina HiSeq, har gett oss en möjlighet att få åtkomst till enorma mängder variationer, inklusive SNP: er och korta InDels, direkt från stora uppsättningar genomer 9 ; Men för att utföra djupare gruvdrift av komplexa men kritiska variationer, såsom repeteringssekvensvariationer, långa InDels och strukturvariationer (SV), förblir den tekniska flaskhalsen för den korta sekvenseringsläsningslängden en utmaning. För närvarande finns LRS-uppgifter med lång läsning med hjälp av ny teknik, t.ex. PacBio. Kostnads- och felfrekvensen är dock fortfarande relativt hög. Således skulle ett schema innefattande LRS ändrat av SRS representera ett balanserat val för djup gruvdrift av genomvariationer 6, 10 .

Den tidiga mogna japonica / Geng- kultivaren Suijing18 (SJ18) utvecklades nyligen av vårt gemensamma projekt och licensierades för frigöring i norra Kina 2014. Det är en representativ tidigt mogen japonica / Geng- kultivar med flera elitegenskaper (såsom hållbar sprängmotstånd, god spannmålskvalitet och högt utbyte) och representerar nu mer än 10% av planteringsområdet för tidigt mogen japonica / Geng i Kina. Därför initierade vi ett samarbetsprojekt för att generera en genomkvalitetssamling av hög kvalitet för SJ18 som kan användas som ett grundläggande verktyg för att hjälpa oss undersöka underliggande genomvariationer i tidigt mogna japonica / Geng . I denna studie rapporterar vi resurserna och datauppsättningarna som genererades och använts för djupbrytning av SJ18-genomvariationer: (1) rå PacBio LRS-data, (2) Illumina helgenomskottsgevär (WGS) SRS-data, (3) den ändrade sammansättningen av SJ18, (4) annotationsdata baserade på den ändrade sammansättningen av SJ18, och (5) de funktionsanalysresultat baserade på denna annotation.

Med de resurser och data som genererades i denna studie kunde vi inte bara samla de novo en genomsekvens av god kvalitet för tidigt mognad japonica / Geng , utan också kunna ge den vetenskapliga gemenskapen data för att främja biologisk forskning på genomisk nivå, särskilt för djupbrytning av genetiska variationer, och gav mer information för genombaserad molekylär avel av grödor.

metoder

Växtmaterial och bibliotekskonstruktion

Den tidigt mogna japonica / Geng- kultivaren SJ18, som utvecklades av vår egen grupp, fick licens för frisläppning 2014 och är nu mycket planterad (mer än 0, 8 miljoner hektar) i Heilongjiang-provinsen i nordöstra Kina. Genom DNA med hög molekylvikt extraherades från 10 dagar gamla blad av SJ18 (flera frön) med användning av den modifierade CTAB-metoden 11, följt av 0, 5 x pärlrening två gånger. Kvaliteten på DNA-provet bedömdes med användning av 0, 75% agarosgelanalyser och Nanodrop (Nanodrop Technologies, Wilmington, DE, US) och kvantifierades med användning av Qubit-system (Thermo Fisher Scientific, Waltham, MA). Provet som uppfyllde kvantitets- och kvalitetsstandarderna delades upp i två delar, som användes för att konstruera PacBio Sequel- och Illumina-bibliotek för LRS respektive SRS (fig 1).

Image

Bild i full storlek

Sequel 20 K-biblioteken bereddes med användning av standardprotokollet från PacBio och sekvenserades i den våta laboratoriavdelningen i Peking Computing Center (//www.bcc.ac.cn/) med användning av ett PacBio LRS-instrument, modell Sequel. 200 bp- och 800 bp-biblioteken, med toppinsatsstorlekar av ~ 200 bp respektive ~ 800 bp, bereddes med användning av ett Illumina Truseq DNA-bibliotekprotokoll (Illumina Kit FC-121-4001; Illumina Inc., San Diego, CA, USA). Bibliotekens egenskaper kontrollerades med användning av ett standardprotokoll innefattande ett Agilent 2.100 Bioanalyzer High Sensitivity Kit. Efter biblioteksprofilanalys sekvenserades biblioteken med användning av 150 bp par-slutstrategier med Illumina HiSeq X10-plattformen (Illumina Inc.).

Mängden rådata från LRS var inte mindre än 25 Gb, med en täckning på 62 ×. Med användning av SRS genererades 59 Gb rå data, inklusive 23, 6 respektive 35, 4 Gb data från 200 respektive 800 bp-bibliotek. Den totala täckningen av SRS var cirka 147 ×.

Dataanalys

LRS-data screenades och justerades med procedurerna inbäddade i CANU 12 . Data som uppfyllde tröskeln för Q20 (motsvarande 1% felfrekvens) antogs. De novo- montering utfördes för LRS-data med hjälp av CANU-pipeline med standardparametrar, med undantag för errorRate = 0, 045 och genomeSize = 350 m. SRS-data anpassades sedan till den preliminära monteringen med användning av BWA 13 . Dessutom antogs pilonpaketet 14 för ändringsprocessen. Den ändrade församlingen representerade den skickade versionen av SJ18-sekvensen.

Baserat på den ändrade versionen av SJ18-aggregatet utfördes genomanteckningar med följande steg med standardparametrar, med undantag för de som anges:

  1. Tandem-upprepningar känns igen av TRF-paketet 15 med följande parameterinställningar: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50, MaxPeriod = 2, 000. Andra typer av repetitionssekvenser gjordes igen av RepeatModeler (//www.repeatmasker.org/RepeatModeler/) med standardinställningar. Databasen som antogs för RepeatModeler-analys var ett integrerat bibliotek som omfattade Repbase 16 (uppdaterad i januari 2017), Dfam2 (ref. 17) och offentligt tillgängliga bibliotek som innehåller de novo- information för ris.

  2. Annotering för icke-kodande RNA (ncRNA) utfördes med hjälp av cmsearch i Infernal 18, sökning i Rfam-databasen V12.2 (//rfam.xfam.org/) med en parameterinställning av '-cyk-T10' efter mikroRNA ( miRNA: er, liten nukleär ribonukleinsyra (snRNA) och liten RNA (sRNA). Överförings-RNA (tRNA) -anteckningen utfördes med användning av tRNAscan-SE 19 med standardinställningar.

  3. Vi maskade upprepningarna med RepeatMask med parameterinställningen '-nolow -no_is -norna' och kommenterade sedan SJ18 genomet med flera verktyg, inklusive GENEID 20 med parameterinställningar för ris, GeneMark 21 med en inställning av -ES - kärnor 24 - min_contig 100, SNAP 22 med standardinställning och AUGUSTUS 23 med -species = ris. Vi jämförde kodningssekvenserna (CDS) och proteinsekvenser från andra risgenom med PASA 24 med standardinställningar och GeneWise 25 med en inställning av 'splice_gtag -sum -gff-quiet'. Alla kommentareresultaten integrerades och screenades med EVidenceModeler (EVM) 26 .

  4. De förutsagda kodande generna från SJ18 översattes till proteinsekvenser och anpassades till proteinerna från växtarter i Uniprot-databasen (//www.uniprot.org/) och Kyoto Encyclopedia of Genes and Genomes (KEGG) databas (//www.genome) .jp / kegg /) med BLASTP. Tröskeln sattes till e-värde <1e-8, och de bästa träffarna lämnades in för ytterligare analys.

  5. Genontologi (GO) -analys utfördes baserat på ovanstående funktionella kommenteringsresultat med användning av topGO 27 . Den biologiska processen (BP), cellulär komponent (CC) och molekylär funktion (MF) matchades. Den sekundära bindningspunkten valdes i analysen. De kommenterade proteinerna från SJ18 lämnades in för väganalys med användning av KEGG.

Dataregister

Raw PacBio långlästa sekvenseringsdata (LRS) är tillgängliga via NCBI SRA med anslutningsnumret SRR5877285 (Data Citation 1: NCBI Sequence Read Archive SRP113746). Alla Illumina kortlästa sekvenseringsdata (SRS) för SJ18 kan hittas på NCBI SRA med anslutningsnummer SRR5880534 (Data Citation 2: NCBI Sequence Read Archive SRP113817) och SRR5880533 (Data Citation 3: NCBI Sequence Read Archive SRP113816). Den monterade SJ18-genomversionen 1 är tillgänglig på NCBI med anslutningsnumret PDFQ00000000 (Data Citation 4: NCBI Assembly GCA_002573525). Alla dessa rådata är också tillgängliga på figshare (Data Citation 5: Figshare //doi.org/10.6084/m9.figshare.c.3835939). De analyserade data finns tillgängliga på figshare (Data Citation 5: Figshare //doi.org/10.6084/m9.figshare.c.3835939) eller via webbadresserna som erbjuds av figshare och databasen Rice Functional Genomics and Breeding (RFGB) 28 (tabell) 1).

Full storlek bord

Teknisk validering

LRS-data screenades och ändrades med SRS-data med hjälp av CANU-paketet med standardinställningar. Möjliga sekvenseringsfel minimerades ytterligare genom att ta bort läsningar som var i linje med hög poäng till de nedladdade sekvenserna från bakterier, svampar eller humana genom från GenBank med användning av BWA. Slutligen skickades totalt 648 237 högkvalitativa LRS-avläsningar som passerade detta kvalitetskontrollsteg för montering. Fördelningen av dessa läsningar visas i fig. 2.

Image

Bild i full storlek

Rå SRS-data screenades med användning av Trimmomatic-paketet 29, som avlägsnade adaptern och läsarna med ett kvalitetsvärde lägre än 20 (motsvarande en 1% -frekvens).

Vi jämförde också parametrarna för SJ18 med andra enheter. Statistiken för de sammansatta kontigterna visas i tabell 2. Statistiken över upprepade sekvenser visas i tabell 3 i jämförelse med Nipponbare (medelåldrad japonica / Geng ) och R498 ( indica / Xian , den senast tillgängliga rismonteringen).

Full storlek bord

Full storlek bord

Ytterligare information

Hur man citerar den här artikeln: Nie, S.-J. et al. Montering av ett tidigt moget japonica ( Geng ) risgenom, Suijing18, baserat på PacBio och Illumina-sekvensering. Sci. Data 4: 170195 doi: 10.1038 / sdata.2017.195 (2017).

Förlagets anmärkning: Springer Nature förblir neutral när det gäller jurisdiktionskrav i publicerade kartor och institutionella anslutningar.

Dataciteringar

  1. 1.

    NCBI Sequence Read Archive SRP113746 (2017)

  2. 2.

    NCBI Sequence Read Archive SRP113817 (2017)

  3. 3.

    NCBI Sequence Read Archive SRP113816 (2017)

  4. 4.

    NCBI Assembly GCA_002573525 (2017)

  5. 5.

    Zheng, TQ Figshare //doi.org/10.6084/m9.figshare.c.3835939 (2017)