Snabb, exakt felkorrigering av amplikonpyrosekvenser med akacia | naturmetoder

Snabb, exakt felkorrigering av amplikonpyrosekvenser med akacia | naturmetoder

Anonim

ämnen

  • Bioinformatik
  • Mikrobiella samhällen
  • Sequencing

Till redaktören:

Mikrobiella mångfaldsmätningar baserade på amplikonsekvenssekvenser med hög kapacitet komprometteras av läsfel. Roche 454 GS FLX-titanpyrosquencing är för närvarande den mest använda tekniken för amplikonbaserade mikrobiella samhällsstudier, trots höga homopolymerassocierade insättnings-borttagningsfel 1, 2 . För närvarande finns det två mjukvarupaket, AmpliconNoise 3 och Denoiser 4, som vanligtvis används för att korrigera amplikonpyrosquenceringsfel. AmpliconNoise tillämpar en ungefärlig sannolikhet med empiriskt härledda felfördelningar för att ta bort pyrosquencerande brus från läsningar. AmpliconNoise är mycket effektiv vid brusborttagning men är beräkningsintensiv 3 . Denoiser är en snabbare algoritm som använder frekvensbaserad heuristik snarare än statistisk modellering för att klustera läsningar. Inget verktyg modifierar individuella läsningar; istället väljer båda en "felfri" läsning för att representera läsningar i ett givet kluster.

Vi utvecklade ett verktyg för felkorrigering av homopolymer som har större skalbarhet än befintliga verktyg. Vi undersökte om det fanns tillräcklig information i FASTA-filerna enbart för att uppnå känsligheten och specificiteten hos AmpliconNoise och Denoiser, som båda använder råflödesprogram. Vårt felkorrigeringsverktyg, Acacia, uppfyller dessa mål. För det första minskar Acacia antalet och komplexiteten i justeringar. I stället för att utföra all-mot-alla justeringar i ett kluster, är varje läst i klustret anpassad till en dynamiskt uppdaterad klusterkonsensus; anpassningsalgoritmen effektiviseras med hjälp av heuristik som endast tar hänsyn till över- och undersamtal av homopolymer. För det andra använder Acacia en snabbare men mindre känslig statistisk strategi för att skilja mellan fel och verkliga sekvensskillnader (kompletterande metoder och kompletterande anmärkningar 1–3).

Vi mätte prestandan hos Acacia i förhållande till AmpliconNoise och Denoiser med hjälp av tre syntetiska små subenheter ribosomal RNA (SSU rRNA) genamplicon-datauppsättningar ('konstgjorda', 'divergerande' och 'titan') som tidigare använts för att benchmarka de senare verktygen 3, 4 . För varje datauppsättning registrerade vi den maximala minnesanvändningen och CPU-körtiden (tilläggstabell 1). Vi jämförde AmpliconNoise med bara den mindre konstgjorda datauppsättningen, vilket var tillräckligt för att indikera att denna programvara var opraktisk för att analysera större datamängder. Toppminnet som användes av Acacia var 1-4 × högre än det som användes av Denoiser och ∼ 14 × lägre än av AmpliconNoise. Acacia körde på alla datamängder på under 1 minut, var upp till 500 × snabbare än Denoiser för titanuppsättningen och mer än 2 000 × snabbare än AmpliconNoise för den konstgjorda datauppsättningen. Acacia bearbetade större moderna datauppsättningar (200 000 GS FLX Titanium-läsningar) på under 80 CPU-minuter.

Vi jämför sedan nästa Acacias felkorrigeringskänslighet och specificitet. För enkelhets skull hänvisar vi till korrigering av individuella läsningar även om korrigeringar härrör från antingen en klusterkonsensus (Acacia) eller representativ läsning (AmpliconNoise och Denoiser). Trots att de arbetade med de mindre exakta avrundade flödesvärdena, korrigerade Acacia majoriteten av GS FLX Titanium homopolymerfel korrigerade av AmpliconNoise och Denoiser (Fig. 1a). Som väntat har Acacia mindre känslighet än AmpliconNoise och Denoiser för att korrigera substitutionsfel eftersom den bara försöker korrigera homopolymerfel. Acacia korrigerade emellertid ∼ 40% av de AmpliconNoise- och Denoiser-korrigerade substitutionerna i titandatuppsättningen (Fig. 1b) eftersom dessa fel var en följd av på varandra följande samtal under omvändning eller vice versa. Vi fann att AmpliconNoise och Denoiser införde ett väsentligt antal fel, de flesta icke-homopolymersubstitutioner, under felkorrigering (fig. 1c). Notera att Acacia introducerade 2 × respektive 12 × färre fel än AmpliconNoise respektive Denoiser. Fel införda av Acacia var huvudsakligen insertion-raderingar och inträffade när en sällsynt homopolymervariant inte statistiskt kunde skiljas från ett fel under våra betydelsetrösklar.

( a - c ) Homopolymerfelkorrigering ( a ), substitutionsfelkorrigering ( b ) och introducerade fel ( c ) illustrerade med användning av ett exempel på pyrosekvenseringsläsning (markerad med en konsol och läsidentifierare) bestämd relativt dess referens Sanger-sekvens, och Venn-diagram som visar antalet instanser av varje feltyp för de tre felkorrigeringsverktygen.

Bild i full storlek

AmpliconNoise uppnådde den högsta nettokorrigeringen och reducerade basfelsfrekvensen (BER) med 60–90% enligt uppskattning genom att jämföra de korrigerade och okorrigerade pyrosekvensläserna till deras referens Sanger-sekvenser (kompletterande metoder och kompletterande tabeller 2 och 3). Acacia minskade BER med 30–80%, och både Acacia och AmpliconNoise gav betydligt högre nettokorrigering än Denoiser. Denoiser minskade BER med 79% respektive 6% i de olika divergerande respektive titan-datauppsättningarna, men blåste upp BER med 78% i den konstgjorda datauppsättningen. Sammantaget hade Acacia den högsta specificiteten för de tre verktygen (kompletterande figur 1).

För att undersöka introducerade fel ytterligare beräknade vi antalet fel per läst för att identifiera om de var jämnt fördelade eller koncentrerade i ett litet antal sekvenser. För alla tre verktygen var de flesta introducerade fel närvarande som 1-2 fel per läsning. I titandatuppsättningen införde emellertid Acacia, AmpliconNoise och Denoiser upp till 6, 8 respektive 19 fel per avläsning (tilläggsfigur 2).

För att undersöka konsekvenserna av introducerat fel på gemenskapsprofilering utförde vi standard operationell taxonomisk enhet (OTU) gruppering av läsningar till 97% med QIIME-paketet 5 . För alla datauppsättningar var rankingsöverskottsprofilerna producerade av Acacia och AmpliconNoise nästan identiska (kompletterande figur 3). I datauppsättningarna Artificiell och Titanium hade profilerna som genererats från den Denoiser-korrigerade data märkbara skillnader i rang och överflöd av OTU: er. Dessa kan spåras till att grupper av läsningar med högt Denoiser-introducerat fel (> 3% identitet) flyttades från deras Acacia och AmpliconNoise OTU till olika, typiskt högre rankade OTU: er som tillhör samma släkt (Kompletterande Fig. 3 och 4). Vi observerade också detta fenomen i mänskliga mikrobiomas datauppsättningar bearbetade med hjälp av Denoiser (kompletterande fig. 5).

Sammanfattningsvis är Acacia ett alternativ till AmpliconNoise och Denoiser som bibehåller känsligheten utan att kompromissa med äkta signaler i data. Acacia är skriven i Java och kräver endast Java Runtime Environment. Med antingen kommandoraden eller det grafiska användargränssnittet (GUI) kan Acacia behandla utvalda streckkodade prover tillsammans eller separat. Acacia-utgången är i ett format som överensstämmer med QIIME-analysrörledningen 5 . Trots fokus på SSU-rRNA-analys i denna studie kan Acacia användas för att felkorrigera eventuellt pyrosquenserad amplikon. Givet lämpliga felmodeller kan dessutom alla nya sekvenseringstekniker (till exempel Ion Torrent PGM), som också är mottagliga för homopolymerbaserade fel, korrigeras med Acacia.

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande text och figurer

    Kompletterande figur 1-5, kompletterande tabeller 1–3, kompletterande anmärkningar 1–3 och kompletterande metoder