Objektiv jämförelse av metoder för spårning av partiklar | naturmetoder

Objektiv jämförelse av metoder för spårning av partiklar | naturmetoder

Anonim

ämnen

  • Fluorescensavbildning
  • Bildbehandling
  • Mikroskopi

Abstrakt

Partikelspårning är av avgörande betydelse för kvantitativ analys av intracellulära dynamiska processer från mikroskopi-bilddata för förflutit. Eftersom manuellt detektering och efterföljande av stort antal enskilda partiklar inte är genomförbart har automatiserade beräkningsmetoder utvecklats för dessa uppgifter av många grupper. I syfte att utföra en objektiv jämförelse av metoder samlade vi samhället och organiserade en öppen tävling där deltagande team använde sina egna metoder oberoende av en vanligt definierad datamängd med olika scenarier. Prestanda bedömdes med hjälp av vanligt definierade mått. Även om ingen enda metod presterade bäst i alla scenarier, avslöjade resultaten tydliga skillnader mellan de olika metoderna, vilket ledde till anmärkningsvärda praktiska slutsatser för användare och utvecklare.

Huvudsaklig

Den teknologiska utvecklingen under de senaste två decennierna har kraftigt avancerat området bioimaging och har möjliggjort utredning av dynamiska processer i levande celler med en aldrig tidigare skådad rumslig och temporär upplösning. Exempel inkluderar studiet av cellmembrandynamik 1, cytoskeletala filament 2, fokala vidhäftningar 3, viral infektion 4, intracellulär transport 5, gentranskription 6 och genombehåll av genom 7 . Bortsett från toppmodern ljusmikroskopi 8, 9 och fluorescerande märkning 10, 11 är en nyckelteknologi i strävan efter kvantitativ analys av intracellulära dynamiska processer partikelspårning. Här kan en "partikel" vara allt från en enda molekyl till ett makromolekylärt komplex, organell, virus eller mikrosfär 12, och uppgiften att detektera och följa enskilda partiklar i en tidsserie av bilder benämns ofta (något förvirrande) " spårning med en partikel. Eftersom antalet partiklar kan vara mycket stort (hundratals till tusentals), som kräver 'spårning av flera partiklar' 13, 14, 15, är manuell annotering av bilddata inte möjlig, och datoralgoritmer behövs för att utföra uppgiften.

För närvarande finns dussintals programverktyg tillgängliga för spårning av partiklar 16 . Bildanalysmetoderna som de bygger på kan i allmänhet delas upp i två steg: (i) partikeldetektering (den rumsliga aspekten), där fläckar som skiljer sig från bakgrunden enligt vissa kriterier identifieras och deras koordinater uppskattas i varje ram av bildsekvensen, och (ii) partikellänkning (den temporala aspekten), i vilken detekterade partiklar är anslutna från ram till ram med användning av en annan uppsättning kriterier för att bilda spår. De två stegen utförs vanligtvis bara en gång, men de kan också tillämpas iterativt. För vart och ett av dessa steg har många metoder utvecklats under åren 17, 18, 19, 20, 21, 22, ofta härrörande från andra områden av dataanalys 23, 24 . Med så många metoder som för närvarande är kända uppstår frågan om vad som skiljer dem och hur de presterar relativt varandra under olika experimentella förhållanden.

Flera jämförelsestudier har publicerats under de senaste åren. Cheezum et al . jämförde fyra grundläggande metoder för lokalisering av en enda partikel som ofta används för spårning av partiklar och drog slutsatsen att Gauss-montering fungerar bäst med flera kriterier 25 . En uppföljningsstudie, som förädlade slutsatserna genom att utvärdera olika praktiska aspekter, presenterades av Carter et al . 26 En mer omfattande studie, utvärdering av nio metoder (inklusive två maskininlärningsmetoder) för detektering av flera partiklar, genomfördes av Smal et al . 27 . De drog slutsatsen att alla metoder fungerar bra för tillräckligt hög signal-brus-förhållande (SNR ≥ 5); Men för bilder med låg kvalitet är inlärningsbaserade metoder något överlägsna, även om andra metoder kan ge jämförbara resultat och är lättare att använda. En liknande studie publicerad av Ruusuvuori et al . 28, tilllade med rätta att ”algoritmer bör väljas med omsorg.” Slutligen, Godinez et al . jämförde åtta olika metoder för att spåra viruspartiklar och fann sannolikhetsmetoder vara överlägsna 29 .

Trots intressanta var de citerade studierna begränsade till antingen en aspekt av uppgiften (detektering snarare än spårning) eller en applikation (spårning av virus snarare än en bredare uppsättning av partiklar). Dessutom implementerades metoderna av samma grupp som utförde utvärderingen snarare än av de ursprungliga uppfinnarna. Att få en mer fullständig bild av prestanda genom att kombinera resultaten från oberoende studier hindras vanligtvis av att de bygger på olika datamängder och olika utvärderingskriterier. Sådana grundläggande problem har erkänts inom området medicinsk bildanalys i mer än fem år och har resulterat i anordnande av internationella tävlingar (se //www.grand-challenge.org/). Skälen bakom sådana tävlingar är att den mest objektiva utvärderingen av metoder uppnås genom att låta forskargrupper tillämpa sina egna metoder oberoende på en vanligt definierad datamängd och använda vanligt definierade utvärderingskriterier. Den första studien i denna anda som organiserades inom området biobildningsanalys var den digitala rekonstruktionen av axonal och dendritisk morfologi (DIADEM) utmaning 30 . För partikelspårning förespråkades först organisationen av en tävling av Saxton 12 och i en redaktion 31 .

Här presenterar vi en objektiv jämförelse av metodspårningsmetoder baserade på en öppen tävling som vi organiserade 2012 (se //www.bioimageanalysis.org/track/). Genom tillkännagivanden som gjorts genom olika medier (på konferenser, på webben och via e-postlistor och riktade e-postmeddelanden) över två månader blev forskargrupper världen över inbjudna att delta. Därefter fick registrerade team en månad för att förbereda sina metoder med hjälp av representativa träningsdata och motsvarande marksanning som finns på webbplatsen. Efter frigivandet av de faktiska tävlingsuppgifterna, utan marken sanningen, fick lagen tre veckor att lämna in spårningsresultat till en oberoende utvärderare (en medlem av det organiserande teamet som inte var en tävlande och den enda som hade marken sanningen). De preliminära resultaten presenterades och diskuterades på en workshop som organiserades vid IEEE International Symposium 2012 om biomedicinsk avbildning. Alla deltagande team skickade sin mjukvara till den oberoende utvärderaren som verifierade resultaten och utförde en objektiv mätning av de beräkningstider som behövs med de konkurrerande metoderna. En fullständig analys av resultaten och en diskussion av de praktiska slutsatserna från vår studie presenteras i denna artikel.

Resultat

Deltagande lag och metoder

Totalt 14 lag (tabell 1) tog upp utmaningen och lämnade in spårningsresultat. Tillsammans använde de många olika metoder 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57 (tabell 1 och kompletterande anmärkning 1) baserat på välkända såväl som nyutvecklade koncept. Tillvägagångssätt för partikeldetektion sträckte sig från enkel tröskelvärde eller lokal-maxima-upptäckt till morfologisk bearbetning, linjär filtrering (särskilt Gaussian, Laplacian of Gaussian och skillnaden mellan Gaussian), linjär och icke-linjär modellpassning och centroid-uppskattningsscheman. De flesta detekteringsmetoder baserades på en kombination av två eller flera av dessa. Tillvägagångssätt för koppling av detekterade partiklar sträckte sig från enkel närmaste granne till multiframe-associering, inklusive spårning av flera hypoteser, dynamisk programmering och kombinatoriska scheman, med eller utan uttrycklig användning av rörelsemodeller och tillståndsuppskattning (Kalman-filtrering). Varje spårningsmetod bestod av en specifik kombination av detekterings- och länkmetoder som bedömdes lämpliga av motsvarande team, som också bestämde lämpliga parameterinställningar för deras metod (kompletterande tabell 1).

Full storlek bord

Datauppsättningar och grundar sanningen

För att möjliggöra en objektiv, kvantitativ jämförelse av metoderna för en rad praktiska förhållanden, behövdes representativa bilddata med exakt marksanning. I allmänhet är marken sanningen inte tillgänglig för verkliga bilddata, och manuell kommentering av mänskliga observatörer är subjektiv, arbetskrävande för ett stort antal partiklar och kända 14, 19, 58 är potentiellt underlägsen för beräkningsspårning i första hand, vilket leder till olämpligt referensdata. Därför valde vi att simulera bilddata för den här studien (fig. 1, tabell 2 och kompletterande videor 1, 2, 3, 4, 5, 6, 7, 8, 9, 10). Vi identifierade tre huvudfaktorer som påverkar spårningsprestanda i praktiken (kompletterande anmärkning 2): dynamik (rörelsetyp), densitet (antal partiklar inom det fasta synfältet) och signal (relativt brus). För partikeldynamik övervägde vi fyra typer av rörelse som representerar olika biologiska scenarier, nämligen Brownsk (slumpmässig) rörelse som liknar den hos vesiklar i cytoplasma, riktad (nära konstant-hastighet) rörelse såsom mikrotubulär transport och slumpmässig växling mellan dessa två rörelsemodeller, med antingen slumpmässig eller begränsad orientering för den riktade komponenten, som med membranreceptorer respektive infekterande virus (fig. 1a, tabell 2 och kompletterande videor 1, 2, 3, 4 och 10). För partikeltäthet beaktade vi tre nivåer (fig. 1b och kompletterande videor 5, 1 respektive 6): låga (∼ 100 partiklar), medium (∼ 500 partiklar) och hög (∼ 1 000 partiklar), med slumpmässigt utseende och försvinnande av partiklar. För partikelsignal relativt bruset beaktade vi fyra nivåer (fig. 1c och kompletterande videor 7, 8, 2 respektive 9): SNR = 1, 2, 4 och 7, där SNR = 4 var känt från tidigare studier 25, 27 för att vara en kritisk nivå. Här, SNR = ( I o - I b ) / √ I o, med I o betecknar toppobjektets (partikel) intensitet och I b den genomsnittliga bakgrundsintensiteten. Tillsammans resulterade detta i 48 fall. I alla fall modellerade vi partiklar som märkta med GFP och avbildade med fluorescensmikroskopi i antingen bredfält eller konfokalt läge. Det exakta antalet partiklar i vilken ram som helst i en simulerad tidsserie och initiering, avslutning och förskjutning av partiklar från ram till ram styrdes av realistiska slumpmässiga processer. De resulterande uppgifterna innehöll oklarheter som liknar dem i verkliga data, inklusive buller, röran, visuell sammanslagning och delning och korsande och parallella banor. I både träning och tävlingsfas i studien fick deltagarna endast begränsad information om data (tabell 2).

Representativa bilder av de tre huvudfaktorerna (partikeldynamik, densitet och signal) som påverkar spårningsprestanda visas. ( a ) Fyra biologiska scenarier simulerades, av vilka vi visar ögonblicksbilder ( i - iv ) och banor ( v - viii ) i godtyckliga färger: partiklar som visar slumpmässig rörelse avbildade i två dimensioner över tiden (2D + tid) med användning av bred -fältmikroskopi ( i, v ); större (långsträckta) partiklar representerade av asymmetriska Gaussians som visar riktad rörelse under 2D + tid ( ii, vi ); partiklar som växlar mellan slumpmässig promenad och slumpmässigt orienterad riktad rörelse avbildad i 2D + -tid med konfokal mikroskopi ( iii, vii ); och partiklar som växlar mellan slumpmässig gång och riktad rörelse med begränsad orientering avbildad i 3D + tid (endast en skiva visas) med konfokal mikroskopi ( iv, viii ). ( b, c ) Tre densitetsnivåer ( b ; låg, medelhög och hög) och fyra SNR-nivåer ( c ; 1, 2, 4 och 7) simulerades.

Bild i full storlek

Full storlek bord

Kvantitativa resultatmått

Ett viktigt problem vid utvärdering av någon metod för att spåra stort antal partiklar är hur man optimalt kan para uppsättningen uppskattade spår, Y , med uppsättningen mark-sanningsspår, X , som troligen kommer att innehålla olika antal element (spår och punkter inom spår). För att lösa detta utvidgade vi Y med dummy-spår och använde optimal undermönstertilldelning med Munkres-algoritmen 59, vilket gav den globalt bästa möjliga parningen (minimal totalavstånd) för varje mark-sanningsspår, θ k X , med antingen ett uppskattat spår ( om det finns) eller ett dummy-spår (i avsaknad av ett lämpligt uppskattat spår), θ k Z , där Z betecknar den dummy-utökade och beställda versionen av Y. I parningsprocessen beräknades avståndet d ( θ k X , θ k Z ) mellan två spår som summan, över alla tidpunkter t i bildsekvensen, för det grindade euklidiska avståndet mellan motsvarande spårpunkter, d ( θ k X , θ k Z ) = ∑ t | θ k X ( t ) - θ k Z ( t ) | 2, ɛ , med θ ( t ) som anger spårets rumsliga position vid tidpunkten t och |. | 2, ɛ = min (|. | 2, ɛ ). Om någon spårpunkt saknades, togs en dummypunkt. Porten ɛ tjänade både för att bestämma om poäng för parade spår matchade vid något t och för att tillämpa en fast straff på poäng som inte matchade. I den här studien sattes to till 5 pixlar, vilket var i storleksordningen av Rayleigh-avståndet i våra data (kompletterande anmärkning 2). Det totala avståndet d ( X , Y ) mellan spåruppsättningarna X och Y , minimerat av Munkres-algoritmen genom att optimera Z , var helt enkelt summan över alla k av avståndet d ( θ k X , θ k Z ) mellan parade spår.

På denna grundval övervägde vi 14 olika aspekter av spårningsnoggrannhet, som vi sammanfattade i fem resultatmått. De fem måtten (kompletterande anmärkning 3) var följande.

1. a ( X , Y ) = 1 d ( X , Y ) / d ( X , ∅). ∅ anger en uppsättning dummy-spår; Därför är d ( X , ∅) det maximala möjliga totala avståndet (fel) från markens sanning. Måttet sträcker sig från 0 (värst) till 1 (bäst), vilket indikerar den totala graden av matchning av mark-sanningen och uppskattade spår utan att ta hänsyn till falska (icke-parade uppskattade) spår.

2. P ( X , Y ) = ( d ( X , ∅) - d ( X , Y )) / ( d ( X , ∅) + d (Ȳ, ∅)). Ȳ anger uppsättningen med falska spår, och d (Ȳ, ∅) är motsvarande strafftermin. Måttet sträcker sig från 0 (värst) till α (bäst) och är i huvudsak α med en bestraffning av icke-parade uppskattade spår.

3. JSC = TP / (TP + FN + FP). Detta är Jaccard-likhetskoefficienten för spårpunkter. Det sträcker sig från 0 (värst) till 1 (bäst) och kännetecknar den totala prestanda för partikeldetektering. TP (true positives) anger antalet matchningspoäng i de optimalt parade spåren; FN (falska negativ), antalet dummypunkter i de optimalt parade spåren; och FP (falska positiver), antalet icke-matchande poäng inklusive de för falska spåren.

4. JSC θ = TP θ / (TP θ + FN θ + FP θ ). Detta är Jaccard-likhetskoefficienten för hela spår istället för enspårspoäng. På samma sätt som JSC varierar det från 0 (värst) till 1 (bäst). TP θ anger antalet uppskattade spår parade med mark-sanningsspår; FN θ , antalet dummy-spår parade med mark-sanningsspår; och FP θ , antalet falska spår.

5. RMSE, rms-felet, indikerar den totala lokaliseringsnoggrannheten för matchande punkter i de optimalt parade spåren (TP som i JSC).

Inlämning av spårningsresultat

Inte alla lag lämnade resultat för alla 48 fall. Vissa av deras metoder var inte utformade för att hantera allvarliga brus eller mer komplexa former eller dynamik. Vissa metoder (tabell 1) utvecklades för spårning i endast tvådimensionell (2D) tidsserie och kunde inte tillämpas på 3D-fall. Och vissa lag rapporterade om otillräcklig tid för att slutföra spårningen av alla fall inom den 3-veckors tävlingsfasen. Icke desto mindre, av de 48 (data) × 14 (team) = 672 möjliga spårningsresultat, överlämnades 505 (75%) till den oberoende utvärderaren, som beräknade värdena för alla prestandamått (tilläggstabell 2), verifierade resultaten (kompletterande Tabell 3) och uppmätta de beräkningstider som behövs med metoderna (kompletterande tabell 4).

Metodernas prestanda

För varje spårningsmetod beräknades värdena på prestandamåtten för varje datafall för vilket spårningsresultaten lämnades in. Baserat på vår analys på beräknade värden studerade vi prestandan för de olika metoderna som en funktion av partikeldynamiken (de olika biologiska scenarierna modellerade), densitet och signalnivå (fig. 2 och kompletterande tabell 2) såväl som i termer av deras erforderliga beräkningstider (kompletterande tabell 4). Därefter rangordnade vi metoderna enligt bästa resultat per fall (kompletterande tabeller 2 och 4) enligt beskrivningen i onlinemetoderna. Från dessa rankningar betraktade vi de 3 bästa metoderna (Fig. 3) och studerade effekterna av att minska värdet på gate-parametern ɛ (Kompletterande tabell 5).

Värden för tre prestandamätningar ( α , β och RMSE) är ritade som en funktion av densitet (låg, medelhög och hög) och SNR för scenario 1. ( a ) α- värden (poängsättning matchning mellan mark-sanning och uppskattade spår) för varje densitet. ( b ) ß- värden ( α- värden med en straff för uppskattade spår som inte matchar) för varje densitet. ( c ) RMSE-värden (poäng lokaliseringsnoggrannhet) för varje densitet. För vissa metoder är raderna ofullständiga, vilket indikerar saknade (inte skickade) spårningsresultat.

Bild i full storlek

  • Ladda ner Excel-källdata

Cellerna färgkodas enligt metodnummer (tabell 1).

Bild i full storlek

Den globala observationen från resultaten är att ingen partikelspårningsmetod fungerade bäst för all data. Icke desto mindre, av de 14 konkurrerande metoderna, befolkade vissa toppraden i de olika prestandamåtten betydligt mer än andra (Fig. 3). Att räkna antalet topp-3-händelser leder till slutsatsen att metoderna 5, 1 och 2 (i denna ordning) totalt sett var mest exakta. Men detta tillvägagångssätt gynnar naturligtvis metoder för vilka endast delvis resultat lämnades in, och en närmare titt visar att vissa av dessa metoder faktiskt presterade bättre för specifika förhållanden. Exempel inkluderar metod 3, som fungerade bäst med avseende på α , β , JSC och JSC θ för de högre SNR-uppgifterna i scenarie 3 och var bland de 3 bästa metoderna för många fall av scenario 1 (de enda två scenarierna för vilka resultat lämnades in för denna metod); metod 4, som fungerade bäst med avseende på a och ß för de högre SNR-uppgifterna i scenario 2 (de enda uppgifterna för vilka resultaten lämnades in för denna metod) och i de flesta fall också var den bästa när det gäller RMSE för dessa data; metod 7, som visade de bästa resultaten i termer av båda JSC-mätningarna för högre SNR-data i scenario 1; metod 8, som, särskilt i termer av a och p , presterade bäst eller näst bäst för data med högre SNR i scenario 1 men också för några av de lägre SNR-uppgifterna i andra scenarier; metod 11, som presterade bäst eller näst bäst i termer av a , ß och JSC för alla fall av scenario 3 såväl som för många fall av scenario 2; metod 12, som, i termer av RMSE, var en topp 3-metod i ungefär hälften av fallen; och metod 13, som var särskilt stark för data med lägsta SNR. När det gäller beräkningstid presterade metod 1 tydligt bäst (snabbast) följt av metoder 13, 9 och 2 (i denna ordning). Även om minskningen av ɛ påverkade noggrannhetsrankingen i viss utsträckning, hittades samma metoder bland de 3 bästa metoderna för de givna fallen (kompletterande tabell 5).

Genom att analysera trender observerade vi att inom ett givet scenario var spårningsprestanda beroende av partikeltäthet och SNR. Som förväntat, i termer av a , P , JSC och JSC decreased , minskade metodernas prestanda i allmänhet med ökande densitet (fig. 2a, b och kompletterande tabell 2). Trots att antalet partiklar i scenen ökade tiofaldigt från lägsta till högsta täthet, sjönk inte prestandan med samma faktor; metoderna har således en viss robusthet med avseende på ökande partikeltäthet. Som förväntat minskade prestandan i allmänhet mycket starkt med minskande SNR, med värdena för de flesta åtgärder sjönk till nästan 0 vid SNR = 1. Prestanda sjönk särskilt snabbt under SNR = 4, i linje med och bekräftade tidigare fynd 25, 27 . I termer av RMSE (fig. 2c och kompletterande tabell 2) visade metoderna ett liknande beroende av SNR (dock inte lika starkt) men praktiskt taget inget beroende av partikeltäthet. Detta kan förklaras utifrån det faktum att RMSE-beräkningar endast var begränsade till matchade spårpunkter (kompletterande anmärkning 3). Emellertid berodde lokaliseringsprestanda på scenariot. I scenarierna 1 och 3, som hade relativt enkla partikelformer (rotationssymmetriska 2D-punktspridningsfunktioner (PSF)), kunde de flesta metoder uppnå subpixel-lokaliseringsnoggrannhet för SNR = 4 och SNR = 7, och vissa till och med för SNR = 2 I scenarierna 2 och 4, som hade mer komplexa partikelformer (asymmetriska Gaussians eller 3D PSF), var däremot de flesta metoder betydligt mindre exakta. Detta kan hänföras till den teoretiskt högre osäkerheten i lokalisering av asymmetriska objekt och till det faktum att de flesta metoder i denna studie inte specifikt utformades för sådana data och använde suboptimala metoder.

Frågan uppstår vad som skiljer de bästa metoderna från de andra metoderna när det gäller underliggande algoritmer. När det gäller partikeldetektering, använde alla metoder en serie bildbehandlingssteg, med många gemensamma effekter mellan dem (tabell 1 och kompletterande anmärkning 1). Det generella tillvägagångssättet för upptäckt är att först förbereda bilderna för att minska brus och selektivt förbättra objekt (med hjälp av median, wavelet-baserade, Gauss, Laplacian-of-Gaussian eller andra filter), för att sedan identifiera framstående platser (ofta med lokal-maxima-upptäckt eller tröskelvärde) och slutligen, för att uppskatta mittkoordinaterna för dessa fläckar (med användning av Gaussisk montering eller intensitetsbaserad centroidberäkning, eller genom att helt enkelt ta koordinaterna för de lokala maxima). De bäst presterande metoderna hade var och en något annorlunda exekvering utan att vara konceptuellt mycket olika från några av de lågpresterande metoderna. Detta antyder att noggrann numerisk implementering och parameterställning av algoritmerna var viktiga faktorer för framgång. Vissa av metoderna (1, 8 och 12) gjorde extra ansträngningar i lokaliseringssteget (iterativ centroidberäkning eller parabolisk interpolering), vilket kan förklara deras överlägsna prestanda.

När det gäller länkning av detekterade partiklar, användes de bästa metoderna med multiframe och / eller multitrack-optimering, som går utöver den enkla närmaste grannlänningen (tabell 1 och kompletterande anmärkning 1). I synnerhet användes Kalman-filtrering (metod 5), spårning av flera hypoteser (metoder 2 och 3) och andra optimeringsmetoder (metoder 1, 4 och 11). Om en metod med två ramar användes (metoder 12 och 13), var det i kombination med ett gap-stängningsschema, i huvudsak att kombinera resultat från flera ramar för att bygga mer konsekventa spår. Liknande scheman användes dock också av många av metoderna med låg prestanda. Snarare tycks nyckelfaktorn som skiljer de bästa metoderna vara att de uttryckligen använde tillgänglig (eller uppmätt) kunskap om partikelrörelsen i varje scenario, medan många av de andra metoderna gjorde det i mindre utsträckning eller till och med använde (implicit eller uttryckligen) en olämplig modell helt och hållet. Det kan hävdas att detta inte var rättvist och att de bästa metoderna kanske var övertrenade. I biologiska experiment, där naturen inte ger oss en grund-sanningsutbildningsuppsättning, rekommenderas det dock att använda samma strategi: bedöma (teoretiskt eller genom initial mätning av de verkliga data) huvudparametrarna för avbildningsprocessen och objektet egenskaper (som de som beaktats i denna studie), använd denna förkunskap för att generera syntetiska träningsdata (med marken sanningen) som efterliknar de verkliga data, använd en lämplig bildanalysmetod och finjusterar dess parametrar på syntetdata och slutligen, tillämpa den finjusterade metoden på riktiga data. Denna studie ger experimentella experter verktyg för att göra just det. Dessutom kan de presenterade resultaten (fig. 2 och kompletterande tabell 2) användas antingen för att förutse framgångsgraden för automatiserad partikelspårning med tanke på bildkvaliteten eller för att bestämma den bildkvalitet som krävs för att säkerställa en önskad prestandanivå enligt de olika kriterierna .

Analys av biofysiska åtgärder

Även om vi använde en omfattande uppsättning kvantitativa mätningar baserade på begrepp som också användes inom andra områden, kan andra, mer specifika åtgärder vara önskvärda för specifika biofysiska analyser. Sådana åtgärder kan enkelt tillämpas i efterhand, eftersom alla resultat från vår studie är tillgängliga för allmänheten. För att illustrera detta utförde vi ytterligare analyser av spårningsresultaten för metoderna som ingår i denna studie. Specifikt, för varje metod och för varje fall för vilket resultat lämnades in för den metoden, beräknade vi medelkvadratisk förskjutning (MSD) för ett representativt intervall av tidsintervall (kompletterande tabell 6). De resulterande MSD-kurvorna (kompletterande figurerna 1, 2, 3, 4) representerar det uppskattade dynamiska beteendet hos partiklarna. I allmänhet bekräftade dessa resultat vårt konstaterande att noggrannhet ökar med ökande SNR och minskande partikeltäthet. Vidare observerade vi att om partikelrörelse är mer rent diffusiv (som i vesikelscenarierna i vår studie) snarare än riktad (som i mikrotubularscenarier), är de flesta metoder mindre känsliga för SNR för att uppskatta MSD och ger goda uppskattningar också för SNR så lågt som 2 eller till och med 1. Detta kan förväntas, eftersom i detta fall förskjutningarna från en tidpunkt till nästa är okorrelerade, och spårväxlingsfel har mycket mindre påverkan om alla partiklar utsätts för samma diffusionsprocess. Vi observerade också att i fallet med en riktad rörelsekomponent (alla betraktade scenarier utom vesikelscenarierna) finns det en allmän tendens med många metoder att underskatta MSD. Detta kan förklaras av det faktum att längre partikelhopp är mer benägna att missa (spårningsmetoderna kan vara för restriktiva) och att spårväxlingsfel förspännar resultaten mot diffus rörelse över längre tidsskalor (om vi antar att spåranvisningarna är slumpmässiga och okorrelerat). Vi fann att i stort sett de bästa prestandametoderna (fig. 3) också fungerade bäst med avseende på MSD-uppskattning för de angivna fallen, vilket bekräftade lämpligheten för de åtgärder vi använde för tävlingen. Liknande observationer följde från analys av resultaten av en uppskattning av omedelbar hastighet (kompletterande tabell 7 och kompletterande figurer 5, 6, 7, 8). Slutligen, vår retrospektiva analys av fördelningen av lokaliseringsfel (kompletterande tabell 8 och kompletterande figurer 9, 10, 11, 12) stöder och förbättrar våra slutsatser ovan angående de bästa resultatmetoderna i termer av RMSE.

Diskussion

Vi erkänner att vår studie var en möjlig jämförelse av metoder för spårning av partiklar, och framtida studier kan utvidga vår i någon av dess tre huvudaspekter: metoder, data eller mått. När det gäller det första var vår studie genom design begränsad till de metoder som utvecklats av lag som var villiga att delta i tävlingen vid den tidpunkt då den hölls. Lyckligtvis inkluderades många traditionella och mer sofistikerade spårningsmetoder, och vi tror att vår studie var representativ för dagens teknik. När det gäller data var vår studie begränsad till datorsimuleringar, eftersom detta möjliggjorde en kontrollerad analys (baserad på absolut grund sanningen) av att spåra prestanda som en funktion av olika faktorer. Även om vi tror att vi beaktade de viktigaste faktorerna (dynamik, densitet och signal), kan ytterligare faktorer modelleras, såsom icke-enhetlig bakgrund (mer cellliknande), partikelform och storlek (varierande inom bilder och över tid), bildhastighet ( relativt partikelhastighet) och fotblekning (möjliggör effektivt en tidsberoende SNR). Men inte bara skulle en fullständig analys av alla dessa faktorer hämmas av "förbannelsen av dimensionellitet" - det vill säga ett ökat svårighets- och resursbehov - utan vi kan också förvänta oss att spårningsmetoder bara fungerar sämre i sådana (mer komplexa) data ; även med de flesta av våra uppgifter, ingen metod utförs någonstans nära perfekt. Den ultimata utmaningen återstår att få verkliga experimentella bilddata med så noggrannhet som möjligt marken sanningen. Det har exempelvis föreslagits att använda piezostegskontrollerad partikelrörelse 60 .

Trots oundvikliga praktiska begränsningar tror vi att den aktuella studien är ett viktigt steg mot en mer objektiv jämförelse av partikelspårningsmetoder, vilket ger viktiga resultat och lärdomar för framtida utveckling och experiment. Vi identifierade viktiga faktorer som påverkar partikelspårning i praktiken och utvecklade programvara för datorsimulering av utmanande bilddata för att analysera spårningsprestanda som en funktion av dessa faktorer. Vi identifierade också viktiga åtgärder för att kvantitativt poängsätta uppskattade spår med avseende på mark-sanningsreferensspår och utvecklade programvara för att automatiskt beräkna dem. Programvaruverktygen är offentligt tillgängliga som en del av den här artikeln och kan användas eller ytterligare utvidgas av någon av dem som är intresserade av att benchmarka sina partikelspårningsmetoder. Vi mobiliserade fältet och stimulerade grupper över hela världen att jämföra sina metoder i en öppen tävling för att förbättra transparensen för potentiella användare av metoderna. Slutligen använde vi tävlingsramen för att jämföra aktuella modernaste partikelspårningsmetoder, och vi utförde ytterligare analyser för att illustrera möjligheten att retrospektivt studera påverkan på specifika biofysiska parametrar utöver de som beaktades i själva tävlingen.

När vi stänger denna artikel sammanfattar vi de viktigaste lärdomarna för användare och utvecklare. Våra resultat indikerar att det för närvarande inte finns någon universellt bästa metod för spårning av partiklar. Användare bör vara medvetna om att en metod som rapporteras fungera för vissa experiment kanske inte är det rätta valet för deras tillämpning. Som vi påpekade är det tillrådligt att använda syntetiska bilddata som efterliknar de verkliga data som finns, både för att hitta de bästa parameterinställningarna för en given metod och för att bedöma dess potentiella prestanda. För detta ändamål kommer verktygen som har utvecklats som en del av vår studie visat sig vara användbara för en mängd biologiska scenarier, och de presenterade resultaten gör det redan möjligt för användare att förutse resultatet av de testade metoderna för deras applikationer. Användare bör vara särskilt försiktiga när SNR för sina bilder är avsevärt lägre än 4 (med vår definition av SNR), även om de är mer diffusiva (snarare än riktade) partikelrörelser, de flesta metoder kan ge exakta uppskattningar av dynamik även för lägre SNR. När man väljer en metod bör användarna också komma ihåg att metoder baserade på multiframe- och / eller multitrack-optimeringsscheman i länkningssteget, såväl som väl avstämda rörelsemodeller, sannolikt kommer att prestera bättre än metoder som använder enkla per-ram och per -partikeln närmaste granne närmar sig. Även om mer sofistikerade metoder kan vara svårare att förstå och kontrollera, kan de vara värda tiden att investera. För utvecklare betonar vikten av parameterställning och bästa möjliga användning av förkunskaper om datan behovet av domänmodellering i beräkningsbildanalys och föreslår användning av inlärningsbaserade spårningsmetoder. Eftersom ingen av de testade metoderna utförs perfekt på någon av uppgifterna, och verkliga biologiska data kan vara ännu mer komplexa, förblir strävan efter bättre partikelspårningsmetoder. Resultaten från den här studien kommer att tjäna som en användbar baslinje för att testa framtiden för framtida metoder.

metoder

Programvaruimplementeringar.

Programvaran för helautomatiserad generation av simulerade bilddata som användes i denna studie och mjukvaran för beräkning av prestandamåtten (Kompletterande anmärkning 4) skrevs på Java-programmeringsspråket som plug-ins för den öppna bioimage-informatikplattformen Icy 61 (Kompletterande Programvara). Programvaruimplementeringar av partikelspårningsmetoderna för de deltagande lagen (kompletterande anmärkning 1) skrevs med olika programmeringsspråk och plattformar, inklusive Java (fristående moduler eller plug-ins för ImageJ / Fiji 62 eller Icy), C ++ (tillhandahållen som källa kod eller körbar) och Matlab (MathWorks).

Analys av resultat.

För varje spårningsmetod och varje prestandamått kan 48 värden i princip beräknas, vilket motsvarar de 48 datafallen (olika kombinationer av partikeldynamik, densitet och signalnivåer). Men inte alla lag lämnade spårningsresultat för alla fall, vilket utesluter möjligheten att göra en övergripande jämförelse och rangordning av de olika metoderna baserade på alla fall. Vi observerade att team som inte använde sin metod i alla 48 fall i allmänhet fokuserade på ett eller flera av de fyra dynamiksscenarierna som representerar olika biologiska tillämpningar, men även per scenario använde inte alla team sin metod i alla fall. Därför beslutade vi att rangordna metoderna enligt bästa prestanda per mått och per datafall (Fig. 3 och kompletterande tabell 2).

Verifiering av spårningsresultat.

Mindre skillnader mellan de ursprungligen skickade spårningsresultaten och de verifierade resultaten var att förvänta sig eftersom vissa av mjukvaruverktygen konverterades till en annan plattform för att möjliggöra exekvering på det enskilda utvärderingssystemet, och vissa metoder var sannolikt. Därför ansågs skillnader för varje metod vara acceptabla (reproducerbara) om deras medel för var och en av a , p , JSC och JSC θ var inom 3% och RMSE var inom 0, 5 pixel. I de allra flesta fall var skillnaderna acceptabla, och de större skillnaderna i vissa fall kunde spåras tillbaka till bugfixar och mindre förbättringar i programvaran eller parameterinställningarna som används för verifiering jämfört med de ursprungliga versionerna. I mycket få fall kunde resultaten inte verifieras på grund av hårdvaru- eller programvarubegränsningar (tilläggstabell 3). För analysen användes prestandavärden som beräknades från de ursprungligen skickade spårningsresultaten, inte de verifierade resultaten.

Betygning av beräkningstider.

Beräkningstider för alla metoder mättes på en enda arbetsstation (64-bitars Intel Xeon X5550 2, 67 GHz-processor med 24 GB RAM och kör Microsoft Windows 7 Professional eller Linux Fedora 16) för att möjliggöra en rättvis jämförelse. Vi tidsinställde endast de fall där spårningsresultaten lämnades in och verifierades. På liknande sätt som analysen av mätningarna av noggrannhetsprestanda rangordnade vi metoderna enligt bästa timing per datafall (fig. 3 och kompletterande tabell 4).

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande text och figurer

    Kompletterande figur 1–12, kompletterande tabell 5 och kompletterande anmärkningar 1–4

Excel-filer

  1. 1.

    Kompletterande tabell 1

    Parametervärden för partikelspårningsmetoderna

  2. 2.

    Kompletterande tabell 2

    Prestandavärden för partikelspårningsmetoderna

  3. 3.

    Kompletterande tabell 3

    Verifiering av prestandavärden

  4. 4.

    Kompletterande tabell 4

    Tidpunkter för partikelspårningsmetoderna

  5. 5.

    Kompletterande tabell 6

    Medelkvadratförskjutningsvärden

  6. 6.

    Kompletterande tabell 7

    Hastighetshistogramfackvärden

  7. 7.

    Kompletterande tabell 8

    Värden för lokaliseringshistogramfack

videoklipp

  1. 1.

    Kompletterande video 1

    Illustration av simulerade bilddata för Scenario 1 vid medelpartikeltäthet och ett signal-till-brusförhållande på 4.

  2. 2.

    Kompletterande video 2

    Illustration av simulerade bilddata för Scenario 2 vid medelpartikeltäthet och ett signal-till-brusförhållande på 4.

  3. 3.

    Kompletterande video 3

    Illustration av simulerade bilddata för Scenario 3 vid medelpartikeltäthet och ett signal-till-brusförhållande på 4.

  4. 4.

    Kompletterande video 4

    Illustration av simulerade bilddata för Scenario 4 vid medelpartikeltäthet och ett signal-till-brus-förhållande på 4. Endast skiva nummer 5 för varje 3D-stack i tidsserien visas. Se tilläggsvideo 10 för en volymåtergivning av samma data.

  5. 5.

    Kompletterande video 5

    Illustration av simulerade bilddata för Scenario 1 vid låg partikeltäthet och ett signal-till-brusförhållande på 4.

  6. 6.

    Kompletterande video 6

    Illustration av simulerade bilddata för Scenario 1 med hög partikeltäthet och ett signal-till-brusförhållande på 4.

  7. 7.

    Kompletterande video 7

    Illustration av simulerade bilddata för Scenario 2 vid medelpartikeltäthet och ett signal-till-brusförhållande på 1.

  8. 8.

    Kompletterande video 8

    Illustration av simulerade bilddata för Scenario 2 vid medelpartikeltäthet och ett signal-till-brusförhållande på 2.

  9. 9.

    Kompletterande video 9

    Illustration av den simulerade bilddata för Scenario 2 vid medelpartikeltäthet och ett signal-till-brusförhållande på 7.

  10. 10.

    Kompletterande video 10

    Illustration av den simulerade bilddata för Scenario 4 vid medelpartikeltäthet och ett signal-till-brusförhållande av 4. En volymåtergivning av tidsserien visas. Se kompletterande video 4 för en enda bit av varje 3D-stack i samma data.

Zip-filer

  1. 1.

    Tilläggsprogramvara

    Programvara för simulering och utvärdering