Kvantifiera den lokala upplösningen av kryo-em densitetskartor | naturmetoder

Kvantifiera den lokala upplösningen av kryo-em densitetskartor | naturmetoder

Anonim

ämnen

  • Kryoelektronmikroskopi
  • Bildbehandling
  • proteiner
  • programvara

Abstrakt

Vi föreslår en definition av lokal upplösning för tredimensionell elektronisk kryo-mikroskopi (kryo-EM) -densitetskartor som använder lokala sinusformade funktioner. Vår algoritm har inga fria parametrar och är tillämplig på andra avbildningsmodaliteter, inklusive tomografi. Genom att utvärdera den lokala upplösningen för rekonstruktioner med en partikel och subtomogramvärden för fyra exempel på datauppsättningar rapporterar vi variabel upplösning över ett 4- till 40-Å intervall.

Huvudsaklig

Olika upplösningsåtgärder för kryo-EM har föreslagits under de senaste tre decennierna 1 . Till skillnad från den klassiska "Rayleigh" -upplösningen som kännetecknar instrument, kännetecknar dessa mått funktioner som finns i datan. Ett vanligt använt kryo-EM-upplösningsförfarande är Fourier shell correlation (FSC) -förfarandet. Den kvantifierar styrkan i förhållande till brus hos sinusformade funktioner över hela densitetskartan. FSC producerar en enda upplösning för hela densitetskartan. FSC kan inte utvärdera lokalt varierande upplösning, vilket kan orsakas av provheterogenitet och bildbehandlingsfel 2 . Vårt mål var att övervinna denna begränsning av FSC genom att presentera en definition av lokal upplösning som kan bedöma variabel upplösning över densitetskartan.

Som en upplösningsåtgärd har FSC andra begränsningar. FSC använder delade datamängder, det vill säga bilderna grupperas i två halvor som vardera bidrar till en separat densitetskarta. Upplösningen mäts med hjälp av båda densitetskartorna. Beräkningssteget vid vilket uppgifterna delas kan påverka FSC-upplösningen 3 . Vidare kräver beräkning av upplösningen från FSC en tröskel vars värde och tolkning har diskuterats 1 . Alternativa tillvägagångssätt 4, 5 tar upp några av dessa brister men definierar inte lokal upplösning.

De senaste strukturella studierna 6, 7 har använt fönstret FSC för lokal upplösning 8 . Windowed FSC maskerar kartorna med split-data set densitet med ett fönster och beräknar FSC-upplösningar när fönstret rör sig genom kartan. Detta kräver en fönsterstorleksparameter, vars värde ofta är godtyckligt. Även om denna metod implicit genomför flera tester på densitetskartan, kontrollerar den inte den falska upptäcktsfrekvensen (FDR) i tröskelvärdet för FSC. FDR-kontrollen är kritisk eftersom lokala upplösningstester upprepas vid många punkter i volymen. Dessutom finns det databeroende mellan angränsande punkter som fönstret FSC inte står för.

Vi föreslår en matematisk teori och en effektiv algoritm för att mäta lokal upplösning som tar upp alla ovanstående begränsningar. Teorin (onlinemetoder) är baserad på följande idé: en λ- Å-funktion finns vid en punkt i volymen om en tredimensionell (3D) lokal sinus med våglängd λ är statistiskt detekterbar ovanför brus vid den punkten. Ett sannolikhetsförhållande hypotestest av det lokala sinusformet jämfört med brus kan detektera denna funktion vid ett givet P- värde (vanligtvis P = 0, 05). Vi definierar den lokala upplösningen vid en punkt som den minsta λ där den lokala sinusformen är detekterbar, och vi står för flera tester med en FDR-procedur.

Vår algoritm, som heter ResMap, implementerar denna teori. ResMap inleds med att initiera en lokal sinusmodell vid λ = 2 μ , där μ är voxelavståndet i Å. Test av sannolikhetsförhållanden utförs vid alla voxels i volymen, med uttrycklig FDR-kontroll som står för databeroende. Voxlar som klarar testet tilldelas upplösning λ , medan de som misslyckas testas vid ett större λ . Algoritmen producerar en lokal upplösningskarta med ett nummer tilldelat varje voxel på densitetskartan (Fig. 1a). Det finns inga algoritmparametrar att ställa in, och lokal upplösning kan definieras otvetydigt vid det givna P- värdet.

( a ) ResMap-algoritmen. Våglängden λ initialiseras till två gånger voxelavståndet. Test av sannolikhetsförhållanden avgör om den lokala sinusmodellen är detekterbar vid varje voxel. Voxlar som klarar testet kontrolleras för falska upptäckter. Voxlar som misslyckas med testet testas igen efter att λ har ökat (onlinemetoder). ( b ) Kosin- och sinusliknande H2-funktioner orienterade längs en axel. Vitt och svart anger respektive negativa och positiva delar (kompletterande anmärkning 1). ( c ) Vänster, skär genom bullriga simulerade täthetskartor med voxelavstånd på 1 Å. Rätt, radiella tomter. ResMap-H2-upplösningsuppskattningar visar en stadig förbättring när den simulerade signalen blir mer varierande. Nedre, motsvarande resultat för 1 / f- brus visar robusthet mot icke-vitt brus (Kompletterande bild 1). σ 2, varians.

Bild i full storlek

I ResMap approximeras lokala sinusoider med våglängd λ av en uppsättning funktioner som kallas H2. Denna uppsättning är härledd från gaussiska fönsterfönster av andra ordningen Hermite-polynom 9, 10, med fönsterstorlek proportionell mot våglängden λ (fig. 1b och onlinemetoder). ResMap-resultat med H2 betecknas specifikt som ResMap-H2. H2-funktioner är styrbara, så deras linjära kombination kan lokalt modellera valfri godtycklig orienterad lokal sinus i tre dimensioner (kompletterande anmärkning 1).

Vid en fast våglängd λ kan standard sannolikhetsförhållandestest 11 detektera om en lokal sinus är närvarande i den styrbara funktionens ungefär. Testet kräver en uppskattning av brusvariansen, som vi får från regionen som omger partikeln. Testet med sannolikhetsförhållanden beror inte på hur denna varians uppskattas. Andra brusuppskattningar, till exempel de som erhålls genom att analysera split-data set densitetskartor, kan också användas. Det minsta λ vid vilket testet med sannolikhetsförhållanden passerar vid ett givet P- värde definierar upplösningen. Vi kontrollerar för falska upptäckter med hjälp av en metod som tar hänsyn till beroenden mellan test 12 (Online Methods).

Vi utvärderade först ResMap med hjälp av en simulerad densitetskarta av en radiellt symmetrisk "kvittsignal" vars våglängd minskade med radie. Vi lade till vitt och icke-vitt brus med två olika variansnivåer (kompletterande fig 1). ResMap-H2 uppskattningar visar ett intuitivt förhållande till de underliggande signalfunktionerna (Fig. 1c). Att öka bruset förvärrar dessutom upplösningen vid varje punkt. ResMap-H2-resultat för denna simulering uppvisar en krusning i övergångarna mellan signalens toppar och dalar. Detta beror på att övergångar har mer energi i de högre frekvenserna och således kan detekteras med lokala sinusoider av mindre skala.

Vi testade sedan ResMap med fyra olika täthetskartor som sträcker sig från nästan atomiska enpartikel-rekonstruktioner (∼ 4 Å) till typiska subtomogrammedelvärden (∼ 40 Å). Alla resultat erhölls med ett P- värde av 0, 05. Vi jämförde ResMap-H2-resultat med vanliga och guldstandard 3 FSC-tomter och med fönstret FSC-kartor.

Först analyserade vi en enkelpartikel 80S ribosomrekonstruktion (EMDataBank: EMD-2275) 13 . Den ursprungliga publikationen uppskattade en upplösning av 4, 5 Å (guld-standard FSC till 0, 143) och noterade suddigheten från heterogeniteten i 40S-underenheten (fig. 2a). Våra ResMap-H2-upplösningsuppskattningar faller mellan 4, 5 och 5, 5 Å i 60S-underenheten och mellan 4, 5 och 9 Å i 40S-underenheten. Vissa delar av 40S är lika löst som 60S, vilket ResMap-H2-resultat visar i delen av 40S intill 60S. Median ResMap-H2-upplösningarna i 40S- och 60S-subenheterna är 6, 5 respektive 5 Å, vilket överensstämmer med en FSC-plot-karta – mot – atommodell (Fig. 3J i den ursprungliga publikationen 13 ). Våra ResMap-H2-resultat pekar dessutom på en minskning av upplösningen nära partiklarnas kanter. Detta kan bero på bildinställningsfel eller interaktion mellan ribosomen och lösningsmedlet.

Färgstaplar gäller både för volymer och skivor. 3D-visualiseringar återges med UCSF Chimera 17 . Vita streckade linjer i färgfält indikerar FSC 0, 133 och 0, 5 trösklar från de ursprungliga publikationerna. ( a ) 80S ribosom (EMD-2275). ResMap-H2-resultat indikerar en minskad upplösning inom 40S-underenheten och nära partiklarnas kanter. ( b ) Tulane-virus (EMD-5529). ResMap uppskattar lägre upplösningar i de utskjutande domänerna, medan skalet verkar vara väl upplöst. ( c ) Subtomogram GroEL (oavskuren version av EMD-2221). ResMap-H2-resultat visar en a-helix med varierande upplösningsnivåer (kompletterande video 1). ( d ) Subtomogram ATP-syntasdimer (oavskuren version av EMD-2161). ResMap avgränsar den centrala dimern som bättre upplöst än de angränsande dimererna och membranet.

Bild i full storlek

För det andra analyserade vi en rekonstruktion av Tulane-virus med en partikel (EMD-5529) 14 . Den ursprungliga publikationen uppskattade en upplösning på 6, 3 Å (guldstandard med 0, 133) för hela partikeln och framhöll den stora flexibiliteten hos virusets utskjutande domäner. Våra ResMap-resultat bekräftar dessa fynd, beräknar upplösningen på skalet mellan 6 och 7 Å och upplösningen för de utskjutande domänerna mellan 7 och 9 Å (Fig. 2b).

För det tredje analyserade vi ett subtomogrammedelvärde för GroEL (EMD-2221) 15 . Den ursprungliga publikationen rapporterade en 8, 4-Å (FSC vid 0, 5) upplösning. Våra ResMap-H2-uppskattningar tyder på att många a-helices är upplösta upp till 7, 5 Å (Fig. 2c). Detta är tydligt i närbildsbilden som visar den centrala delen av en spiral vid 7, 5 Å men slutet och den angränsande slingan vid ∼ 9, 5 Å. Dessa resultat bekräftas i kompletterande video 1, i vilken den centrala delen av spiralen visas att bibehålla sin rörformiga struktur under ett område av yttröskelvärden.

Slutligen analyserade vi ett subtomogrammedelvärde av ATP-syntasdimerer (EMD-2161) 16 . Den ursprungliga publikationen uppskattade en 37-Å (FSC till 0, 5) upplösning. Våra ResMap-H2-upplösningsuppskattningar ligger mellan 30 och 42 Å i de centrala dimererna, vilket är bättre upplöst än de angränsande dimererna och membranet (Fig. 2d). De centrala dimerernas kanter verkar ha en högre upplösning än kärnorna. Detta beror sannolikt på de starka mörka banden som omger partikeln, vilket är typiskt för partiklar som rekonstruerats utan korrigering av kontrastöverföringsfunktion.

ResMap-resultat överensstämmer med fönstret FSC men skiljer sig åt i vissa viktiga aspekter. Svängda FSC-resultat verkar vara känsliga för den fasta storleken på det användardefinierade fönstret (tilläggsfigur 2). För stor fönsterstorlek kan inkludera lösningsmedlet i FSC-beräkningen och leda till underskattning av upplösningen (kompletterande figur 3). ResMap lider inte av denna effekt eftersom lokaliseringsusäkerheten i den gemensamma rumsfrekvensdomänen minimeras genom användning av H2-funktionerna. ResMaps beteende för typiska P- värden visas i kompletterande figur 4. Dessutom kan fönstret FSC vara långsamt och ta någonstans mellan 25 minuter och 4 timmar att beräkna, beroende på fönsterstorlek; ResMap kräver vanligtvis några minuter.

För alla fall ovan var ResMap-H2 lokala upplösningar inom den rekonstruerade partikeln nästan alltid mellan 0, 5 och 0, 143 tröskeln för FSC i de ursprungliga publikationerna. Detta överensstämmer med idén att 0, 5-tröskeln kan vara för konservativ och att 0, 133-tröskeln kan vara för optimistisk 3, 13 . ResMap-H2-resultat överensstämmer dessutom med publicerade flexibilitetsanalyser och matchar också visuellt detaljnivån i täthetskartan.

ResMap är tillgängligt som ett korsplattforms körbart paket med ett enkelt grafiskt användargränssnitt (kompletterande bild 5). Programvaran och testdata är offentligt tillgängliga (Kompletterande programvara; //resmap.sourceforge.net/). Användare kan också använda ResMap på andra fält genom att välja andra funktioner än lokala sinusoider. Exempelvis kan en 2D Gauss-funktion vara lämplig för optisk nanoskopi, medan roterade 2D-bågar kan vara användbara i radioteleskopi.

Den förväntade 2 senaste ökningen av heterogenitetsstudier 6, 7, 13 belyser den pressande utmaningen att utvärdera den lokala upplösningen av kryo-EM-täthetskartor. Vi tror att denna metod med lokal upplösning är både statistiskt rigorös och praktisk och därför utgör ett kritiskt steg för att göra det möjligt för forskare att bedöma kvaliteten på kryo-EM-täthetskartor.

metoder

Detta avsnitt presenterar matematiska detaljer om teorin och algoritmen. Den matematiska formuleringen är i tre dimensioner, men faktiska beräkningar utförs på kolumnvektorer, där elementen i tre dimensioner införs i ordning i vektorn. För att markera denna skillnad visas 3D-variabler i vanlig typ ( A ) och deras vektoriserade motsvarigheter i fetstil ( A ).

Modellera signalen lokalt.

Vi beskriver först hur täthetskartan kan approximeras lokalt av valfri basis. Sedan introducerar vi den 3D-sinusformade funktionsbasen som används i vår algoritm.

3D-densitetskartan S finns i en VxV × V voxel-grupp. Voxellerna indexeras av diskret värderade koordinater x , y , z . Vi hänvisar till en voxel i matrisen som v = ( v x , v y , v z ) där v x , v y , v z är dess koordinater. Den vektoriserade densitetskartan för S är en V 3 × 1-kolonnvektor S.

Anta att W v, a är en sfäriskt symmetrisk Gauss-funktion centrerad vid voxel v med skalningsparameteren α

och att ϕk v, α , k = 1,

.

, K är basfunktioner centrerade vid v . Vi har då

som lokalt approximerar densitetskartan S med basfunktioner ϕ k v, α . Här är √ W D v, α en diagonal matris med √ W v , α längs huvuddiagonalen; Φ v , α är en matris vars kolumner är basfunktionerna v k v , α ; p är en kolonnvektor för koefficienterna för basfunktionerna; och η är noll-medelvärd gaussiskt brus med varians σ 2 . Observera att viktningsfunktionen W v , a bestämmer den rumsliga omfattningen av den lokala modellen.

För att anpassa den lokala modellen till S minimerar vi den vägda kvarvarande summan av kvadrater (WRSS v , α )

med avseende på ß . Minimeringskoefficientvektorn betecknas som

.

3D sinusformade funktioner.

En naturlig grund för densitetskartor är en som innehåller roterade 3D-sinusoider med våglängd Å Å. Tyvärr kräver ett oändligt antal basfunktioner att beskriva alla riktningar i 3D. Ett beräkningsmässigt praktiskt alternativ är att använda styrbara filter 9, 10, som vi kallar "styrbara funktioner". Styrbara funktioner är en ändlig uppsättning funktioner med den egenskapen att varje 3D-rotation av någon av funktionerna produceras av linjära kombinationer av funktionerna 9 (Kompletterande anmärkning 1).

De styrbara funktionerna vi använder är den andra ordningen Hermite polynomial och dess ungefärliga kvadratur, multiplicerad med en Gaussisk funktion. Vi kallar denna uppsättning H2. Elementen i H2 matchar kosinus- och sinusfunktioner upp till deras andra ordningens Taylor-utvidgningsvillkor. De kan också skalas så att deras spektraltopp inträffar vid vilken önskad våglängd som helst. H2-styrbara funktioner är konstruerade av ett par funktioner

där G v , a är den kosinliknande funktionen och H v , är a den sinusliknande funktionen. Den skalära α styr toppfrekvensen och bredden på Gauss-funktionen. Inställning av a = 2 π / λ × √2 / √5 ger en spektraltopp för G v , α och H v , α vid våglängden λ (kompletterande anmärkning 2).

Funktionerna i ekvation (4) består vardera av hermitpolynomet (

) eller dess kvadratur (

) multiplicerad med W , a , den sfäriskt symmetriska Gaussiska viktningsfunktionen. Deras spektraltopp inträffar på frekvensdomänens x- axel eftersom funktionerna är orienterade längs den rumsliga x- axeln. Rotering av G v , α och H v , α så att deras spektraltoppar uppträder längs kikorna och ytorna på en icosahedron ger 6 + 10 styrbara funktioner 3D. Den linjära kombinationen av dessa 16 funktioner producerar alla möjliga rotationer av G v , a och H v , a i tre dimensioner 10, och täcker därmed ett skal i 3D Fourier-domänen (kompletterande anmärkning 1).

Vi betecknar de roterade hermitiska polynomema som

, i = 1,

.

, 6 och

, j = 1,

.

, 10. Dessa polynomer och konstant funktion 1 är vår lokal-sinusoidmodell. Eftersom viktningsfunktionen W , α visas utanför grundmatrisen Φ v , α i ekvation (2), behöver Φ v , α- matrisen endast innehålla de vektoriserade polynomema

där fetstil anger vektorisering.

Test av sannolikhetsförhållanden.

Testning av om uppgifterna i närheten av voxel v stöder den lokala sinusmodellen motsvarar testet av de två hypoteserna

där nollhypotesen

säger att data inte stöder den lokala sinusmodellen (koefficienterna för alla lokala sinusformer är 0). Den alternativa hypotesen

gör det möjligt för koefficienterna att ta något ändligt värde.

Sannolikhetsförhållandetest 11 är ett standardförfarande för att jämföra sådana hypoteser. För detta test beräknar vi ß som maximerar sannolikheten (sannolikheten) under varje hypotes och använder sedan logaritmen för förhållandet mellan de maximerade sannolikheterna. De Ps som maximerar sannolikheten hittas genom att minimera WRSS från ekvation (3) under

och

respektive. Många vanliga statistiska test såsom Pearson χ 2- testet och F- testet härleds från sannolikhetsförhållandestestet (kompletterande anmärkning 3).

En enkel beräkning visar att den negativa logaritmen för log-likelihood-förhållandet, kallad likelihood-ratio-statistiken (LRS), ges av

var

LRS är en skillnad mellan viktade rester mellan nollmodellpassning och lokal sinusformad passning. Det kräver stora värden när den lokala sinusmodellen passar bättre än nollmodellen.

Sannolikhetsförhållandestestet tillämpas genom att jämföra LRS med ett tal c , definierat av

för något P- värde p , vanligtvis 0, 05. Om LRS < c stöder data inte modellen och vi accepterar nollhypotesen. Annars accepterar vi hypotesen att den lokala sinusformade modellen passar uppgifterna.

För att beräkna tröskeln c krävs den statistiska fördelningen av LRS. Tyvärr, på grund av viktningsfunktionen W , a , har LRS ingen statistisk fördelning med slutet form. S T ( Γ 0 - Γ ) S tenderar emellertid asymptotiskt till en vägd summa av χ 2 slumpmässiga variabler ∑ r γ r χ 2, där y är egenvärdena 18 för Γ 0 - Γ . Snabba och exakta numeriska metoder finns tillgängliga för att beräkna sådana fördelningar 19 .

LRS-beräkningen kräver värdet på brusvariansen σ 2 . Vi uppskattar denna varians exakt genom att ta icke överlappande kuber av voxels från området för densitetskartan som omger partikeln. Vi använder följande variansberäknare som rekommenderas för lokal signalmodellering 18

där Cb är en kub med voxels från bakgrunden och B är antalet icke överlappande kuber som finns tillgängliga i bakgrunden. Denna uppskattare är robust mot icke-vitt brus eftersom det endast kräver att brusspektrumet är relativt platt inom skalet i 3D Fourier-utrymme som den lokala sinusmodellen, implicit indikerad med Γ , är ungefärlig.

Brusvariansen kan också uppskattas från skillnadskartan mellan split-data set densitetskartor. I detta fall justeras estimatorn från ekvation (9) för att acceptera kuber av voxels från området inuti partikeln. Brusstatistiken inom och utanför partikeln är nästan identisk (kompletterande anmärkning 4). Båda estimatorerna för brusvarians implementeras i det åtföljande programvarupaketet (kompletterande programvara; //resmap.sourceforge.net/).

Korrektion med flera tester.

Sannolikhetsförhållandet testet väljer mellan två hypoteser vid varje voxel. Eftersom detta test måste upprepas för många voxels i S , krävs någon slags falsk upptäcktsfrekvens (FDR) -kontroll. Testen i angränsande fönster är inte oberoende av varandra. därför använder vi Benjamini-Yekutieli FDR-proceduren 12 som står för beroenden mellan testen.

Sammanfattning.

ResMap fungerar genom att använda ett hypotestest vid varje voxel. Nollhypotesen är att data i närheten av en voxel inte stöder en lokal sinusoid. Den alternativa hypotesen är att data beskriver en lokal sinus. Dessa funktioner är modellerade av 3D-styrbara funktioner. Sannolikhetsförhållandestatistiken används för att bestämma mellan hypoteserna vid ett givet P- värde. Brusvarians uppskattas från området kring partikeln och korrigering med flera tester tillämpas för att utföra testet vid många voxels.

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande text och figurer

    Kompletterande figur 1–5 och kompletterande anmärkningar 1–4

Zip-filer

  1. 1.

    Tilläggsprogramvara

    Python-källkoden för vårt programvarupaket ResMap. Du kan hitta de senaste Mac-, Linux- och Windows-binärerna och användarmanualen på //resmap.sourceforge.net

videoklipp

  1. 1.

    En närbild av ResMap-H2 resulterar under varierande yta

    En närbild av återuppbyggnaden av sub-tomogram av GroEL (EMD-2221). Ytan färgas med hjälp av ResMap-H2-resultat och dess tröskel varieras mellan värden 1 och 1.8 (godtyckliga enheter). En dockad atommodell är synlig genom ytan för att underlätta tolkningen. ResMap-resultat pekar på att delar av alfahalixen upplöses till olika nivåer, vilket visuellt bekräftas när yttröskeln varieras.