Rekonstruera målbara vägar i lungcancer genom att integrera olika omicsdata | naturkommunikation

Rekonstruera målbara vägar i lungcancer genom att integrera olika omicsdata | naturkommunikation

Anonim

ämnen

  • Cell signalering
  • Beräkningsbiologi och bioinformatik
  • Icke-småcellig lungcancer

Abstrakt

Global 'multi-omics' profilering av cancerceller har potentialen att karakterisera signalnätverk som är förknippade med specifika onkogener. Här profilerar vi transkriptomet, proteomen och fosfoproteomet i en panel med icke-småcelliga lungcancer (NSCLC) cellinjer för att rekonstruera målbara nätverk associerade med KRAS-beroende. Vi utvecklar en tvåstegs bioinformatikstrategi för att möta utmaningen att integrera dessa olika datamängder. Vi definierar först en 'overflod-poäng' som kombinerar transkript-, protein- och fosfoprotein-överflöd för att nominera differentiellt rikliga proteiner och sedan använda Prize Collecting Steiner Tree-algoritmen för att identifiera funktionella subnätverk. Vi identifierar tre moduler centrerade på KRAS och MET, LCK och PAK1 och ß-Catenin. Vi validerar aktivering av dessa proteiner i KRAS-beroende (KRAS-Dep) celler och utför funktionella studier som definierar LCK som en kritisk gen för cellproliferation i KRAS-Dep men inte KRAS-oberoende NSCLC. Dessa resultat antyder att LCK är ett potentiellt drogerbart målprotein i KRAS-Dep lungcancer.

Introduktion

Aktiverande mutationer i Ras-onkogenerna karakteriserar 20–40% av all icke-småcellig lungcancer (NSCLC) 1, 2, 3, den främsta orsaken till cancerdödlighet i USA 4, som fastställer Ras-gener som de mest muterade onkogenerna. i denna malignitet. KRAS, NRAS och HRAS, de viktigaste medlemmarna i denna familj av GTPas-proteiner, aktiveras av somatiska mutationer i 20–30%, 1–5% och 1% av NSCLC-fallen, respektive 1 . Muterade Ras har varit inblandade i att aktivera många vägar som kontrollerar cellproliferation och överlevnad; utveckling av läkemedelsbehandlingar som syftar till att störa Ras-aktivitet har emellertid visat sig vara utmanande 1 . Följaktligen har de senaste ansträngningarna fokuserat på att identifiera indirekta mekanismer för att störa Ras-signalering genom att rikta antingen uppströmsaktivatorer eller nedströmseffektorer 5, 6, 7, 8, 9 . För detta ändamål har profileringen av mikrouttrycksgenuttryck använts i stor utsträckning för att definiera expressionssignaturer som karakteriserar Ras-mutationer i cellinjer och tumörer 10, 11, 12, men gensignaturer varierar avsevärt mellan dessa studier.

Komplicering av dessa initiala studier har nyligen visat att NSCLC: er med aktiverande KRAS-mutationer kan stratifieras till KRAS-beroende (KRAS-Dep) eller KRAS-oberoende (KRAS-Ind) grupper enligt deras krav på mutant KRAS-signalering för att upprätthålla tillväxt och spridning 8, 9, 13, 14 . Därför, efter shRNA-nedslagning av KRAS, skulle KRAS-Ind-celler växa i hastigheter som liknar celler behandlade med kontroll-shRNA, medan KRAS-Dep växer med långsammare hastigheter. Här fann genuttrycksprofiler av NSCLC-cellinjer att KRAS-beroende korrelerade med en differentierad fenotyp, medan KRAS-oberoende var associerad med den epitelial-mesenkymala transformationsfenotypen 13, 14 . Dessutom har nyligen arbetat KRAS beroende av aktivering av Wnt-signalvägen i kolorektala cancer 14 . Sammantaget antyder dessa resultat att specifika vägar aktiveras i KRAS-Dep-cellinjer men inte i KRAS-Ind-celler, och att dessa vägar har en roll i de olika sjukdomens fenotyper som finns i dessa cancerformer.

Medan sådana uttrycksprofileringstudier är användbara för analys av KRAS-signalering, är det väl etablerat att KRAS ofta utövar onkogena funktioner genom förändringar i proteinmängd eller post-translationell modifiering av proteiner, specifikt kinaser som i sin tur inducerar en signaleringskaskad av nedströmseffektorer 15 16, 17, 18 . Följaktligen bör profileringsmetoder för global transkriptom, proteom och fosfosfosproteom tillämpas för att identifiera orsakande vägar i KRAS-Dep och KRAS-Ind NSCLC-celler på ett opartiskt sätt. Men hittills har ingen studie omfattande integrerat dessa olika uppsättningar av data 5, 10, 11, 15, 17, 18, 19, vilket leder till potentiella fördomar och brister i vår förståelse av den mekanistiska grunden för KRAS-funktion i NSCLC.

En anledning till att sådana studier saknas är att integration av så olika datauppsättningar är en stor utmaning med befintliga integrativa metoder. Men när de används har integrativa metoder lyckats med att bygga mer omfattande modeller av molekylära signalnätverk i cancer 20, 21 . I denna studie genererar vi en matchad datamängd av KRAS-muterade NSCLC-cellinjer med globala och opartiska transkriptom-, proteom- och fosfoproteomprofiler. Vi utvecklar en bioinformatisk strategi för att integrera dessa olika omics-datauppsättningar och nominera biologiskt informativa signalmoduler med nätverksanalys. Vi finner att KRAS-Dep-cellinjer har ett aktivt och målbart undernätverk bestående av lymfocyt-specifikt tyrosinkinas ( LCK ), cMET , KRAS och det p21-serin / treoninaktiverade kinaset ( PAK1 ). Vi karakteriserar en KRAS – LCK – PAK1-väg och visar att KRAS-Dep men inte KRAS-Ind-cellinjer kräver LCK för spridning. Detta KRAS – LCK – PAK1-nätverk koordinerar vidare anti-apoptotiska vägar både genom hämning av pro-apoptotiska proteiner såsom BAD och / eller aktivering av anti-apoptotiska proteiner i KRAS-Dep-cellinjer. Sammanfattningsvis identifierar denna studie aktiva nätverk associerade med KRAS-Dep-fenotypen i NSCLC och nominerar en ny KRAS – LCK – PAK1-bana i KRAS-Dep-celler som kan fungera som en droggbar väg för behandling av KRAS-Dep-lungcancer.

Resultat

Omics-integration förbättrar nomineringen av verkningsbara proteiner

För att studera KRAS-funktionen i lungcancer genererade vi matchade globala transkriptom-, proteom- och fosfoproteomuppsättningar för en panel av KRAS-Dep och KRAS-Ind NSCLC-cellinjer, samt en bioinformatikmetod för att integrera alla dessa datatyper (fig. 1a ). Transkript-, protein- och fosfoprotein-överflöd mättes med mikroarrayer respektive märkningsfri LS-MS / MS (Methods). Vi identifierade 3 213 proteiner i det omodifierade tillståndet och 1 044 proteiner i det fosforylerade tillståndet, med minst ett spektrum i två oberoende cellinjer. Antalet unika peptider och fosfo-peptider för varje cellinje visas i den kompletterande fig. S1A, B, och de fullständiga proteom- och fosfoproteomdatauppsättningarna för alla cellinjer anges i kompletterande data 1 och 2 och kompletterande data 3 och 4 respektive.

Image

( a ) En panel av KRAS-Dep- och KRAS-Ind-cellinjer analyserades med transkriptomik, proteomik och fosfoproteomik. Transkript delades upp i två olika kategorier: "informativa" gener och "alla andra" gener. Proteom- och fofoproteom-datauppsättningar normaliserades med avseende på det totala antalet spektraltal i varje bibliotek, och vanliga föroreningar och 'Deja vu'-proteiner filtrerades ut innan kvantifiering av differentiell överflöd. Alla datamängder loggtransformerades och LFC togs med avseende på jämförelsen KRAS-Dep kontra KRAS-Ind cellinjer. LFC-värdet z- sekvens-normaliserades och en P- värde beräknades med användning av den normala normalfördelningen. Den kombinerade S- poängen användes för att integrera alla tre datamängderna (metoder) och välja differentiellt uttryckta proteiner. Nätverks- och anrikningsanalys utfördes med användning av SPIA och PCST. ( b ) Naiv integration av datamängder. Endast ~ 5, 2% av proteinerna delas mellan två av datamängden (justerad P- värde

Image

0, 05 användes som en tröskel för att välja differentiellt uttryckta proteiner). En stor nackdel med denna metod är frånvaron av ett objektivt kriterium att inkludera proteiner som uttrycks differentiellt i endast en datamängd. ( c ) En metaintegration av de oberoende signaturerna med användning av den kombinerade S- poängen ( S ). S- poängintegrationen förbättrar med femdubbla andelen delade proteiner bland datamängder (~ 26%) och definierar en objektiv regel för att inkludera proteiner som uttrycks differentiellt i en, två eller alla datamängder. ( d ) Integrativ analys av transkriptom, proteom och fosfo-proteom nominerar receptortyrosinkinaser MET och ERBB3 , Src-familjemedlemmar LCK och LYN , PAK1 och CTNNB1 , CTNNA1 och CDH1, bland annat som differentiellt "aktiverade" proteiner i KRAS-Dep-cellinjer . Vänster: närvaro / frånvaro värmekarta. Proteiner som är differentierande i en viss datamängd representeras i gula och opåverkade proteiner representeras i blått. Mitt: kombinerad S- poäng ( S ) för alla olikartade proteiner i KRAS-Dep kontra KRAS-Ind-cellinjer. Höger: kombinerad statistisk signifikans för varje differentiellt rikligt protein. − Log för den Hochberg-justerade P- värdet, − log (0, 05) = 1, 30.

Bild i full storlek

Integrering av transkriptom-, proteom- och fosfoproteomdata är utmanande på grund av skillnader i tekniska metoder och detekteringskraft. Därför beräknade vi först log-fold-förändringen (LFC) i transkript-, protein- och fosfoprotein-överflöd mellan KRAS-Dep och KRAS-Ind-cellinjer. Vi korrelerade sedan LFC-mRNA-överflöd med LFC-protein-överflöd såväl som LFC-protein-överflöd med LFC-fosfoprotein-överflöd. Vi fann generellt låg till mellanliggande korrelationer, vilket är förenligt med tidigare studier som beskriver mellanliggande korrelationer mellan mRNA och proteinöverskott 22, 23, 24 (Kompletterande figur S2A, B. Korrelation mellan LFC-transkript och LFC-protein 95% konfidensintervall (CI) = 0, 29–0, 36, P- värde

Image

2exp-16; korrelation mellan LFC-omodifierat protein och LFC-fosfoprotein 95% Cl = 0, 29–0, 43, P- värde

Image

2exp-16).

En naiv metod för att integrera dessa olika uppsättningar av data är antingen att leta efter gener som är olikt överflödiga på transkriptions-, protein- och fosfoproteinnivån eller att leta efter gener som är differentierade i minst en av dessa datasatser. I denna studie kallade naiv integration 675 differentiellt rikligt transkript, 173 differentiellt rikliga proteiner i det omodifierade tillståndet och 61 differentiellt rikliga proteiner i fosforylerat tillstånd (fig. 1b och kompletterande data 5). Emellertid producerar naiv integration vanligtvis ett begränsat antal proteiner som är differentiellt rikliga över alla signaturer. Av de 862 unika proteiner som kallas som differentiellt rikligt delas endast 2 proteiner över alla signaturer och 45 av två oberoende datasätt (Hochberg-justerad P- värde

Image

0, 05, fig. 1b) resulterande i endast en ~ 5, 2% överlappning mellan signaturer. Dessutom producerar naiv integration vanligtvis en slutlig lista med olika väldigt stora proteiner som domineras av proteiner som identifierats endast i den största datamängden, transkriptomet i detta fall (Kompletterande Fig. S2C). Dessutom är denna lista berikad i gener som verkar inte vara orsakande cancergener men som har ett högt dynamiskt område för uttryck (Kompletterande Fig. S2D – F).

För att ta itu med dessa problem utvecklade vi en bioinformatikmetodik för att integrera transkriptomik, proteomik och fosfoproteomikuppsättningar som syftar till att identifiera olika mängder proteiner som är nominerade som sådana genom någon kombination av dessa datamängder. Denna metod fokuserar på att identifiera proteiner som ändras konsekvent över transkript-, protein- och fosfoproteinnivåer eftersom de utgör kandidater som kan bedömas enhetligt och därför potentiellt användas för att analysera vävnadsprover antingen på protein-, fosfo-protein- eller transkriptionsnivå med liknande resultat .

Vi skiljer först mellan "informativa" och "alla andra" gener och tilldelar vikter till varje datauppsättning i proportion till den datauppsättningens storlek (fig. 1a och metoder) för att kontrollera skillnader i det dynamiska området för olika proteiner och täckningen av varje 'omics'-datauppsättning. Vi beräknar sedan den kombinerade 'överflödesscoren', S , för att mäta den totala skillnaden i mängd av ett protein över alla datamängder som

Image

där z är den z- transformerade LFC för protein i i datauppsättningen k , medan w motsvarar vikten för varje datamängd

Image

. N k representerar storleken på datamängden k . Vår poäng är inspirerad av Stouffers poäng som används för metaanalys 25 . Variationer av Stouffer-poängen har tidigare använts för att aggregera flera studier innefattande endast en typ av 'omics'-datauppsättningar, såsom mikroarrayer 26 .

Även om andra integrationsmetoder, såsom den kombinerade Fisher P- värdet eller poängen som föreslagits av Ramasay et al . 26 och Huang et al . 27 skulle kunna användas för att nominera differentiellt rikliga proteiner, jämfört med dessa metoder visar S- poängen flera viktiga fördelar för att urskilja informativa gener. Först, eftersom S- poängen normaliserar originaldata till z- poäng, är den kombinerade distributionen också normal, vilket möjliggör enkel statistik (Kompletterande bild S3A). För det andra definieras vikten för varje datamängd flexibelt, det vill säga beroende på datauppsättningens storlek. För det tredje kan S- poängen identifiera konsekvent förändrade proteiner som annars skulle missa (tilläggsfigur S3B). För det fjärde, eftersom S- poäng är baserat på medelvärdet av z i och fiskemetoden på medelvärdet av − log ( P- värde), följer dessa poäng ett nära linjärt förhållande för de flesta värden på S. Avvikelser från detta linjära förhållande observeras för extrema värden på S och fall där transkript-, protein- och fosfoprotein-överflöd förändras i diskordanta riktningar (Kompletterande Fig. S3C). Därför kunde de kombinerade använda Fisher- och S- poängen identifiera proteiner med ojämna förändringar i överflöd. Sammanfattningsvis, genom att använda S- poängen, definierade vi en metrisk för att välja transkript, proteiner och fosfoproteiner som är oerhört rikligt unikt eller konsekvent över olika datamängder, och övervinner nackdelarna med naiv integration.

Vår S- poänganalys av fosfoproteom, proteom och transkriptom nominerade 115 differentiellt rikliga proteiner vid en Hochberg-justerad P- värde

Image

0, 05. Av de 115 proteinerna nominerades 30 unikt med vår metod och missades med användning av naiv integration av datamängderna (Fig. 1c). S- poängen hjälper också till att prioritera, eftersom 20 proteiner i fosforylerat tillstånd, 28 proteiner i icke-fosforylerat tillstånd och 6 transkript som uttrycks differentiellt skulle ha varit obevakade av en naiv metod (fig. 1c). Genom att använda S- poängen är procentandelen överlappning mellan datamängderna i listan över differentiellt uttryckta proteiner ~ 26%, vilket representerar en ökning på femfaldigt med avseende på den naiva integrationsmetoden. Gener identifierade med vår metod visar dessutom högre korrelation mellan LFC-överflödet av transkriptet och proteinet i omodifierat tillstånd såväl som proteinet i omodifierat och fosforylerat tillstånd (Kompletterande Fig. S2A, B). Vi noterar också att listan över differentiellt uttryckta gener som nominerats av S- poängen är berikad för proteiner med funktioner såsom kinas, fosfo-transferasaktivitet och alternativ skarvning och lokaliserad både i cytoplasma och kärna (Kompletterande Fig. S2G). Dessa funktioner förväntas för proteiner i signaleringskaskader, till exempel de nedströms KRAS, men dessa funktioner missades helt på de proteiner som nominerats av den naiva integrationsstrategin.

Slutligen visade jämförelse av NSCLC KRAS-Dep-cellinjer mot KRAS-Ind-cellinjer att av 115 proteiner nominerade genom vår integrativa analys, 68 visade också ökat mRNA, omodifierat protein eller fosforylerat proteinmängd i KRAS-Dep-celler, medan 47 visade sig minskas (fig. 1d, kompletterande data 6). Av de 68 som ökades klassificeras 57 proteiner som fosfoproteiner, 14 som kinaser, 8 som proto-onkogener och 9 som involverade i lymfocytaktivering bland andra funktioner. På liknande sätt klassificeras 37 av de 47 gener som minskade klassificeras som fosfoproteiner, 8 som kinaser och 5 som prototoonkogener bland andra funktioner. Dessa resultat visar att vår analys kan identifiera funktionellt relevanta proteiner genom att integrera transkriptom-, proteom- och fosfoproteomuppsättningarna.

Validering i NSCLC-cellinjer

För att bekräfta våra beräkningsprognoser använde vi en panel med 13 NSCLC-cellinjer för experimentella studier, för vilka profiler av somatiska mutationer finns i kompletterande data 7. Av dessa har 8 definierats som KRAS-Ind och 5 har definierats som KRAS -Dep baserat på tidigare studier 13, 14 och bekräftade i våra händer. Vi valde högt rankade proteiner som förutsågs vara uppreglerade i KRAS-Dep men inte KRAS-Ind-celler för ytterligare experimentell validering. Av de 20 bästa nominerade proteinerna inkluderade vi flera proteiner kända för att vara förknippade med KRAS-beroende i kolorektala cancer (CTNNB1 och PAK1) 14, 28 och andra som inte har varit implicerade hittills (LCK och cMET) med KRAS-Dep-fenotypen i eventuell cancer (fig. 2). Western blot-analyser av dessa proteiner och deras fosforylerade former validerade att cMET, LCK, PAK1 och p-catenin berikades i uttryck i KRAS-Dep-cellinjer. Dessutom var fosforylerade former av dessa proteiner också specifika, vilket antyder att dessa proteiner aktiveras i KRAS-Dep-celler. Dessa experiment validerar vår beräkningsmetod och antyder att S- poängen exakt identifierar proteiner som är starkt aktiverade i KRAS-Dep-cellinjer.

Image

Western blot visar höga nivåer av totalt och fosforylerat protein för MET , LCK , PAK1 och P-catenin i KRAS-Dep-celler. Detta mönster bekräftar användbarheten i vår integrativa analys vid nominering av differentiellt aktiverande proteiner. Det föreslår också signalering moduler som är differentiellt aktiva i KRAS-Dep men inte i KRAS-Ind cellinjer. Totalt RAS och p-aktin användes som kontroller.

Bild i full storlek

Nätverksanalys identifierar aktiva moduler i KRAS-Dep-celler

Därefter utvecklade vi en trestegsmetodik för rekonstruktion av biologiska moduler associerade med KRAS-status (fig. 3a). I det första steget identifierade vi differentiella uttryckta vägar med hjälp av signaleringsvägen Impact Analysalgoritm (SPIA 29 ). Sedan bygger vi ett fokuserat icke-riktat och viktat protein-till-protein-interaktionsnätverk (G). Slutligen, i det tredje steget, använde vi PCST-algoritmen (Prize Collecting Steiner Tree) för att hitta subnätverk, T, i det viktade protein – protein-interaktionsnätverket (G) som maximerade antalet differentierade uttryckta proteiner som återvunnits samt förtroende för deras interaktion (metoder).

Image

( a ) Metod för nätrekonstruktion. Vi byggde ett fokuserat icke-riktat och viktat protein-till-protein-interaktionsnätverk (G) med hjälp av differentiella uttryckta vägar identifierade med SPIA-algoritmen 29 . Vi tilldelar vikter till båda noderna (V) och kanterna (E). Nodvikter (bv) motsvarar log- P- värdet för den kombinerade S-poängen (S) för differentiell överflöd mellan KRAS-Dep och KRAS-Ind-fenotyper, medan kantens (Ce) vikt motsvarar den experimentella förtroendet för den interaktionen som rapporterade för STRING-databasen. Slutligen använde vi PCST-algoritmen för att hitta undernätverk, T, i G som maximerade antalet differentierade uttryckta proteiner som återhämtades samt förtroendet för deras interaktion. ( b ) Modul M1. Denna modul, identifierad av PCST, ansluter LCK och PAK1 i KRAS-Dep-cellinjer. Modulen förenar LCK och PAK1 med andra proteiner som tillhör NF-Kappa ß- och apoptosvägar såsom NFKBIA , NFKB, TRAF och BIRC. Nodstorleken är proportionell mot det absoluta värdet för den kombinerade S- poängen. Nodfärg representerar överuttryckt (rött) eller underuttryckt (grönt) i KRAS-Dep-celler. Kanttjocklek motsvarar kantsförtroende beräknat från STRING-databasen (metoder). ( c ) Modul M2. Denna modul, identifierad av PCST, involverar KRAS och MET i KRAS-Dep-cellinjer. Ytterligare målbara proteiner som SYK och LYN är också en del av denna modul. Beskrivs som i b . ( d ) Modul M3. Denna modul, identifierad av PCST, ansluter CTNNB1 (p-katenin), CTNNA1 , CDH1 , TJP2 och andra proteiner associerade cellvidhäftningskomplex och de snäva förbindningsvägarna. Beskrivs som i b .

Bild i full storlek

I det första steget utförde vi specifikt väganrikningsanalys med användning av SPIA för att identifiera vägar med totalt ökad eller minskad aktivitet i KRAS-Dep-cellinjer (kompletterande fig. S4A). SPIA beräknar betydelsen av en sökväg enligt både ett genuppsättning överrepresentationsindex och ett nätverks störningsindex som tar hänsyn till topologin och interaktioner inom vägen (Metoder). Denna analys avslöjade aktivering av huvudsignalprogram i KRAS-Dep NSCLC-cellinjer jämfört med KRAS-Ind, såsom ERBB-signalvägen, cancerspecifika associerade vägar och trånga korsningar / cellhäftningsvägar (kompletterande fig. S4B). Intressant nog var immunrelaterade signalmoduler såsom T-cellreceptorn, naturlig mördande cellmedierad cytotoxicitet och Fc epsilon RI-vägar närvarande, vilket antydde ett förhållande till LCK som immundominerande kinas avvikande uppreglerat i KRAS-Dep-celler. Även om cancerassocierade vägar förväntas verka berikade i vår analys av cancercellinjer, är det anmärkningsvärt att cancervägarna anrikade i KRAS-Dep-cellinjer motsvarar cancerformer som drivs av aktivering av Ras-onkogenmutationer (kompletterande fig. S4C), vilket antyder att vissa molekylärdrag är gemensamma för KRAS-beroende mellan olika typer av cancer.

Vidare, i det andra steget, byggde vi ett fokuserat uppåtriktat och viktat protein-till-protein-interaktionsnätverk (G) med användning av alla proteiner som tillhör de vägar som identifierats av SPIA och vi tilldelade vikter till både noder (V) och kanter (E) . Vikten för varje nod (bv) motsvarar −log P- värdet för den kombinerade poängen ( S ) för differentiell överflöd mellan KRAS-Dep och KRAS-Ind-fenotyper, medan vikten för varje kant (Ce) motsvarar den experimentella förtroendet på den interaktionen. Kantvikten härleds från STRING-databasen 30 genom att kombinera STRINGs experimentella och fysiska interaktionsresultat med hjälp av en naiv Bayesian-strategi.

Slutligen, i det tredje breda steget i denna metodik, för att identifiera specifika nätverksundermoduler som är aktiva i KRAS-Dep-cellinjer, formulerade vi denna nätverksrekonstruktionsuppgift som ett PCST-problem 27, 31, 32, 33 (Methods) . PCST tillät oss att syntetisera transkriptom, proteom och fosfoproteom signaturer i samband med det viktade protein-till-protein-interaktionsnätverket som nämns ovan. Denna formulering underlättade identifieringen av övergång mellan vägar som nominerats av SPIA, liksom identifiering av relevanta proteiner som inte mättes direkt i våra experiment. Vi identifierade tre moduler - kallad M1, M2, M3 - med hjälp av PCST-formuleringen.

M1 innehåller LCK, PAK1 och PRKCH såväl som proteiner involverade i regleringen av inflammation, antivirala svar och apoptosproteiner såsom flera TRAF, BIRC och NFKB (Fig. 3b). M2 innehåller KRAS såväl som kinaser MET, LYN, SYK och MAPK1 bland andra (Fig. 3c). M3 innehåller CTNNB1 (p-katenin), CDH1, CTNNA1 (a-katenin), TJP2 och andra proteiner associerade med vidhäftningskomplexet (fig. 3d). M3 överensstämmer med vår iakttagelse att ß-katenin huvudsakligen är lokaliserad i cellmembranet i KRAS-Dep-celler (kompletterande fig. S4D), vilket stödjer en roll i cellvidhäftning i NSCLC-cellinjer.

KRAS – LCK – PAK1 signalaxel vid KRAS-Dep lungcancer

Spännande, antyder modul M1 en koppling mellan LCK och PAK1 som inte har rapporterats tidigare i solida tumörer trots att PAK1-överuttryck redan har varit inblandat i lung- och bröstcancer 34 . LCK är ett vävnadsspecifikt kinas som normalt uttrycks i T-lymfocyter. Det är vanligtvis överuttryckt i myeloida och lymfocytisk leukemi, såväl som Burkitt och icke-Hodgkins B-celllymfom 35 och fungerar som en prototo-onkogen, vilket inducerar cellulär transformation genom reglering av cellproliferation och överlevnad 35, 36 . En roll för LCK är inte känd i solida tumörer. Därför ansåg vi att det avvikande överuttrycket av LCK i KRAS-Dep lungcancer också kan ha en roll i denna sjukdom.

För att bekräfta vår nätverksrekonstruktionsmetod och ytterligare dissekera de funktionella anslutningarna mellan KRAS, MET och LCK utförde vi knockdown-experiment med oberoende siRNA i H441 och H358 cellinjer som visar KRAS-beroende 13 . Immunoblot-analys visade att nedslagning av KRAS minskade överflödet av MET, fosfo-MET, LCK, fosfo-LCK, fosfo-PAK1 / 2 och fosfo-BAD (fig. 4a; kompletterande fig. S5A, B). Dessa resultat visar att MET, LCK, PAK1 / 2 och BAD är nedströms KRAS och regleras av KRAS in vitro . Däremot reducerade nedslagning av LCK inte KRAS-nivåer, vilket indikerar att LCK inte reglerar KRAS-proteinmängd (Fig. 4b, kompletterande Fig. S5C), även om tidigare rapporter har föreslagit en roll för LCK vid KRAS-aktivering 37 . Knockdown av LCK reducerade emellertid fosfor-PAK1 / 2-nivåer men inte totalt PAK1 / 2-protein, vilket definierade PAK1 / 2 som mål för LCK-medierad fosforylering (fig. 4b; kompletterande fig. S5C). Figur 3b indikerar att denna effekt potentiellt medieras genom ett litet nätverk av interagerande proteiner. Dessutom förändrade knockdown av PAK1 / 2 inte fosforyleringen eller proteinnivåerna för LCK, vilket bekräftade att PAK1 och PAK2 är nedströms LCK (fig. 4c). Sammantaget föreslår våra bioinformatik och experimentella resultat ett aktivt KRAS – LCK – PAK1 / 2-nätverk i KRAS-Dep-cellinjer (kompletterande fig. S5D). Våra resultat visar också bevis på att KRAS kan påverka både fosforylering och proteinnivåer för LCK- och MET-kinaser, vilket kompletterar tidigare rapporter som tyder på att dessa kinaser kan vara uppströms RAS-MEK-vägarna 37, 38 och antyder möjligheten till en återkopplingsslinga bland dessa proteiner i KRAS-Dep-celler (kompletterande fig. S5D).

Image

( a ) KRAS påverkar total och fosforylerad proteinnivå av potentiella drogerbara kinaser LCK och MET i KRAS-Dep-cellinjer. Knockdown av KRAS med två oberoende siRNA reducerar fosforyleringsnivåer av LCK , MET , PAK1 / 2 i H441-cellinjen. KRAS-KD minskade också de totala proteinnivåerna av LCK och MET men inte PAK1 / 2 . ( b ) LCK påverkar PAK1 / PAK2- aktivering i KRAS-Dep-cellinjer. Knockdown av LCK med användning av två oberoende siRNA reducerar fosforyleringsnivåer av PAK1 / 2 men inte deras proteinnivå i H441 KRAS-Dep cellinje. ( c ) PAK1 / 2 är nedströms LCK i KRAS-Dep-cellinjer. PAK1 / 2- knockdown påverkar inte fosforylering eller proteinnivå av LCK i H441-Dep-cellinjen. ( d ) LCK- knockdown ökar nivån för klyvt PARP och caspase-3, markörer för apoptos i H441 KRAS-Dep-cellinje.

Bild i full storlek

KRAS-Dep-celler är också beroende av LCK för proliferation

För att utvidga våra resultat och undersöka potentiellt avvikande uttryck av LCK i andra cellinjer utförde vi en genutvecklande uttrycksanalys på en utökad panel med 122 lungcancercellinjer (11 KRAS-Dep, 18 KRAS-Ind och 93 KRAS-WT ) (Metoder). Vi utvärderade informativa gener som observerats som outliers i KRAS-Dep men inte i KRAS-Ind cellinjer (Fig. 5a).

Image

( a ) Cancer outlier profile profile (COPA) av "informativa" gener på en utvidgad genuttryckningsuppsättning av KRAS-muterade cellinjer bekräftar LCK , MET , LYN och ERBB3 som differentiellt rikligt proteiner i KRAS-Dep men inte i KRAS-Ind cellinjer. Elva KRAS-Dep och 18 KRAS-Ind analyserades. ( b ) Överuttryckt LCK finns i minst 60% men i <10% av antingen vildtyp eller KRAS-Ind-cellinjer. MET , ERBB3 , MST1R och LYN visar ett liknande mönster. 11 KRAS-Dep, 18 KRAS-Ind och 93 KRAS-WT-cellinjer analyserades. ( c ) LCK- uttryck mätt med QRT – PCR i en panel av KRAS-Dep (röd etikett), KRAS-Ind (grön etikett) och KRAS-WT (svart etikett) cellinjer bekräftar höga nivåer av LCK i KRAS-Dep-cellinjer och inget eller försumbart uttryck i KRAS-Ind- eller WT-cellinjer. Cellinje H2347 (blå etikett) har NRAS Q61K-mutation, men dess beroendestatus kunde inte fastställas. Barhöjd motsvarar genomsnittet över tre oberoende replikat och felstänger definieras som sem

Bild i full storlek

Denna analys avslöjade LCK, MET, ERBB3, MST1R och LYN är kinaser som ofta uppvisar utöver uttryck i KRAS-Dep-cellinjer, med expressionsnivåer i topp 80-percentilen i> 60% av cellinjerna i denna grupp (fig. 5b). I motsats härtill visade kinaserna DYRK4 och MARK4 ett uttryck i KRAS-Ind-cellinjer (fig. 5a). För att validera vår metod bekräftade vi experimentellt att LCK är överuttryckt i KRAS-Dep-celler med hjälp av kvantitativ PCR på en panel med 43 lungcellinjer (fig. 5c).

Med tanke på att LCK är en känd avstamningsspecifik proliferationsfaktor i B-lymfocyter antog vi att KRAS-Dep NSCLC som överuttrycker LCK också kräver detta kinas för celltillväxt och överlevnad. Vi utförde shRNA-knockdown-experiment för LCK och bestämde om ablation av LCK-aktivitet med oberoende shRNA kan selektivt försämra cellproliferation på KRAS-Dep-celler (metoder). Figur 6a visar att knockdown av LCK dramatiskt försvårar cellproliferation i KRAS-Dep-celler men inte KRAS-Ind-celler, vilket validerar våra förutsägelser (shRNA1 t- test P- värde = 0, 0001822, shRNA3 t- test P- värde = 4, 14 exp −6) . Vi bekräftade vidare att oberoende knockdown av KRAS också gav liknande resultat (kompletterande fig. S6A).

Image

( a ) LCK- knockdown försvårar cellproliferation specifikt i KRAS-Dep-cellinjer. LCK- knockdown med två oberoende shRNA visade statistiskt signifikant reduktion i cellproliferation i KRAS-Dep men inte KRAS-Ind-cellinjer ( LCK shRNA-1 t- test P- värde = 0, 0001822 och LCK shRNA-3 t- test P- värde = 4, 14 exp-06). Stänger motsvarar medelvärdet av tre oberoende experiment och felstänger definieras som sem ( b ) Hämning av LCK med användning av små molekylinhibitorer med företrädesvis nedsatt cellproliferation i KRAS-Dep men inte i KRAS-Ind-cellinjer. Poäng representerar genomsnittet över fyra oberoende experiment och felfält definieras som sem

Bild i full storlek

Dessutom, som kinas, är LCK också en attraktiv kandidat för strategier för riktad terapi. Medan specifika LCK-hämmare fortfarande är under utveckling testade vi huruvida prototyp små molekylinhibitorer av LCK selektivt skulle påverka livskraften hos NSCLC KRAS-Dep-celler. Vi behandlade en panel med 3 KRAS-Dep-cellinjer och 2 KRAS-Ind-cellinjer med ökande doser av LCK-hämmare (CAS 213743-31-8) och mätte cellviabilitet vid olika läkemedelskoncentrationer. Alla tre KRAS-Dep-cellinjer som testades i detta experiment var känsliga för LCK-hämning, medan KRAS-Ind-cellinjerna var okänsliga för LCK-hämning, som väntat från vår hypotes (Fig. 6b). Vi bekräftade vidare dessa resultat med användning av en andra LCK-hämmare (CAS 918870-43-6) som visade liknande resultat (kompletterande fig. S6B). These results demonstrate that KRAS-Dep lung cancer cell lines have aberrant overexpression and activity of LCK. Similarly, we observed that MET shRNA knockdown as well as MET inhibition with small molecule inhibitors selectively impaired cell growth of KRAS-Dep cell lines (Supplementary Fig. S6C, D), further supporting the biological relevance of our computational network reconstructions and predictions of targetable proteins in KRAS-Dep cells.

To evaluate whether LCK expression can be used to stratify the KRAS dependency status of human lung cancers, we assessed LCK expression in a panel of 29 lung adenocarcinoma tissue samples with mutations in KRAS. To confirm the KRAS mutations, we genotyped canonical positions in codons 12, 13 and 61, known to produce a constitutively active KRAS when mutated (Supplementary Table S1). As there is currently no clinical biomarker to identify the KRAS dependency status of NSCLCs, we sought to evaluate LCK expression in these samples as a potential biomarker for KRAS dependency. As LCK is normally highly expressed in lymphocytes, LCK mRNA expression from surgical samples is not an accurate method to assess LCK expression in epithelial-derived lung cancer cells, as the infiltrating lymphocytes in these samples would distort the analysis. Thus, a previous study that detected LCK in lung cancer tissues by gene expression microarrays is likely confounded by the lack of cell-type specificity 39 .

We therefore used immunohistochemistry (IHC) to determine the abundance of phosphorylated LCK in epithelial lung cancer cells in our 29 clinical samples. We first validated our IHC assay using a panel of normal tissues and cell lines that demonstrated high levels of LCK expression in the spleen where lymphocytes are abundant, but not in other tissue types. Next, a TMA of KRAS-Dep cell lines H441 and H358 also showed high levels of phosphorylated LCK expression, whereas a TMA of H460 and H23 KRAS-Ind cell lines did not showed any staining. Finally, applying this method to our 29 lung tumour samples harbouring KRAS mutation, we found that 58.6% (17/29) of tumours showed high levels of phosphorylated LCK staining, whereas 41.4% (12/29) tumours showed low levels of phosphorylated LCK (Supplementary Table S1). These results are consistent with in vitro data demonstrating that KRAS-mutant lung cancer tissues can be subdivided in two groups according to their levels of phosphorylated LCK, similar to NSCLC cell lines. Although, it is not possible currently to determine the dependency status of a tissue through direct experimentation, this subdivision of tumour samples is suggestive of the correlation described here between KRAS dependency and LCK activation in cell lines. However, a larger cohort of tissues with matched profiles of KRAS mutation, gene expression as well as IHC of phosphorylated LCK would be required to further determine the prognostic value and the extent of this association between KRAS dependency and LCK activation in tissue specimens. A proof-of-principle analysis in this direction is shown in Supplementary Fig. S6E.

KRAS and LCK could regulate anti-apoptosis pathways

To explore potential functional roles of the KRAS–LCK–PAK1/2 pathway, we evaluated our computational predictions of modules M1, M2, and M3 in lung cancer. We were struck by the enrichment for apoptosis-related proteins in module M1 that included LCK and PAK1 (Supplementary Fig. S7A), suggesting a potential connection between LCK and apoptosis. Indeed knockdown of LCK in H441 cells was correlated with increased levels of cleaved PARP and caspase-3, markers of apoptosis, which further supports the association between LCK and apoptosis (Fig. 4d).

To further explore this association, we used microarrays to profile gene expression changes following knockdown of LCK in the H441 and H358 KRAS-Dep cell lines, and we evaluated the microarray data for pathways specifically inhibited or activated by LCK (Supplementary Table S2 and Methods for specific details on this analysis of these microarray data). We assumed that pathways activated specifically by LCK in the context of KRAS dependency would be inhibited after knockdown of this kinase. Interestingly, we observed a module composed of TRAF1, BIRC3 and BCL2L1, three proteins that regulate apoptosis (Supplementary Fig. S7B). These proteins were part of a canonical KEGG pathway for lung small cell cancer, a pathway specifically inhibited after LCK knockdown (Supplementary Table S2).

Moreover, we reasoned that causative genes should be both overexpressed in KRAS-Dep compared with KRAS-Ind cell lines and also downregulated upon LCK knockdown in H441 and H358 (Methods). Performing this analysis yielded BCL2A1, a BCL2-related protein A1 (Supplementary Fig. S8A, B). BCL2A1 can bind to and inhibit or neutralize pro-apoptotic multi-domain proteins such as BAK and BAX as well as pro-apoptotic BH3-only proteins such as tBID, BIM, PUMA, BIK, HRK and NOXA but not BAD 40 . Pro-apoptotic protein BAD is inhibited when phosphorylated 41, 42 . Indeed, knockdown of KRAS in H441 decreased phosphorylation levels of BAD (p112, p136) (Supplementary Fig. S5A), which is consistent with increased levels of cleaved PARP observed in the knockdown samples (Fig. 4a) and supports a role for KRAS in preventing apoptosis via BAD. The effect on BAD phosphorylation was observed downstream of KRAS but not downstream of LCK or PAK1/2. Knockdown of LCK or PAK1/2 did not decrease phosphorylation levels of BAD, suggesting independent mechanisms.

Taken together, these computational and experimental data suggest a potential regulatory network in KRAS-Dep cells that both 'directly' inhibits apoptosis by inducing phosphorylation of BAD and 'indirectly' by modulating the apoptotic response through the LCK module.

Diskussion

The advent of high-throughput technologies has greatly advanced the study of cancer biology. However to date, most studies employ only an individual technology and studies that do include multiple profiling technologies frequently analyse them separately without integrating across modalities. While these approaches are effective for identifying single events in cancer (that is, a new point mutation or an overexpressed gene), they do not uncover integrated biological modules that coordinate higher-level biological processes (that is apoptosis, RNA splicing, and so on).

Here we developed a novel method to integrate disparate profiling modalities to explore novel functional networks differentiating KRAS-Dep from KRAS-Ind NSCLCs. We used transcriptome, proteome and phosphoproteome profiling to comprehensively analyse gene expression at the RNA and/or protein level, as well as signalling proteins activated or inactivated by post-translational modification. Using this approach on 13 KRAS-mutant NSCLC cell lines known to be KRAS-Dep or KRAS-Ind, our integrative analysis nominated 115 proteins that were differentially abundant between these two groups (Hochberg-adjusted P -value

Image

0.05). Specifically, our method identified a set of proteins with highly correlated changes between transcript and protein levels or unmodified protein and phosphorylated protein levels, and then enriched these results for specific functions associated with KRAS. Of these, we validated four proteins (LCK, MET, PAK1 and β-catenin) selected from the top 20 nominated genes. LCK, MET and PAK1 have not previously been studied in the context of KRAS-Dep lung cancer.

Of particular interest to this study was LCK, a lymphocyte-specific kinase well studied in B-lymphocyte development 35, 36 but uncharacterized in solid tumours. We define a KRAS–LCK–PAK1/2 pathway in KRAS-Dep lung cancers that has not previously been described. We find that KRAS regulates LCK protein and phospho-protein levels, and LCK in turn regulates PAK1/2 phosphorylation but not total protein levels. Previous studies have identified a role for PAK1/2 in the phosphorylation of β-catenin in KRAS-mutated colorectal cancer 14, 28 ; however, we did not observe β-catenin as a direct target of the KRAS–LCK–PAK1/2 pathway in lung cancer. Knockdown of KRAS and LCK did not impact β-catenin phosphorylation or cellular localization. Indeed β-catenin localized to the cell membrane in our experiments (Supplementary Fig. S4D), not to the cell nucleus where β-catenin is known to be active in the stimulation of the Wnt signalling pathway 14, 28 . In addition, our work finds that β-catenin associates with the M3 reconstructed network module that also contains cell surface adhesion proteins such as CDH1, CTNNA1 (α-catenin) and TJP2. Thus β-catenin in NSCLC cell lines may operate through cell adhesion pathways as opposed to a role in regulating transcription, as reported in colorectal cancer 14 . This further helps to explain earlier observations that associate KRAS-Dep lung cancer cell lines with differentiated phenotypes 13 .

To explore the function of LCK in lung cancer, we performed knockdown experiments and observed that depletion of LCK impaired cellular proliferation and phenocopied knockdown of KRAS in KRAS-Dep cell lines. In addition, small-molecule inhibition of LCK resulted in preferential decrease in cell viability in KRAS-Dep cells. Using the PCST formulation, we also found that LCK was associated with a reconstructed Module M1 containing several proteins involved in the regulation of apoptosis in addition to PAK1. Indeed, we observed that knockdown of LCK or KRAS induce an increase in cleaved PARP levels, indicating an increase in apoptosis. KRAS-Dep cells may then modulate apoptosis through two complementary mechanisms. KRAS may regulate the apoptotic response by regulating phosphorylation of BAD, whereas LCK may regulate BCL2-related anti-apoptotic proteins. Previous studies in T cells and CLL cells support this role of LCK as a guardian against apoptosis, as well as LCK inhibition through small-molecule inhibitors as an effective mean to sensitize those cells to apoptosis 35 . Finally, we evaluated LCK expression in KRAS-mutant NSCLC tumours. We observed that ~60% (17/29) of the KRAS-mutated tumours showed high staining levels of phosphorylated LCK by IHC, suggesting that they are probably KRAS-Dep. As projects such as The Cancer Genome Atlas (TCGA) approach their goal of enrolling thousands of patients with matched omics data sets such as exome/genome and RNA sequencing and reverse-phase protein arrays (among others), as well as detailed clinical follow-ups, we will be able to assess the prognostic value of the LCK-KRAS-PAK1/2 pathway in the context of KRAS dependency. A proof-of-principle analysis in this direction is presented in Supplementary Fig. S6E.

Taken together, this study establishes a potentially actionable pathway in KRAS-Dep NSCLCs comprising KRAS, LCK and PAK1/2. We find that KRAS induces LCK activation, leading to a signalling cascade specific to KRAS-Dep cells that promotes cell proliferation and could reinforce a positive feedback loop with KRAS activity (Supplementary Fig. S5D). Furthermore, our study develops a method to integrate multiple proteomic and transcriptomic data sets for the identification of biologically relevant modules in cancer. We thus provide a framework for the complex analysis of multiple cancer data sets to make biologically informed computational predictions for uncharacterized signalling pathways in cancer.

metoder

Data used in this study

A summary of the data sets and software used in this study is provided in Supplementary Table S3.

Protein quantification by label-free LC-MS/MS

The mass spectrometry proteomics and phosphoproteomics data have been deposited to the ProteomeXchange Consortium ( //proteomecentral.proteomexchange.org) via the PRIDE partner repository 43 with the data set identifier PXD000439. The general workflow used for label-free phosphoproteome quantification is summarized in the following steps 18, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58 : sample preparation, phospho-peptides enrichment, label-free quantitative tandem mass spectrometry, peptide identification through database search and quantification by the spectral count method. Cell lines were grown on manufacturer-recommended media until they were 70% confluent and then protein extraction and sample preparation were performed, as previously reported 18, in the presence of proteases and phosphatases.

For mass spectrometry, eluted proteins were separated by one-dimensional (1D) SDS–PAGE (4–12% Bis-Tris Novex-Invitrogen, Carlsbad, CA, USA). Twenty four equal-sized gel bands were excised and subjected to in-gel tryptic digestion. As phospho-peptides correspond to a small fraction of all peptides after tryptic digestion, phospho-peptide enrichment was performed using immobilized metal affinity chromatography (IMAC). Tryptic peptides were then divided into two fractions: phospho-enriched and flow-through or unmodified peptides. Both fractions of extracted peptides were independently reconstituted with mobile phase A prior to on-line reverse phase nanoLC-MS/MS (LTQ-Velos with Proxeon nanoHPLC, ThermoFinnigan). Peptides were eluted on-line to the mass spectrometer with a reverse phase linear gradient from 97% A (0.1% formic acid in water) to 45% B (0.1% formic acid in acetonitrile) over 60 min. Peptides were detected and fragmented in the mass spectrometer in a data-dependent manner, sending the top 12 precursor ions that exceeded a threshold of 500 ion counts, excluding singly charged ions, for collisional-induced dissociation. Dynamic mass exclusion was enabled with a repeat count of 2 for 1.5 min for a list size of 500 m/z .

For the database search, raw spectra files were converted to mzXML using ReadAW. The mzXML files were searched using X!Tandem with the k -score plug-in 59 . The proteomic searches were performed using the following options: allow up to two missed tryptic cleavages, a parent ion tolerance window of −1 to +4 Da and a fragment ion tolerance of 0.8 Da. The following variable modifications were allowed: phosphorylation of serine, threonine and tyrosine ( [email protected] (STY)), oxidation of Methionine (+) and carbamidomethylation of Cysteine (+). All protein searches were performed using the Human Refseq protein database (release 47). Appended to this database were common proteomic contaminants and reversed protein sequences to serve as decoys 60, 61 . The X!Tandem results were then post-processed with PeptideProphet and ProteinProphet 62, 63 . Spectral counts were then obtained for all of the proteins identified in our cohort of 13 cell lines using the Abacus software tool 64 . For Abacus, the following parameters were used: count only peptide-to-spectrum-matches with a PeptideProphet score of >0.5 (iniProbTH=0.50), retain only proteins with at least one peptide with a PeptideProphet score of >0.99 (maxIniProbTH=0.99) and a ProteinProphet probability of >0.9 in the COMBINED file (minCombinedFilePw=0.90). For the phosphorylated fraction, peptides were required to have at least one phosphorylated serine, threonine or tyrosine (reqAAmods=+S[167];+T[181];+Y[243]). Proteins and phospho-proteins identified with at least one spectral count in two independent cell lines were kept for downstream analysis (Supplementary Data 1 and 3), whereas those identified in one cell line only were filtered out (Supplementary Data 2 and 4).

The spectrum counts for each protein were normalized with respect to the total number of spectrum counts within each sample. This normalization was applied independently for unmodified and modified proteins. Common contaminants and 'Deja vu' 65 proteins were filtered out before quantification of differentially abundant proteins. For both unmodified and phosphorylated proteins the fold change was calculated with respect to the comparison KRAS-Dep versus KRAS-Ind cell lines. This fold change was then log-transformed and z -score-normalized. Finally, the P -value was calculated using the standard normal distribution. The final master tables with the normalized spectrum counts for phosphorylated and flow through fraction for each cell line are provided as Supplementary Data 1 and 2.

Phospho-enrichment was calculated as the ratio between the number of phospho-peptides identified and the total number of peptides (phosphorylated and unphosphorylated) at a particular PeptideProphet score for the best peptide match (bestInitProbability). All enrichment calculations were made using only peptides that have Ser, Thr or Tyr in them. Peptides without any of those amino acids were excluded from the calculation. Finally, the phospho-enrichment value is taken for a PeptideProphet score of >0.94 (bestInitProbability=0.9413), which produces a 0.01 FDR. The calculated phospho-peptide enrichment, for all samples, ranges from 26 to 38%.

Genuttrycksdata

Gene expression data used in this study are publicly available at ArrayExpress with accession number E-MTAB-783. Gene expression was scaled and log2-normalized before additional downstream analysis.

Integration of data sets

As different protein functional groups (for example, transcription factors, kinases or secretory proteins) have distinct gene expression dynamic range, the gene expression data set was split into two different categories, 'informative' genes and 'all other' genes and subsequently analysis were performed independently on each one of them. 'Informative' refer to genes that are well known to drive a carcinogenic process such as KRAS , TP53 , ERBB2 and CDKN2A , and so on, as well as to genes that could have the potential to drive oncogenesis as kinases, phosphatases among others. A list of 'Informative' genes was compiled by combining the Sanger's cancer census genes, all kinases and phosphatases as well as additional and recently reported genes important for carcinogenesis (Supplementary Data 8).

Raw data was preprocessed as described above. Phosphoproteome, proteome and transcriptome data sets were log-transformed and the LFC was taken with respect to the comparison between KRAS-Dep and KRAS-Ind cell lines. The LFC was z -score-normalized and a P -value was calculated using the standard normal distribution.

In order to synthetize for each protein the information obtained from gene expression, protein and phospho-protein abundance, we calculated a combined abundance S score as

Image

, where z is the z -transformed LFC of protein i in the data set k , whereas w corresponds to the weight of each data set

Image

. N k represents the size of data set k .

Finally, a P -value for the combined score was calculated using the standard normal distribution and then adjusted using Hochberg procedure in order to correct for multiple hypothesis testing.

Nätverksanalys

We use SPIA 29 in order to perform network-enrichment analysis. The source code for this algorithm is available as an R package from //bioconductor.org/biocLite.R. SPIA calculates the significance of a pathway according to both the over-representation evidence (for example, any commonly used enrichment test) and perturbation-based evidence using the topology of the network. The KEGG database ( //www.genome.jp/kegg/kegg1.html) was used as the main source for the pathway's definition and we used the set of differentially expressed genes as defined by the combined abundance score with adjusted P -value

Image

0.05 as the seed genelist. Significant pathways with FDR

Image

0.05 are reported (Supplementary Table S4).

For the Network reconstruction methodology, we build a focused undirected and weighted protein-to-protein interaction network (G) using significant (FDR

Image

0.05) pathways identified by SPIA 29 . Those pathways were downloaded from the KEGG database 66 and then merged into a unified meta-pathway (G) using the bioconductor KEGGgraph library 67 . This meta-pathway (G) is provided for the interested reader as Supplementary Data 9.

We assigned weights to both nodes (V) and edges (E). Node weights correspond to the combined score ( S ) for differential abundance between KRAS-Dep and KRAS-Ind phenotypes, whereas the edge weights correspond to the experimental confidence on that interaction as derived from the STRING database. For each edge in the meta-pathway, we obtained from STRING the experimental and physical interaction scores and then combined them into a single score using a naive Bayes approach. In addition, in order to decrease redundancy, multiple gene family members with the same interaction partners were summarized into a 'consensus gene' defined as the gene with highest scoring interaction neighbourhood. This step is advised due to the node redundancy introduced within the KEGG database and the fact that the interactions for many gene family members are annotated by similarity to other members in the family and not by direct experimental validation.

Finally, we used PCST algorithm to find sub-networks, T, in the meta-pathway (G) that represent the most differentially abundant proteins connected through the most reliable interactions. Formally, the PCST is formulated as follows:

Image

where b v =−log p ( S ) with p ( S ) as the P -value for the S score of each protein, and

Image

with R i for the string score for the edge's physical and experimental evidence. This choice of b v and c e assigns high values to the most differentially abundant proteins in the pathway and low values to the high confidence interactions in the network. Finally, the constant λ controls the trade-off of adding new proteins into the reconstructed network, by balancing the cost of new edges and the prize gained by bringing in a new protein. λ indirectly controls the size of the final sub-networks. All results presented here were obtained with λ =0.3. In order to choose λ , we solved the PCST problem, varying λ between 0.01–1 in increments of 0.01, and choose the value of λ at which 60% of the essential nodes of simulated network of similar size were recovered. In order to solve the PCST, we used the implementation based on information message passaging described by Bailly-Bechet et al . 33, for which the source code availability is annotated in the Supplementary Table S3.

The PCST has been used in similar settings before 27, 32, 33 because it identifies sub-networks that represent cross-talk between pathways, as well as 'connecting proteins' that are not directly measured in the experiment but that are relevant to link other measured proteins with high weight in the network.

Analysis of LCK knock-down experiments

We used SPIA as described above to identify pathways specifically activated or inhibited after LCK knockdown (Supplementary Table S2), confirming the involvement of a lung cancer pathway but more importantly several pathways controlling apoptosis induction such as the natural killer cell-mediated cytotoxicity, Toll-like receptor signalling and the NOD-like receptor signalling pathway. This is in agreement with the fact that Module M1 containing LCK and PAK1 were enriched for proteins belonging to the apoptosis pathways (Supplementary Fig. S7A). Therefore, we focused the additional analysis of the microarray data on identifying altered proteins belonging to the apoptosis pathways.

To perform BCL2A1 nomination we first collect apoptosis gene concepts from KEGG, gene ontology and Reactome and generate a meta-apoptosis gene concept with all unique genes found. We reasoned that proteins specifically activated by LCK should simultaneously satisfy the following three characteristics: to be overexpressed when comparing KRAS-Dep versus KRAS-Ind cells, to be under-expressed when comparing the LCK knock down versus the non-targeting control in H441 and H358 cell lines and to be unaffected after knocking down any other gene in different cell lines. Characteristic 3 is included to control for changes in gene expression induced by any knockdown treatment irrespective of the gene of interest.

Representing conditions 1, 2 and 3 in Cartesian coordinates results in a plot shown in Supplementary Fig. S8A. The x axis shows the differential expression of those genes when comparing KRAS-Dep versus KRAS-Ind cell lines. The y axis shows the average differential expression of the same genes when comparing a siRNA knockdown of LCK in H441 and H358 cell lines with respect to the targeting control (red dots), or the average differential expression when comparing the knockdown of a 'random' gene compared to its respective control (black dots) in three unrelated prostate cell lines. Genes affected by the overall siRNA treatment would be overlapping or very close in this plot, whereas genes specifically affect by LCK would be located far apart in the y axis. We measure this effect by taking the Euclidean distance between red and black dots representing the same gene in the above representation.

Genes that are specifically affected by LCK would have positive or negative Euclidean distances according to the magnitude of their perturbation, whereas genes nonspecifically affected by the siRNA treatment would have Euclidean distances close to 0 (Supplementary Fig. S8B).

Celllinjer

All cell lines were obtained from ATCC and maintained using standard procedures. Specifically, H441, H358, H2009, H1734, H727, H460, H2122, H1792, H23 and H1155 cells were maintained in RPMI 1640 (Gibco) plus 10% FBS and 1% penicillin-streptomycin. A549 cells were maintained in DMEM (Gibco) plus 10% FBS and 1% penicillin–streptomycin. SKLU1 cell were maintained in DMEM/F12 plus 10% FBS and 1% penicillin–streptomycin. SW900 cells were maintained in L15 plus 10% FBS and 1% penicillin–streptomycin. Cell lines were grown at 37 °C in a 5% CO 2 cell culture incubator. All cell lines were genotyped for identity at the University of Michigan Sequencing Core.

shRNA knockdown studies

For LCK and KRAS knockdowns, all cells were plated at 100, 000 cells per ml in six-well plates and allowed to attach overnight. Cells were infected the following day with the lentivirus RNA and 24 h after infection old media was replaced with new cell media. Cells were allowed to grow for 96 h in this fresh media. At this point cells were treated with 1 mg ml −1 puromycin for 5 days to eliminate uninfected cells. Media was replaced and proliferation assays set up with the stable selected clones. Knockdown efficiency was confirmed by western blot. shRNA sequences are provided in the Supplementary methods.

siRNA knockdown studies

Cells were plated in 100-mM plates at 30% confluency and transfected twice at 12 h and 24 h post-plating. Knockdowns were performed using 20 uM siRNA oligos or non-targeting controls (Dharmacon) with Oligofectamine (Invitrogen) in Opti-MEM media (Gibco). Knockdown efficiency was confirmed by western blot. siRNA used are listed in the Supplementary methods. Seventy-two hours post transfection, cells were rinsed twice with 10 ml PBS, harvested with a rubber policeman in 1 ml PBS and centrifuged for 5 min at 2, 500 g . The supernatant was discarded and the cells were prepared for western blot analysis.

Western blots

Cell pellets were lysed in RIPA lysis buffer (Sigma) supplemented with HALT protease inhibitor and phosphatase inhibitor (Fisher). Western blotting was performed using standard protocols. Briefly, protein lysates were boiled in sample buffer for 5 min at 98C and 10 ug of protein was separated by SDS–PAGE gel electrophoresis. Proteins were transferred onto a PVDF membrane (GE Healthcare) and blocked for 30 min in blocking buffer (5% milk in 1 × TBS supplemented with 0.1% Tween (TBS-T)). Membranes were incubated with primary antibody overnight at 4 °C and then with secondary antibody for 2 h at room temperature. Signals were visualized by enhanced chemiluminescence system (GE Healthcare). The primary antibodies used are listed in the Supplementary methods and full blots can be found in Supplementary Fig S9–S15.

Proliferationsanalyser

Proliferation assays were performed with stable clones of the scramble RNA, and two independent constructs against LCK or KRAS for each cell line. Cells were plated at 30, 000 cells per ml in 24-well plates and cell counts were taken with a Beckman coulter Z2 particle-count instrument every 48 h for 8 days. Three independent replicates of each experiment were performed.

WST drug assays

Cells were plated in a 96-well plate 12 h prior to drug treatment at a density of 3, 500 cells per well in 100 ul of growth media. Desired concentrations of LCK Inhibitor (Santa Cruz, sc-204052, CAS 213743-31-8) and LCK Inhibitor II (Millipore, Lck Inhibitor II, CAS 918870-43-6) were prepared using growth media and 100 ul of the drug solution was added directly to the wells. After 72 h of incubation at 37C, 20 ul of WST Cell proliferation reagent (Roche) was added to each well. Following 2 h of incubation at 37C, the absorbance of the wells was measured at 450 nm.

Konfokal mikroskopi

H460 and H441 cells were fixed with 3.7% paraformaldehyde and then permeabilized with 0.1% ( w / v ) saponin for 15 min. Cells were co-incubated with primary antibodies against phospho β-catenin and total beta catenin for 12 h at 4 °C, followed by incubating with appropriate Alexa-Fluor-conjugated secondary antibodies for 30 min at 37 °C. Cells were washed and mounted onto glass slides using Vectashield mounting medium containing DAPI. Samples were analysed using a Nikon A1 laser-scanning confocal microscope equipped with a Plan-Apo × 63/1.4 numerical aperture oil lens objective. Acquired images were then analysed using ImageJ software (version 1.41o).

KRAS genotyping

Genomic DNA from resected lung cancer tissue samples was prepared using a Qiagen Blood and Tissue Kit (Qiagen) according to the manufacturer's instructions. KRAS mutations were determined using standard RT–PCR and Sanger sequencing protocols for KRAS exon 1, which harbours codons 12 and 13, and exon 2, which harbours codon 61. RT–PCR was performed with 5 ng genomic DNA with 38 cycles of PCR according to the following conditions: 94 °C for 30 s, 56 °C for 30 s and 68 °C for 45 s. PCR products were subsequently purified using ExoSAP-IT PCR purification product (USB/Affymetrix) according to the manufacturer's instructions. PCR products were then unidirectionally sequenced using the M13 forward primer at the University of Michigan Sequencing Core. Sequence data was analysed for the presence of canonical activating KRAS mutations at codons 12, 13 and 61. Primers used for the PCR reactions are listed in the Supplementary methods.

immunohistokemi

IHC analyses on paraffin-embedded formalin-fixed (FFPE) tumour tissue sections were carried out using the automated DiscoveryXT staining platform from Ventana Medical Systems. All FFPE sections were represented in triplicate on the tissue microarray. The primary rabbit monoclonal LCK antibody was obtained from Cell Signaling (#2, 984). Antigen recovery was conducted using heat retrieval and CC1 standard, a high-pH Tris/borate/EDTA buffer (VMSI, catalogue no. 950-124). Slides were incubated with 1:50 of the LCK antibody (Cell Signaling) overnight at room temperature. Primary antibody was detected using the ChromoMap DAB detection kit (VMSI, catalogue no. 760-159) and UltraMap anti-Rb HRP (VMSI, catalogue no. 760-4, 315). The anti-Rb HRP secondary antibody was applied for 30 min at room temperature. Slides were counterstained with Hematoxylin for 10 min followed by Bluing Reagent for 5 min at 37 °C. Staining was scored (DGB) as negative (score=0), minimal (score=1), weak (score=2), moderate (score=3) or high (score=4).

Ytterligare information

Accession codes: The mass spectrometry proteomics and phosphoproteomics data have been deposited in the ProteomeXchange Consortium under accession code PXD000439.

How to cite this article: Balbin, OA et al . Reconstructing targetable pathways in lung cancer by integrating diverse omics data. Nat. Commun. 4:2617 doi: 10.1038/ncomms3617 (2013).

anslutningar

ArrayExpress

  • E-MTAB-783

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande figurer, tabeller och metoder

    Supplementary Figures S1-S9, Supplementary Tables S1-S4 and Supplementary Methods

Excel-filer

  1. 1.

    Kompletterande data 1

    Table of proteins identified by LS-MS/MS

  2. 2.

    Kompletterande data 2

    Table of proteins identified in only one cell line, which were eliminated from the main analysis

  3. 3.

    Kompletterande data 3

    Table of phosphorylated proteins identified by LS-MS/MS

  4. 4.

    Kompletterande data 4

    Table of phosphorylated proteins identified in only once cell line, which were eliminated from the main analysis

  5. 5.

    Kompletterande data 5

    Differentially abundant proteins with at test adjusted hodchberg pvalue < 0.05.

  6. 6.

    Kompletterande data 6

    Differentially abundant proteins found the S score with a adjuested pvalue < 0.05

  7. 7.

    Kompletterande data 7

    Cell lines mutation status for all genes reported in COSMIC database.

  8. 8.

    Kompletterande data 8

    Informative Genes

  9. 9.

    Kompletterande data 9

    Meta-pathway (G) used for the PSCT network reconstruction

kommentarer

Genom att skicka en kommentar samtycker du till att följa våra villkor och gemenskapsriktlinjer. Om du finner något missbruk eller som inte överensstämmer med våra villkor eller riktlinjer ska du markera det som olämpligt.