Beräkningsupptäckt av epstein-barr-virusinriktade mänskliga gener och signalvägar | vetenskapliga rapporter

Beräkningsupptäckt av epstein-barr-virusinriktade mänskliga gener och signalvägar | vetenskapliga rapporter

Anonim

ämnen

  • Cellulära signalnätverk
  • Maskininlärning
  • Proteominformatik

Abstrakt

Epstein-Barr-virus (EBV) spelar viktiga roller i ursprunget och utvecklingen av humana karcinom, t.ex. diffusa stora B-celltumörer, T-celllymfom, etc. Att upptäcka EBV-riktade humana gener och signalvägar är avgörande för att förstå EBV-tumorigenes. I denna studie föreslår vi en brusetolerant homolog kunskapsöverföringsmetod för att rekonstruera funktionella protein-protein-interaktioner (PPI) nätverk mellan Epstein-Barr-virus och Homo sapiens. Träningsuppsättningen förstärks via homolog-instanser och homologbruset motverkas av stödvektormaskinen (SVM). Dessutom föreslår vi två metoder för att definiera subcellulär samlokalisering (dvs. sträng och avslappnad), baserat på vilka man ytterligare kan härleda fysiska PPI-nätverk. Beräkningsresultat visar att den föreslagna metoden uppnår ljudprestanda för korsvalidering och oberoende test. I utrymmet för 648 672 EBV-humana proteinpar erhåller vi 51 485 funktionella interaktioner (7, 94%), 869 stränga fysiska PPI och 46 050 avslappnade fysiska PPI. Femtonåtta bevis finns från den senaste databasen och den senaste litteraturen för att validera modellen. Denna studie avslöjar att Epstein-Barr-virus stör det normala människolivslivet, såsom kolesterolhomeostas, blodkoagulering, EGFR-bindning, p53-bindning, notch-signalering, igelkorssignalering, etc. De proteome-breda förutsägelser finns i den kompletterande filen för vidare biomedicinsk forskning.

Introduktion

Virus-värdinteraktion hjälper virus att kapa värdcellulära processer för överlevnad och replikering inom dess värd. Genom interaktioner med värdproteiner, stör virus och avbryter värdsignaleringsvägar för att förändra nyckelcellulära funktioner 1 . Snabb beräkningsupptäckt av virusinriktade mänskliga gener och signalvägar är av betydelse för att avslöja viral patogenes och hitta drogerbara mål. För närvarande fokuserar majoriteten av beräkningsmetoderna på humant immunbristvirus typ 1 (HIV-1) 1, 2, 3, 4, 5, 6, 7, 8, 9, varvid 1 fokuserar på att förutsäga aktiverings / hämningssignaler och 2, 3, 4, 5, 6, 7, 8, 9 fokuserar på prediktionsprotein-proteininteraktioner (PPI) mellan HIV-1 och människa. Anledningen till att HIV-1 väljs för beräkningsmodellering är att HIV-1 är ett väl förstått virus med de största experimentella virus-värd PPI-nätverk. Mei 7 härledde 3 638 PPI som positiva träningsdata från HIV-1-databasen (//www.ncbi.nlm.nih.gov/projects/RefSeq/HIVInteractions/). Ändå är datastorleken fortfarande mycket mindre än PPI-nätets storlek 10, 11, 12, dels på grund av det lilla virala genomet. Små data utgör fler utmaningar ur beräkningsmodellens synvinkel. Bland de kända virusen har HIV-1 de största experimentella virus-värd PPI-nät som vi vet. För de andra virus som har mycket mindre experimentella virus-värd PPI-nätverk, måste vi uttryckligen ta itu med speciella problem som till exempel förstärkning av träningsdata för att minska risken för övermontering av modeller. Så vitt vi vet är Epstein-Barr-virus (EBV) också ett väl studerat virus med det näst största experimentella virus-värd PPI-nätverket efter HIV-1, så EBV kommer att vara nästa i raden som en modellorganism för beräkningsmodellering.

Epstein-Barr-virus (EBV) är det första kända humana tumörviruset som fungerar som det orsakande medlet för infektiös mononukleos och spelar viktiga roller i ursprunget eller utvecklingen av maligniteter i B-celler, t.ex. Hodgkinlymphoma, olika AIDS-associerade lymfom. För närvarande ses Epstein-Barr-virus också som epitel-tumörvirus samt lymphotropiskt virus 13 . För närvarande rapporteras endast 173 EBV-humana PPI i 14, mycket mindre än 3 638 HIV-humana PPI. En sådan liten data ger mer utmaningar för beräkningsmodelleringen. De experimentella PPI-nätverk mellan Epstein-Barr-viruset och Homo sapiens avslöjar ett begränsat antal mänskliga målgener och signalvägar. För fall lokaliserar interaktionen mellan Nur77 och EBNA2 Nur77 till kärnan och skyddar celler från Nur77-medierad apoptos; EBNA3A-interaktion med RPL4 reglerar också programmerad celldöd; EBV LMP1 visar sig interagera med TRAF1-protein för att koppla LMP1-medierad B-lymfocyttransformation till signaltransduktionen från TNFR-familjereceptorer; och EBNA2 befinner sig inriktas på två signalvägar som modulerar intracellulära Ca2 + -jonnivåer, etc. Dessa experimentella PPI-nätverk kan behandlas som en pålitlig träningsdata för beräkningsmodellering.

Så vitt vi vet har ingen beräkningsmetod hittills föreslagits för rekonstruktion av EBV-mänskliga PPI-nätverk. De befintliga beräkningsmetoderna för HIV-mänsklig PPI-förutsägelse fokuserar vanligtvis på att integrera information om flera funktioner (t.ex. genontologi, sekvens k -mer, gen-samuttryck, proteinstrukturinformation, etc.) för att förbättra prediktiv prestanda 2, 3, 4, 5 6, 7, 8, 9 . Inlärning med flera uppgifter är ett sofistikerat ramverk för att integrera flera källor för funktionsinformation via parameternoptimering 3, 8 . Dataintegration är användbar för att berika funktionsinformation, men inför under tiden krävande databegränsningar för beräkningsmodellen. När den nödvändiga funktionsinformationen för förutsägelse (t.ex. genontologi, strukturell information) inte är tillgänglig, kan den utbildade modellen inte fungera. Mei 7 introducerade homologkunskap via ramens inlärningsram för att ta itu med detta problem. Dessa metoder fungerar korrekt på HIV-1-måttstorleken (> 3000 PPI). För extremt små virus-värd PPI-nätverk, behöver vi vidareutveckla explicita metoder för dataökning för att minska risken för övermontering av modeller.

I detta arbete syftar vi till att upptäcka Epstein-Barr-virusinriktade mänskliga gener och signalvägar. Med tanke på de små experimentella EBV-mänskliga PPI-nätverken föreslår vi en brustolerant homolog kunskapsöverföringsmetod för att uttryckligen öka träningsdata. Till skillnad från den sannolikhetsvägda lärandemetoden för ensemble som behandlar homologkunskap som oberoende åsikter 7, behandlar vi homologkunskap som oberoende instanser, så att träningsdata är dubbelstora och funktionsinformationen berikas. Emellertid kan Homolog-instanser bära brus från evolutionär divergens. Här implementerar vi homolog kunskapsöverföring under inlärningsramen för supportvektormaskin (SVM). SVM är välkänt för sin motstånd mot brus / outlier via teoretiskt ljudregulariseringsteknik 15 . Genom att utföra anrikningsanalys av GO (genontologi) och anrikningsanalys för vägar, kan vi enkelt dra slutsatsen hur Epstein-Barr-virus stör människors signalvägar.

Data och metoder

Data och material

De experimentella PPI-nätverk mellan Epstein-Barr-viruset och Homo sapiens samlas in från tre virus-värd PPI-databaser: VirusMINT 16 (//mint.bio.uniroma2.it/virusmint/Welcome.do); Virhostome 17 (//interactome.dfci.harvard.edu/V_hostome/index.php); VirusMentha 18 (//virusmentha.uniroma2.it/). Vi tar bort de föråldrade och okurerade proteinerna genom att kontrollera mot Uniprot-databasen (//www.uniprot.org/uniprot/). De proteiner som inte har några gennamn tas också bort. Som ett resultat innehåller VirusMINT 266 PPI, Virhostome innehåller 128 PPI och VirusMentha innehåller 189 PPI. Datadistributionen och skärningspunkten mellan de tre datauppsättningarna illustreras i fig. 1. Vi kan se att Virhostome har mycket små korsningar med de andra två datauppsättningarna. Här använder vi VirusMINT som preliminär träningsuppsättning och använder Virhostome som preliminär oberoende testuppsättning för att genomföra preliminär studie. För att säkerställa att den oberoende testuppsättningen inte har någon korsning med träningsuppsättningen tar vi bort från Virhostome de PPI som finns i VirusMINT. Dessutom tar vi bort Virhostome de PPI-värden vars EBV-proteiner inte förekommer i VirusMINT genom att träningsdata inte innehåller någon information om dessa EBV-proteiner. Således innehåller den sista Virhostome 84 interaktioner. I slutändan kombinerar vi ytterligare VirusMINT och Virhostome för att få de slutliga träningsdata (betecknade VirusMINT + Virhostome) som innehåller 350 interaktioner. Följaktligen använder vi VirusMentha som den slutliga valideringsuppsättningen. På samma sätt tar vi också bort från VirusMentha alla PPI som finns i VirusMINT + Virhostome. Således innehåller den sista VirusMentha 60 PPI.

Bild i full storlek

Ovanstående data ses som positiva exempel. För att träna en två-klassig prediktiv modell provar vi slumpmässigt de negativa exemplen i EBV-humant proteinparutrymme exklusive de positiva exemplen. Hittills hur man bestämmer provtagningsförhållandet för negativa exempel är en kontroversiell fråga inom beräkningsbiologi 2, 3, 4, 7, 8 . I en del arbete antas lika storleken på negativa exempel 7, 12, medan andra arbetet antar flera vikter av negativa exempel 3, 4 . Här är vi benägna att anta 1: 1-förhållande av negativa exempel till positiva exempel av följande skäl: (1) ur beräkningsperspektiv är stora förhållanden negativa exempel till positiva exempel benägna att ge en mycket negativ klassklassig modell som kan känner knappast igen riktiga protein-protein-interaktioner; (2) För mycket små positiva träningsexempel kan stora förhållanden negativa exempel och positiva exempel göra saker mycket värre, eftersom den begränsade informationen i positiva exempel skulle bli överväldigad av de enorma negativa exemplen eller till och med kunde försummas; (3) de befintliga metoderna som använder ett stort förhållande av negativa exempel till positiva exempel ger sällan en partisk mått inklusive precision, känslighet och Matthews korrelationskoefficient för den lilla positiva klassen. I extremfallet med mycket obalanserade träningsdata är prestandametrisk noggrannhet vilseledande; (4) Vi känner inte till det verkliga förhållandet mellan negativa exempel och positiva exempel i den verkliga världen. Egentligen är det svårt att hitta en direkt och tolkbar kartläggning mellan biologiskt problem och beräkningsproblem.

Konstruktion med flera instanser

Genontologi (GO) 19 har ofta använts för att förutsäga protein-proteininteraktioner 2, 3, 7, 8, 10, 11 och påstås vara det mest diskriminerande inslaget i ref. 20. Trots det är majoriteten av gener / proteiner sparsamt antecknade med GO-termer. I de flesta fall kunde den glesa GO-funktionsvektorn endast ge mycket begränsad information. I vissa extrema fall som den berörda genen / proteinet inte kommenteras alls skulle GO-funktionsvektorn vara nollvektor. För att minska risken för nollvektor och berika funktionsinformation, avbildar vi en gen / protein med två fall, nämligen målinstans och homologinstans. Målinstansen representerar GO-kunskapen om själva genen / proteinet, medan homologinstansen representerar GO-kunskapen för homologerna. Som sådan berikar homologinstansen inte bara funktionsinformationen för målinstansen utan ersätter också målinstansen när genen / proteinet inte kommenteras. Vi extraherar homologerna från SwissProt 21 med PSI-BLast 22 (E-värde = 10) mot alla arter. GO-villkoren hämtas från GOA 19 . Med U för att beteckna träningsdata får vi två uppsättningar GO-termer för varje protein i . En uppsättning innehåller GO-termerna för homologerna (betecknade som

), och den andra uppsättningen innehåller GO-termerna för själva proteinet (betecknat som

). Följaktligen definieras hela uppsättningen GO-termer för träningsdata U (betecknad som S ) enligt följande.

Baserat på dessa notationer definierar vi formellt de två funktionsvektorerna för ett proteinpar ( i 1, i 2 ) enligt följande.

För varje GO-term g ∈S,

betecknar komponent g i målinstansen

och

betecknar komponent g i homologinstansen

. Vid praktisk programmeringsimplementering tilldelas GO-term g ett heltalindex. De GO-termer som uppfyller g g S tas bort. Formel (2) indikerar att om proteinparet ( i 1, i 2 ) delar samma GO- term g , motsvarar komponentvärdet i funktionsvektorn

eller

är 2; om inget protein i proteinparet har GO- termen g är värdet 0; annars är värdet 1. Ovanstående definition är symmetrisk, dvs proteinparet ( i , i2 ) och proteinparet ( i2 , i 1 ) har identiska särdragsrepresentation.

Buller-tolerant homolog kunskapsöverföring

Homolog kunskapsöverföring utförs via homolog instans för att tjäna syftena med (1) berikning av funktionsinformationen för målinstansen; (2) substitution med målinstansen när genen / proteinet inte är antecknat; (3) förstärkning av träningsdata för att minska risken för övermontering av modeller. Emellertid kan homologinstansen ha brus som är resultatet av evolutionär divergens, och därför måste vi välja en ramtolerant maskininlärningsram för att implementera homolog kunskapsöverföring. Så vitt vi vet är supportvektormaskin (SVM) en teoretiskt väletablerad maskininlärningsalgoritm 15 som graciöst minskar den negativa effekten av buller via reguleringsteknik. För tydlighets skull beskriver vi här kort hur SVM uttryckligen kan tolerera en viss ljudnivå. Givet träningsdata x i ∈ R n , i = 1, 2,

.

, l och klassetiketter y ∈ Rl , y i ∈ {−1, 1}, C-SVM löser följande primära optimeringsproblem:

där ω representerar viktvektorn är ϕ ( x i ) mappningsfunktion och C betecknar straffparameter. Här är de slacka variablerna ξ i (≥0, i = 1,

.

, l ) införs för att tolerera en viss ljudnivå, utan vilken, dvs ξ i = 0, i = 1,

.

, l , C-SVM formulerad i formel (3) skulle degenereras till en SVM med hård marginal. I formel (3) motverkas bruseffekten av brus av straffparametern C.

Dessutom använder SVM välkända kärntrick för att definiera den inre produkten mellan mappningsfunktionen ϕ ( x ) och ϕ ( y ), dvs k ( x, y ) = ( ϕ ( x ) • ϕ ( y )). I kärnfunktionen k ( x, y ) finns det inget behov av en tydlig definition och beräkning av mappningsfunktionen ϕ ( x ). Här adopterar vi Gaussian- kärnan.

där || Δ || betecknar 2-normen för vektorn Δ, och hyperparametern y styr flexibiliteten hos Gaussisk kärna.

Varje testprotein-proteinpar ( i , i, 2 ) representeras med målinstansen

och homologinstansen

, beslutsfunktionen f (x ) ger följaktligen två utgångar, dvs.

och

. Genom att kombinera de två utgångarna definierar vi det slutliga beslutet enligt följande.

Där | Δ | anger det absoluta värdet för Δ. Baserat på den slutliga beslutsfunktionen kan vi ytterligare bestämma den slutliga klassetiketten för testprotein-proteinparet ( i 1, i 2 ) enligt följande.

där tröskeln 5 används för att filtrera bort de positiva förutsägelserna med lågt förtroende.

Experimentella inställningar och modellutvärdering

Vi designar tre experimentella inställningar för att demonstrera effektiviteten i överföring av homologkunskap via homologinstanser. Den första inställningen, nämligen SVM-enstaka instans som representerar varje proteinpar med enbart målinstansen, används som baslinjen. Den andra inställningen, nämligen SVM Novel med flera instanser , är medvetet utformad för att utvärdera modellens robusthet mot datatillgänglighet. I denna inställning representeras träningsdata med både målinstanser och homolog-instanser, medan testdata representeras med endast homolog-instanser. Den tredje inställningen, nämligen SVM med flera instanser , är utformad för att utvärdera anrikning av funktionsinformation som åstadkommits av homologinstanserna. I denna inställning representeras både träningsdata och testdata med målinstanser och homologinstanser.

Här använder vi korsvalidering och oberoende test för att utvärdera modellprestanda. För att minska risken för utvärderingsförskjutning, antar vi samtidigt flera prestandametriker inklusive ROC-AUC (mottagarens funktionskaraktär AUC), SE (känslighet), SP (specificitet), MCC (Matthews korrelationskoefficient), F1-poäng och noggrannhet. Förutom AUC-poäng kan alla andra mätvärden härledas från förvirringsmatris. Med tanke på förvirringsmatris M definieras flera mellanvariabler med formel (7), och sedan kan SPl, SE och MCC 1 för varje klassetikett beräknas med formel (8). Total noggrannhet och MCC kan beräknas med formel (9),

där elementet i förvirringsmatrisen M i , j registrerar räkningarna som klass i klassificeras som klass j , och L anger antalet klassetiketter. AUC beräknas baserat på beslutsvärdena enligt definitionen med formel (5), och F1-poängen beräknas med formel (10).

Resultat

Korsvalidering och oberoende test

Korsvalidering i VirusMINT-datasättet

Vi utvärderar först den preliminära genomförbarheten på VirusMINT-datasättet. Från VirusMINT-databas 16 extraheras 266 interaktioner och behandlas som positiva data, och samma storlek negativa data samplas slumpmässigt för att utbilda en tvåklassig SVM-modell. Resultaten av 10-faldig korsvalidering för de tre experimentella inställningarna sammanfattas i tabell 1, och motsvarande ROC-kurvor visas i fig. 2. Från resultaten kan vi se att multimediainstans SVM uppnår bästa prestanda (AUC = 0, 8503; Acc = 77, 10%; MCC = 0, 6139; F1-poäng = 0, 77736), något bättre än SVM-novellen med flera förekomster (AUC = 0, 8281; Acc = 75, 32%; MCC = 0, 5879; F1-poäng = 0, 7597) och SVM (AUC med en instans) = 0, 8258; Acc = 73, 84%; MCC = 0, 5667; Fl-poäng = 0, 7510). Resultaten från SVM Novel med flera instanser indikerar att den föreslagna modellen fortfarande fungerar bra när GO-kunskapen om genen / proteinet i fråga inte är tillgänglig. Jämförelse av SP-, SE- och MCC-poängen på den positiva klassen och den negativa klassen (se tabell 1), kan vi se att den föreslagna modellen ger lite förutsägbar partiskhet.

Full storlek bord

Bild i full storlek

Oberoende test på Virhostome-datasättet

Virhostome-datasättet innehåller 84 interaktioner. För att verifiera hur väl modellen tränad i VirusMINT-datasättet generaliserar till osynliga testdata genomför vi vidare oberoende test på Virhostome-datasättet 17 . Beräkningsresultatet visar att 82, 14% av Virhostome-datasättet (84 interaktioner) är korrekt igenkända. Denna prestanda är mycket lovande. För närvarande är den oberoende testprestanda för de befintliga metoderna inte tillfredsställande. I vissa fall erkände den halvt övervakade metodinlärningsmetoden 3 bara 10% experimentellt härledda HIV-humana PPI. Den biologiska metoden HT-Y2H kände igen endast 2, 1% HTLV-humana PPI som härrör från andra biologiska experimentella metoder 23 .

Korsvalidering på VirusMINT + Virhostome-datasättet

Vi sammanfogar interaktioner från VirusMINT- och Virhostome-databaser till de slutliga positiva träningsdata (kallad VirusMINT + Virhostome) som innehåller 350 exempel. För att träna en tvåklassig SVM-modell provar vi också slumpmässigt 350 negativa data (se tilläggsfil). Resultaten av 10-faldig korsvalidering för de tre experimentella inställningarna finns i tabell 2. ROC-kurvorna för 10-faldig korsvalidering illustreras i fig. 3. Resultaten i tabellerna 1 och 2 visar att införlivandet av interaktioner från Virhostome-databasen inte ger mycket prestandaförstärkning. Ändå väljer vi fortfarande VirusMINT + Virhostome-datasättet som den slutliga positiva träningsdata.

Full storlek bord

Bild i full storlek

Rekonstruktion av hela proteinet av EBV-mänskliga PPI-nät

Det finns 32 EBV-gener / proteiner att studera i träningsdata (VirusMINT + Virhostome). De potentiella mänskliga målgenerna hämtas från Uniprot (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/uniprot_sprot_human.dat.gz). För varje EBV-gen / protein erhåller vi dess prediktionsutrymme genom att utesluta de EBV-humana proteinpar som redan finns i träningsdata. I genomsnitt härleds över 20 000 humana kandidatgener för varje EBV-gen. Resultaten av de proteombredda förutsägelserna finns i den kompletterande filen. Här ställer vi in ​​tröskeln δ = 0.01 (se formel (6)) för att minska risken för falska positiva förutsägelser. Bland de 648 672 EBV-humana proteinparen finns 51 485 proteinpar som förutsägs interagerar (positivt) och står för 7, 94% positiv hastighet. Jansen et al . 24 föreslog en doktrin om att det förväntade antalet negativ (dvs icke-interagerande proteinpar) är flera storleksordningar högre än antalet positiva (dvs. interagerande proteinpar). Den 7, 94% förutsagda positiva nivån överensstämmer med läran, vilket indikerar en låg risk för falska positiva förutsägelser. Ändå förutses 49, 64 procent av de 20 334 humana proteinerna vara riktade av 32 EBV-gener, vilket potentiellt indikerar en viss risk för falska positiva förutsägelser. Det är värt att notera att de förutsagda EBV-humana PPI: erna är funktionella protein-protein-interaktioner, eftersom vi använder de tre aspekterna av genontologi (cellfack, molekylära funktioner och biologiska processer) för att avbilda gener / proteiner. Om vi ​​lägger subcellulär samlokalisering på de förutsagda funktionella PPI: erna, kan vi härleda förutsagda fysiska PPI: er mellan Epstein-Barr-viruset och Homo sapiens.

Här föreslår vi två metoder för att bestämma huruvida en EBV-gen och en human gen är subcellulär samlokaliserad eller inte. En metod är att kontrollera om EBV-genen och den mänskliga genen är antecknade med samma GO-term i cellkammaren. Den allmänna GO-termen GO: 0005575 tas bort eftersom den inte ger någon användbar information. Således får vi 869 fysiska EBV-humana PPI: er (se tilläggsfilen), mycket mindre än de förutsagda 51 485 PPI: erna. Följaktligen lägger de förutsagda mänskliga målgenerna upp till 153. Denna metod är tillförlitlig för att härleda fysiska PPI: er, men är för sträng för att täcka alla fysiska PPI, eftersom de nuvarande GO-anteckningarna för både EBV-gener och mänskliga gener är långt ofullständiga. Den andra metoden är att slappna av kriterierna för subcellulär samlokalisering. Vi antar att organellmembranproteiner har stora chanser att fysiskt komma i kontakt med proteinerna i eller utanför organellen. Enligt detta antagande anser vi som fysisk interaktion alla förutsagda EBV-humana PPI som innehåller EBV-membranprotein eller humant membranprotein. Därmed erhåller vi 46 050 fysiska EBV-humana PPI (står för 7, 1% positiv hastighet) och 8 852 humana målgener (står för 43, 53% målfrekvens) (se kompletterande fil). Denna metod får bred täckning av fysiska EBV-humana PPI, men täcker under tiden de funktionella EBV-humana PPI, vars EBV-proteiner och humana proteiner kanske inte har några chanser till fysisk kontakt.

Som helhet verkar 49, 64 procenten av de totala humana generna som de 32 EBV-generna är höga, men de flesta av EBV-generna / proteinerna förutsägs individuellt interagera med mindre än 5% humana gener / proteiner (se fig. 4). Endast sju EBV-gener / proteiner förutsägs interagera med mer än 20% av de humana generna / proteinerna, inklusive BMFL1 (33, 52%), EBNA-LP (25, 77%), BZLF1 (25, 42%), EBNA3 (30, 84%), EBNA1 (21, 99%), BGLF4 (25, 79%) och BLLF2 (24, 11%). Trots detta är procentandelen mänskliga målgener inte hög jämfört med de befintliga beräkningsmetoderna för PPI-prognos för patogen-värd. För fall förutses 22 651 humana gener av 22 654 humana gener att interagera med Salmonella gener 25 . HTLV-genen förutsägs interagera med minst 20% humana gener och den högsta förutsagda procentandelen av humana målgener är upp till 44, 73% 26 . Jämförelsevis är den falska positiva hastigheten som uppnåtts med den föreslagna metoden acceptabel.

Bild i full storlek

Validering mot den senaste databasen och den senaste litteraturen

Vi validerar vidare de proteombredda förutsägelser mot den senaste databas med virusvärd och ny litteratur. Det är inte lätt att samla stödjande bevis på att nya bevis är knappa och spridda bland tusentals litteratur. Ändå hittar vi fortfarande 58 bevis för att stödja våra förutsägelser (se tabell 3), inklusive 33 experimentella bevis från VirusMentha-databas 18 (//virusmentha.uniroma2.it/) och 25 experimentella bevis från ny litteratur. Ta bevisen från den senaste litteraturen som exempel. Interaktioner {BGLF4, SUMO1} och {BGLF4, SUMO2} har experimentellt verifierats 27, 28 . I ref. 27 har det hävdats att SUMO-bindning genom BGLF4 modulerar BGLF4-funktion och påverkar effektiviteten av lytisk EBV-replikation. Beträffande {BGLF4, Nup62} har det hävdats att BGLF4 binder till Nup62 och Nup153 till inducerande organisering av kärnkraftsporkomplexet 29 . I ref. 30, XPC och Cdc20 har identifierats för att förutsäga med BGLF4. När det gäller {EBNA-LP, ESRRA}, har EBNA-LP verifierats att interagera med hERR1 (ESRRA) experimentellt genom jäst tvåhybridbiblioteksscreen, GST-neddragningsförsök, antikroppar & immunblotting och reportergenanalyser och interaktionen inblandad vid EBV-inducerad transformation påverkar expressionen av hERR1-inducerbara cellulära och virala gener 31 . När det gäller {EBNA-LP, RB1}, rapporteras EBNA-5-protein (EBNA-LP) att bilda ett molekylkomplex med retinoblastoma (RB) och p53 tumörsuppressorproteiner för B-celltransformation 32 . I ref. 33, följande interaktioner {EBNA-LP, CDKN2A}, {BZLF1, UBN1}, {EBNA1, RPA1}, {EBNA1, TNPO1}, {EBNA3, CTBP1}, {EBNA3, AIP}, {EBNA3, AHR} och { EBNA6, SMN1} användes som träningsexempel för beräkningsmodellering. När det gäller {BZLF1, PARP1}, har BZLF1 identifierats experimentellt för att interagera med PARP1 för att inducera reparations-DNA-skador mot EBV-infektion 34 . I ref. 35, påstås BZLF1 förbättra ubiquitinering och nedbrytning av p53 för att hämma växelverkan mellan p53 och MDM2 och sålunda blockerar signalering av p53-nedströms för effektiv viral förökning. I ref. 36 rapporteras att BZLF1 interagerar med ZEB1, TP53INP1 och NOTCH2. Interaktionen mellan Zeb1 och BZLF1-promotor hämmar de lytiska cykelens inmodelsystem, och Notch-ligering visas experimentellt för att hämma BZLF1-uttryck vid primär B-cellinfektion. Samtidigt har BZLF1 också rapporterats interagera med SUMO1 / 2/3 i ref. 28. I ref. 37, demonstreras EBNA1 experimentellt för att funktionellt interagera med Brd4 i nativa och heterologa system för att förmedla transkriptionell aktivering.

Full storlek bord

Jämförelse med befintliga metoder på de små Salmonella- uppgifterna

Den ovan beskrivna prestationsberäkningen av korsvalidering och oberoende test har visat tillförlitligheten för den föreslagna metoden, och valideringen mot den senaste databasen och ny litteratur visar vidare den praktiska genomförbarheten för den föreslagna metoden, vi måste fortfarande tillämpa den föreslagna metoden för andra patogen-värd PPI-data. Till skillnad från de nuvarande metoderna som rekonstruerar PPI-nätverk mellan HIV-1 och Homo sapiens 2, 3, 4, 5, 6, 7, 8, 9, är den föreslagna metoden särskilt utvecklad för mycket små träningsdata.

Storleken på PPI-nätverk mellan Salmonella och Homo sapiens är mindre än eller ungefär samma som PPI-nätverk mellan Epstein-Barr-viruset och Homo sapiens. I ref. 38, föreslås en beräkningsmetod som kallas AdaBoost med flera instanser för att utnyttja 66 PPI mellan Salmonella och Homo sapiens. Denna metod förstärker också träningsdata via homolog-instanser, men på olika sätt implementerar brusstyrning inom ramen för AdaBoost. Vi utför prestationsjämförelsen på samma Salmonella- träningsdata som 38 och prestationsjämförelsen tillhandahålls i tabell 4 och illustreras i fig. 5. Beräkningsresultaten visar att den föreslagna metoden uppnår betydande prestandaförbättringar jämfört med det nyligen avancerade flerfunktionen AdaBoost 38 . Prestandaförbättringen åstadkommes till stor del av supportvektormaskinen (SVM). Resultaten visar också att det teoretiskt ljud-SVM överträffar den empiriska AdaBoost på Salmonella- data när det gäller brustolerans och generaliseringsförmåga.

Full storlek bord

Bild i full storlek

HIV-1 är ett väl studerat virus med de största experimentella virus-värd PPI-nätverk och följaktligen har beräkningsmodellering på nätverken väckt mycket uppmärksamhet från forskare 2, 3, 4, 5, 6, 7, 8, 9 . I ref. 9, en utbildningsuppsättning som innehåller 3 638 positiva exempel och 3 638 negativa exempel härleds för att utbilda en sannolikhetsvägd ensembleöverföringsinlärningsmodell. Metoden som föreslås i detta arbete är till synes inte tillämplig på så stora träningsdata eftersom fördubbling av träningsdata avsevärt ökar beräkningskomplexiteten på SVM-utbildning eller till och med resulterar i beräkningsmöjlighet. Av anledningen tillämpar vi inte den föreslagna metoden på de experimentella PPI-nätverk mellan HIV-1 och Homo sapiens.

diskussioner

Under de senaste åren har rekonstruktion av patogen-värd PPI-nät som ett forskningsfält för mikrobiell informatik dragit stor uppmärksamhet från beräkningsbiologer, t.ex. HIV-1 2, 3, 4, 5, 6, 7, 8, 9, HTLV 26, Salmonella 38, etc. Nourani et al . 39 granskade ett brett utbud av beräkningsmetoder för rekonstruktion av PPI-nät för patogenvärd. Upptäckten av de målinriktade mänskliga generna och signalvägarna är av betydelse för att förstå patogenesen av Epstein-Barr-viruset (EBV). Beräkningsrekonstruktion av proteinomfattande protein-protein-interaktion (PPI) nätverk mellan Epstein-Barr-viruset och Homo sapiens är det första steget för att uppnå detta mål. Baserat på de förutsagda EBV-humana PPI-nätverk kan vi dra slutsatsen hur Epstein-Barr-virus stör de normala molekylfunktionerna hos mänskliga gener / proteiner och hur Epstein-Barr-virus blockerar mänskliga signalvägar. Med denna kunskap är det lovande att utforma eller välja lämpliga hämmare för att undertrycka EBV-gener eller blockera EBV-humana PPI: er.

I detta arbete föreslår vi en brusetolerant metod för överföring av kunskaper om homolog för att upptäcka nya mänskliga målgener och signalvägar, där homologkunskap används som oberoende homologinstanser för att öka träningsdata. Homologinstansen tjänar tre huvudsakliga syften: (1) att minska risken för modellöverföring som är resultatet av små träningsdata; (2) berika funktionsinformationen för målinstanserna; (3) att ersätta målinstansen när kunskapen om genontologi för den aktuella genen / proteinet inte är tillgänglig. Det homologbrus som härrör från evolutionär divergens motverkas av regleringstekniken för stödvektormaskin (SVM).

Falsk positiv hastighet är ett viktigt problem för beräkningsrekonstruktion av nätverk mellan protein och protein. För närvarande kan vi inte eliminera falska positiva förutsägelser helt eftersom datakvaliteten och beräkningsmetoden är långt ofullkomlig. Det vi är oroliga för är hur stor falsk positiv ränta som är acceptabel. Tyvärr känner vi inte till det verkliga förhållandet positiva (interaktioner) till negativa (icke-interaktioner) i den verkliga världen, så vi kan inte rationellt bestämma den acceptabla falska positiva hastigheten. Ändå försöker vi fortfarande att utvärdera risken för falska positiva förutsägelser från de två aspekterna. Den första aspekten är förhållandet mellan de förutsagda positiverna och hela proteinparets utrymme. Den föreslagna metoden förutsäger 51 485 funktionella interaktioner i utrymmet för 648 672 EBV-humana proteinpar (7, 94%). If we put the constraint of subcellular co-localization on the predictions, we obtain 869 stringent physical PPIs (EBV gene and human gene are annotated with the same GO term of cellular compartment) and 46, 050 relaxed physical PPIs (membrane proteins are assumed to have chances to physically interact with the proteins inside or outside corresponding organelles). Low ratio of positive predictions surely reduces the risk of false positive predictions. The other aspect is the ratio of EBV targeted human genes. In this work, the computational results show that most of the EBV genes/proteins are predicted to individually interact with less than 5% human genes/proteins. Low ratio of EBV targeted human genes also implies low risk of false positive predictions. If the threshold δ defined in formula (6) is increased, the two ratios will be decreased to achieve lower risk of false positive predictions.

För att minska risken för falska positiva förutsägelser och göra förutsägelserna pålitliga, måste vi ta hänsyn till flera viktiga faktorer för beräkningsmodellering, t.ex. datastorlek, datakvalitet, datarepresentativitet, beräkningsalgoritm, etc. I detta arbete är datastorleken ökar via homologinstanser; representativiteten för negativa data implementeras genom slumpmässig provtagning i det enorma utrymmet av proteinpar; datakvaliteten garanteras genom att använda litteraturkuraterade experimentella PPI-data; och SVM används som beräkningsram för att minska risken för negativ homolog kunskapsöverföring.

Beräkningsresultaten visar att den föreslagna metoden uppnår tillfredsställande korsvalidering och oberoende testprestanda. Med hjälp av den tränade modellen har vi rekonstruerat de proteomövergripande protein-protein-interaktionsnätverk mellan Epstein-Barr-viruset och Homo sapiens, där 33 förutsägelser har validerats mot den senaste VirusMentha-databasen och 25 förutsägelser har validerats mot den senaste litteraturen. För att få mer insikt genomför vi vidare GO-anrikning och väganrikningsanalys av förutsagda proteomövergående EBV-mänskliga PPI-nätverk.

Genontologi baserad klusteranalys av EBV-riktade mänskliga gener

För att klustera de EBV-riktade humana proteinerna som uppfyller identiska molekylära funktioner, deltar i samma biologiska processer eller bor i samma cellulära fack, använder vi genontologi-term (GO-term) som avståndsmetris för kluster, dvs. de samverkande mänskliga partnerna som antecknas med samma GO-term tilldelas samma kluster. Alla GO-termer för mänskliga gener / proteiner klassificeras i tre huvudklasser, biologiska processer (P), molekylära funktioner (F) och cellulära fack (C). För varje större klass överväger vi ytterligare två scenarier för att studera de vanliga attackmönstren för 32 EBV-proteiner: (1) alla de 32 EBV-proteinerna är involverade i PPI-subnätverket; (2) INTE alla 32 EBV-proteinerna är involverade i PPI-subnätverket. De förutsagda PPI-subnätverken anges i den kompletterande filen. Här tar vi bara fyra förutsagda PPI-subnätverk som exempel, intresserade läsare hänvisas till den kompletterande filen för biologiska signaler.

PPI-subnätverk GO: 0042632 - kolesterolhomeostas

Det förutsagda PPI-undernätverket GO: 0042632 extraherat från den kompletterande filen illustreras i fig 6 (A). Alla humana gener / proteiner i Fig. 6 (A) är involverade i de biologiska processerna för kolesterolhomeostas (GO: 0042632). Såsom visas i fig. 6 (A) förutspås det humana proteinet PLSCR3 att vara målinriktat av alla 32 EBV-proteiner. Enligt UniprotKB (//www.uniprot.org/uniprot/Q9NRY6) påstås PLSCR3 förmedla ATP-oberoende bidirectional transbilayer-migration av fosfolipider vid bindning av kalciumjoner. PLSCR3 spelar också en central roll i initieringen av fibrinproppbildning, aktiveringen av mastceller, igenkänningen av apoptotiska celler och translokationen av kardiolipin från det inre till det yttre mitokondriella membranet. Från de förutspådda interaktionerna kan vi dra slutsatsen att EBV-proteiner kan störa kolesterolhomeostas och fibrinproppbildning av värdcellen. Förutom PLSCR3 förutspås också de andra tre humana proteinerna {NPC1L1, EHD1, LDLR} att de ska vara målinriktade av de flesta av EBV-proteinerna. NPC1L1 spelar viktiga roller i biosyntetisk kolesterolprocess, kolesteroltransport och absorption av kolesterol i tarmen (//www.uniprot.org/uniprot/Q9UHC9). EHD1 spelar roller i kolesterolhomeostas och positiv reglering av kolesterollagring och blodkoagulering (//www.uniprot.org/uniprot/Q9H4M9). LDLR spelar roller i fosfolipidtransport, metabolism i lipoprotein och reglering av kolesterolhomeostas (//www.uniprot.org/uniprot/P01130). Dessutom har det rapporterats att aktiviteten för EBV-protein LMP2A beror på kolesterol och kolesterolutarmning från plasmamembranblock LMP2A endocytos, LMP2A fosforylering och LMP2A ubikvitering, vilket resulterar i ackumulering av LMP2A på plasmamembranet 40 . Dessa bevis tyder på att EBV-proteiner kan störa kolesterolmetabolismen i värdcellen och kan orsaka kolesterolrelaterade sjukdomar.

( A ) Det förutsagda EBV-humana PPI-subnätverketGO: 0042632 (biologiska processer: kolesterolhomeostas); ( B ) Det förutsagda EBV-humana PPI-subnätverketGO: 0007596 (biologiska processer: blodkoagulering). Den röda diamanten betecknar EBV-proteinerna och de gröna cirkelns mänskliga proteiner.

Bild i full storlek

PPI-subnätverk GO: 0007596 - blodkoagulation

Det förutsagda PPI-subnätverket GO: 0007596 extraherat från den kompletterande filen illustreras i fig 6 (B). Alla humana proteiner i fig 6 (B) är involverade i de biologiska processerna för blodkoagulering. De flesta av de 32 EBV-proteinerna förutspås rikta sig mot mer än 20 humana proteiner, särskilt EBNA-LP (224 förutsagda mänskliga partners), EBNA3 (229 förutsagda mänskliga partners), BMLF1 (237 förutsagda mänskliga partners), EBNA1 (199 förutsagda mänskliga partners) och BGLF4 (206 förutspådde mänskliga partners). Bland de mänskliga partnerna förutsägs PLSCR4 vara målinriktad av alla 32 EBV-proteiner, och proteinerna {SPARC, CALU, LRP8, EGF, STIM1, ACTN2, PROC, THBD} förutspås vara riktade av 28 EBV-proteiner. Enligt UniprotKB (//www.uniprot.org/uniprot/P09486) verkar SPARC reglera celltillväxt genom interaktioner med den extracellulära matrisen och cytokiner och är involverad i de biologiska processerna för blodkoagulation, blodplättaktivering / degranulering, hjärtutveckling, extracellulär matrisorganisation. I ref. 41 har rapporterats att en koagulopati som kännetecknas av ihållande och extrema höjningar i plasma-d-dimer och allvarlig livshotande blödning är associerad med hemofagocytisk lymfohistiocytos som är sekundär till Epstein-Barr-virusassocierad T-cell-lymfoproliferativ störning.

PPI-subnätverk GO: 0005154 - epidermal tillväxtfaktorreceptorbindning

Det förutsagda PPI-undernätverket GO: 0005154 extraherat från den kompletterande filen illustreras i fig 7 (A). Alla humana proteiner i figur 7 (A) uppfyller molekylfunktionerna för epidermal tillväxtfaktorreceptorbindning. Bland de 32 EBV-proteinerna förutsägs EBV-proteinerna {EBNA-LP, BZLF1, EBNA3, BMLF1, EBNA1, BGLF4} att rikta in sig på mer än 10 humana proteiner. Bland de förutsagda mänskliga partnerna förutspås proteinerna {EFEMP1, PLSCR1, EGF} att vara riktade av mer än 26 EBV-proteiner. Enligt UniprotKB (//www.uniprot.org/uniprot/Q12805) binder EFEMP1 EGF-receptorn (EGFR) för att inducera EGFR-autofosforylering och aktivering av signalvägar nedströms. I ref. 42, EBV-proteinLMP1 verifieras experimentellt för att modulera EGFR-promotoraktivitet på ett NFkappaB-beroende sätt.

( A ) Det förutsagda EBV-humana PPI-subnätverketGO: 0005154 (molekylära funktioner: epidermal tillväxtfaktorreceptorbindning); ( B ) Det förutsagda EBV-humana PPI-subnätverketGO: 0002039 (molekylära funktioner: p53-bindning). Den röda noden betecknar EBV-proteiner och den gröna noden betecknar mänskliga proteiner.

Bild i full storlek

PPI-subnätverk GO: 0002039-p53 bindande

Det förutsagda PPI-subnätverket GO: 0002039 extraherat från den kompletterande filen illustreras i fig 7 (B). Alla de förutsagda mänskliga partnerna i fig 7 (B) uppfyller molekylfunktionerna för p53-bindning. EBV-proteinerna {EBNA-LP, EBNA3, BMLF1, EBNA1, BGLF4} förutspås att interagera med mer än tjugo p53-bindande humana proteiner, varvid SETD8 förutsägs vara riktat av 11 EBV-proteiner. SETD8 rapporteras förmedla monometylering av p53 / TP53 vid 'Lys-382' för att undertrycka p53 / TP53-målgener och spelar en negativ roll i TGF-beta-svarreglering och en positiv roll i cellmigrering (//www.uniprot). org / UniProt / Q9NQR1). I ref. 43 har det rapporterats att BZLF1 har många effekter på p53 posttranslationsmodifiering och kan hämma p53 transkriptionell funktion delvis genom en indirekt mekanism som involverar undertryckandet av TBP-uttryck.

EBV riktade mänskliga signalvägar

Patogener kommunicerar med värden via kedjor av interaktioner (kallas signalvägar) för att underverka värdens cellulära maskiner för dess ändamål. I ref. 44 visar vägaranalys att en majoritet av vägar riktade av virala proteiner ofta används som läkemedelsmål. Här kartlägger vi de förutsagda mänskliga generna / proteinerna på signalvägarna som är kuraterade i NetPath 45 för att härleda Epstein-Barr-virusinriktade mänskliga signalvägar. I NetPath finns 37 manuellt kuraterade mänskliga cancer / immunsignaleringsvägar. För enkelhetens skull sammanfogar vi de 11 undertyperna av Interleukin (IL-1 ~ IL-11) till en enda signalväg och får därmed 27 mänskliga signalvägar. Sökvägsanrikningsanalys visar att de 27 signalvägarna alla riktas av Epstein-Barr-viruset (se kompletterande fil). Här tar vi två signalvägar som exempel och intresserade läsare hänvisas till tilläggsfilen för biologiska signaler.

Notch signalväg

Det finns 335 förutsagda interaktioner mellan EBV-proteiner och de kända Notch-signalkomponenterna. Såsom illustreras i fig. 8 förutses signaleringskomponenterna {NOTCH2, NOTCH3, NOTCH4, DLL1, JAG2} att vara målriktade av majoriteten av EBV-proteiner, och under tiden EBV-proteinerna {EBNA-LP, EBNA1, EBNA3, BGLF4, BMLF1, BZLF1} förutspås att rikta in sig på en majoritet av Notch-signalkomponenter. I ref. 46, har det rapporterats att EBV-protein LMP2A orsakar en förhöjd mitokondriell klyvning i mag- och bröstcancerceller och LMP2A-medierad Notch-väg är ansvarig för denna förbättrade klyvning.

Den röda diamanten betecknar EBV-proteiner och den gröna cirkeln betecknar mänskliga proteiner. Den röda pricklinjen anger den förutsagda EBV-mänskliga PPI och den blå pricklinjen anger den kända interaktionen i Notch-signalvägen. För tydlighetens skull illustreras bara de Epstein-Barr-virusinriktade signalkomponenterna för Notch-signalvägen.

Bild i full storlek

Hedgehog-signalväg

Det finns 175 förutsagda interaktioner mellan EBV-proteiner och de kända Hedgehog-signalkomponenterna. Som illustreras i fig. 9 förutsäges signalkomponenten {DHH} att vara riktad av 29 EBV-proteiner. Enligt UniprotKB (//www.uniprot.org/uniprot/O43323) fungerar DHH som intercellulär signal väsentlig för en mängd mönsterhändelser under utveckling, t.ex. manlig könbestämning, spermatidutveckling, Leydig celldifferentiering etc. och kan fungera som en spermatocytöverlevnadsfaktor i testiklarna. Bland EBV-proteinerna förutspås {EBNA-LP, EBNA1, EBNA3, BGLF4, BMLF1, BZLF1} att rikta in sig på en majoritet av Hedgehog-signalkomponenter. I ref. 47, har det rapporterats att Epstein-Barr-viruset spelar roller i dysregulerad Hedgehog-signalväg i NPC (nasopharyngeal carcinoma) onkogenes.

Den röda diamanten betecknar EBV-proteiner och den gröna cirkeln betecknar mänskliga proteiner. Den röda pricklinjen anger den förutsagda EBV-mänskliga PPI och den blå pricklinjen anger den kända interaktionen i Hedgehog-signalvägen. För tydlighetens skull illustreras endast Epstein-Barr-virusinriktade signalkomponenter i Hedgehog-signalvägen.

Bild i full storlek

Kompletterande information

PDF-filer

  1. 1.

    Kompletterande information

kommentarer

Genom att skicka en kommentar samtycker du till att följa våra villkor och gemenskapens riktlinjer. Om du finner något missbruk eller som inte överensstämmer med våra villkor eller riktlinjer ska du markera det som olämpligt.