COVID 19 - Uno studio del Politecnico di Milano per capire i segreti delle sequenze virali

Politecnico di Milano 23 Nov 2020

Medicina

Il motore di ricerca ViruSurf svela come cambia il genoma del virus responsabile della pandemia

Dall’inizio del 2020, i laboratori di tutto il mondo sequenziano materiale genetico che deriva dai tamponi positivi di persone affette da COVID-19 e depositano poi le sequenze virali in tre principali banche dati: GenBank, COG-UK e GISAID. Per muoversi
agilmente in questa enorme mole di dati e “surfare” alla ricerca di connessioni utili alla comprensione del virus, il gruppo di ricerca del Politecnico di Milano guidato dal Prof. Stefano Ceri ha realizzato
ViruSurf (http://gmql.eu/virusurf), un motore di ricerca che si avvale di un database centralizzato collocato al Politecnico. Il database viene aggiornato periodicamente e ad oggi contiene 200,516 sequenze di SARSCoV-2, il virus responsabile della pandemia, e 33,256 sequenze di altre specie, anch’esse associate ad epidemie di interesse per l’uomo, tra cui SARS, MERS, Ebola e Dengue.
Ogni sequenza è descritta secondo quattro prospettive: le caratteristiche del virus e dell’organismo ospite, la tecnologia utilizzata, il progetto di sequenziamento, le mutazioni dei nucleotidi e degli amino acidi che si trovano in diversi geni. Il vantaggio di ViruSurf è di includere un algoritmo che calcola le mutazioni virali in maniera omogenea, ovvero indipendente dalla loro provenienza, gestito su cloud per ridurre i tempi di esecuzione. Il database è ottimizzato per offrire risposte istantanee agli utilizzatori del motore di ricerca.

Schema del database integrato: le sequenze del virus vengono descritte in base alle loro caratteristiche biologiche (specie virale e ospite), al progetto che le ha prodotte, alla tecnologia di sequenziamento e alle proprietà del genoma (annotazioni, mutazioni della sequenza dei nucleotidi e degli amino acidi).

Tra i diversi sviluppi futuri di ViruSurf, il più importante, finanziato da EIT Digital con un progetto semestrale, è un servizio informatico per elaborare nuove sequenze virali identificando in esse particolari mutazioni associate a maggiore o minore severità e virulenza. Utilizzato in campo medico, in fasi meno acute della pandemia, permetterà di arricchire la “cartella clinica” del paziente con la sequenza del virus che lo ha infettato. Sarà inoltre possibile utilizzare ViruSurf per il monitoraggio dei virus nella gestione di allevamenti e coltivazioni. Il sistema consentirà a breve di tracciare gli epitopi – sequenze di amino acidi del virus che sono critiche per lo sviluppo di vaccini – ad esempio per trovare, per ogni epitopo, le mutazioni della sua sequenza diffuse in alcune regioni del pianeta, che potrebbero pregiudicare l’efficacia del vaccino.“Nel progetto GeCo, finanziato da European Research Council, avevamo già sviluppato un motore di ricerca per il genoma umano, chiamato GenoSurf; ad inizio pandemia non esisteva un analogo sistema per le sequenze virali. Per comprenderne i requisiti, abbiamo intervistato venti esperti virologi da tutto il mondo. Il risultato è un sistema di semplice utilizzo: chiunque può collegarsi e capire, ad esempio, quando una mutazione virale è apparsa per la prima volta e come si è diffusa nel mondo”—racconta Stefano Ceri, leader del progetto. L’articolo è pubblicato su una rivista di grande rilievo, Nucleic Acids Research (https://doi.org/10.1093/nar/gkaa846), che raccoglie annualmente i database più importanti per la biologia. Hanno contribuito all’articolo anche Pietro Pinoli, progettista degli algoritmi, Arif Canakoglu, software architect, Anna Bernasconi, data designer, Tommaso Alfonsi, responsabile della acquisizione dei dati, e Damianos P. Melidis di L3S (Hannover), autore di alcuni algoritmi.

Link alla video-presentazione di Anna Bernasconi al Congresso ER2020 (6 Novembre 2020) https://youtu.be/HjnEOQnUnEg

Dal genoma del virus SARS-CoV-2 (a) si estrae la sua sequenza di nucleotidi e amino acidi (b); le sequenze, depositate nelle banche dati mondiali: GENBANK, GISAID, COG-UK (c), sono importate nel database centralizzato del Politecnico, su cui opera Il motore di ricerca ViruSurf (d). Schema del database integrato: le sequenze del virus vengono descritte in base alle loro caratteristiche biologiche (specie virale e ospite), al progetto che le ha prodotte, alla tecnologia di sequenziamento e alle proprietà del genoma (annotazioni, mutazioni della sequenza dei nucleotidi e degli amino acidi).

Vota questo articolo

(0 Voti)

dimensione font riduci dimensione font aumenta la dimensione del font