Scoperte oltre 160.000 nuove specie di virus grazie all'intelligenza artificiale
Lo studio “Using artificial intelligence to document the hidden RNA virosphere”, pubblicato su Cell da un team di ricercatori cinesi e australiani guidato da Xin Hou dell’università Sun Yat-sen e da Yong He dell’Apsara Lab dell’Alibaba Cloud Intelligence, ha utilizzato l'intelligenza artificiale (IA) per svelare i dettagli di una branca fondamentale e diversificata della vita che vive prospera sotto i nostri piedi e in ogni angolo del globo.
Secondo i ricercatori, «Sono state scoperte 161.979 nuove specie di virus a RNA utilizzando uno strumento di apprendimento automatico che, migliorerà notevolmente la mappatura della vita sulla Terra e potrebbe aiutare nell'identificazione di molti altri milioni di virus ancora da caratterizzare».
Lo studio è il più grande mai pubblicato sulla scoperta di una specie di virus e l'autore senior, Edwards Holmes della School of Medical Sciences dell'Università di Sydney spiega che «Ci è stata offerta una finestra su una parte altrimenti nascosta della vita sulla Terra, che rivela una straordinaria biodiversità. Si tratta del numero più elevato di nuove specie di virus scoperte in un singolo studio, ampliando enormemente la nostra conoscenza dei virus che vivono tra noi. Trovare così tanti nuovi virus in un colpo solo è incredibile e scalfisce solo la superficie, aprendo un mondo di scoperte. Ce ne sono milioni di altri da scoprire e possiamo applicare questo stesso approccio all'identificazione di batteri e parassiti».
Sebbene i virus RNA siano comunemente associati alle malattie umane, si trovano anche negli ambienti estremi in tutto il mondo e potrebbero persino svolgere ruoli chiave negli ecosistemi globali. In questo studio sono stati trovati viventi nell'atmosfera, nelle sorgenti termali e nelle sorgenti idrotermali. Holmes aggiunge che «l fatto che gli ambienti estremi trasportino così tanti tipi di virus è solo un altro esempio della loro fenomenale diversità e tenacia nel vivere negli ambienti più difficili, fornendoci potenzialmente indizi su come i virus e altre forme di vita elementari siano venuti all'esistenza».
I ricercatori hanno sviluppato “LucaProt” un algoritmo deep learning, per elaborare enormi quantità di dati di sequenze genetiche, tra cui lunghi genomi virali fino a 47.250 nucleotidi e informazioni genomicamente complesse, per scoprire oltre 160.000 virus. Un altro autore dello studio, Zhao-Rong Li, che svolge ricerche all'Apsara Lab di Alibaba Cloud Intelligence, spiega a sua volta che «LucaProt rappresenta un'integrazione significativa di tecnologia AI all'avanguardia e virologia, dimostrando che l'AI può svolgere efficacemente compiti nell'esplorazione biologica. Questa integrazione fornisce preziose intuizioni e incoraggiamenti per un'ulteriore decodifica di sequenze biologiche e la decostruzione di sistemi biologici da una nuova prospettiva. Continueremo anche la nostra ricerca nel campo dell'AI per la virologia».
Holmes ricorda che «La stragrande maggioranza di questi virus era già stata sequenziata ed era presente nei database pubblici, ma erano così divergenti che nessuno sapeva cosa fossero. «Comprendevano quella che spesso viene definita sequenza di “materia oscura”. Il nostro metodo di intelligenza artificiale è stato in grado di organizzare e categorizzare tutte queste informazioni disparate, gettando luce per la prima volta sul significato di questa materia oscura. Lo strumento di intelligenza artificiale è stato addestrato per calcolare la materia oscura e identificare i virus in base alle sequenze e alle strutture secondarie delle proteine che tutti i virus a RNA utilizzano per la replicazione. E’ stato in grado di accelerare notevolmente la scoperta dei virus, cosa che, se si fossero usati i metodi tradizionali, avrebbe richiesto molto tempo».
Il coautore e responsabile istituzionale dello studio, Mang Shi della Sun Yat-sen University, ha evidenziato che «Per la scoperta dei virus eravamo soliti affidarci a noiose pipeline bioinformatiche, il che limitava la diversità che potevamo esplorare. Ora, abbiamo un modello basato sull'intelligenza artificiale molto più efficace che offre sensibilità e specificità eccezionali e, allo stesso tempo, ci consente di approfondire molto di più la diversità virale. Abbiamo in programma di applicare questo modello in varie applicazioni».
Holmes ha cpncluso: «L’ovvio passo successivo è quello di addestrare il nostro metodo per trovare ancora di più di questa straordinaria diversità, e chissà quali altre sorprese ci riserverà».