Con il progetto BiTdata Inail biotecnologie e bioinformatica alleate per la prevenzione

0
71

 Raccogliere e analizzare le informazioni disponibili nelle diverse banche dati bioinformatiche per individuare set di dati molecolari rilevanti ai fini della prevenzione e renderli più facilmente fruibili da parte della comunità scientifica. È questo l’obiettivo del progetto BiTdata, ideato da un team di ricercatori del Dipartimento innovazioni tecnologiche e sicurezza degli impianti, prodotti e insediamenti antropici (Dit) dell’Inail, che si avvale anche delle competenze trasversali della Direzione centrale organizzazione digitale (Dcod) dell’Istituto, del dipartimento di Biotecnologie cellulari ed Ematologia di Sapienza Università di Roma e del Consorzio interuniversitario per il calcolo automatico (Cineca).

Raccolti i dati relativi a sostanze e patologie riportate nell’elenco delle malattie professionali. “È un lavoro in sinergia – spiega Elena Sturchio, ricercatrice Inail e responsabile scientifico del progetto – a cui ognuno, tra biologi, biotecnologi, biologi molecolari, bioinformatici, esperti di valutazione del rischio, ingegneri informatici ed esperti di intelligenza artificiale, contribuisce con la propria specifica competenza”. Il risultato è la banca dati ospitata sul portale dell’Istituto, che raccoglie i dati relativi a ogni sostanza e patologia riportata nel nuovo elenco delle malattie professionali soggette all’obbligo di denuncia/segnalazione da parte dei medici. “L’abbiamo chiamata BiTdata, in assonanza con big data – precisa Sturchio – perché si tratta di dati molecolari biotecnologici, che fungono quasi da ‘biglietto tecnologico’ dell’esposizione occupazionale a xenobiotici”, termine che indica tutte le sostanze, sia naturali sia sintetizzate in laboratorio, che sono estranee alla normale nutrizione dell’organismo e al suo metabolismo. La BiTdata è accessibile all’utenza esterna previa registrazione.

Grazie a un form è possibile effettuare ricerche per parole chiave. In questa prima fase del progetto, l’interrogazione dei repository digitali Sequence Read Archive (SRA), Gene Expression Omnibus (GEO), ArrayExpress e NCBI ha portato alla collezione di alcune centinaia di set di dati, che sono stati successivamente utilizzati per la costruzione del database. Per ciascun esperimento, in particolare, è stata elaborata una breve descrizione in inglese, che permette all’utilizzatore di comprendere rapidamente il disegno sperimentale e il tipo di dati. Tramite un apposito form è inoltre possibile richiamare tutti i set di dati che corrispondono alle parole chiave inserite, limitando la ricerca a singoli campi o estendendola a più campi. Dai risultati ottenuti si può facilmente accedere, tramite collegamenti ipertestuali, alle pagine di accesso ai dati pubblici, dove è possibile effettuare il download dei dati originali.

“Previsto il ricorso all’intelligenza artificiale per la catalogazione delle fonti”. “Lo sviluppo del progetto – aggiunge Sturchio – potrebbe portare all’identificazione di nuovi potenziali biomarcatori e quindi a strumenti di screening precoce, utili nel monitoraggio di individui esposti a fattori di rischio significativi”. L’attività di raccolta dei dati, inoltre, deve essere rinnovata con cadenza regolare, in modo da mantenere costantemente aggiornato il database. “A tale scopo – spiega la ricercatrice – grazie alla collaborazione della Dcod, tra le evoluzioni del progetto è prevista l’applicazione di tecnologie di intelligenza artificiale a supporto delle attività di studio e catalogazione delle fonti, utile ad automatizzare le attività di ricerca e l’aggiornamento del database. I risultati ipotizzati dall’impiego di queste tecnologie comprendono la riduzione delle attività manuali da parte dei ricercatori, la riduzione degli errori e la velocizzazione delle ricerche nei repository digitali”.

Stanziate 50mila ore di calcolo sul supercomputer Galileo. Nel frattempo i ricercatori del Dit hanno partecipato con un nuovo progetto bioinformatico, a una call di Elixir, infrastruttura di ricerca europea per i dati biologici, presente in 23 Paesi europei che ha tra i suoi obiettivi l’erogazione di risorse di calcolo ad alte prestazioni, per portare la ricerca bioinformatica a un livello sempre più avanzato e integrato. Per il progetto presentato dall’Inail dal titolo: “Transcriptomes profiling after xenobiotics exposure to identify early biomarkers for differential diagnosis in lung and mesothelial cancer”, che si trova nella prima fase di attività, sono state stanziate 50mila ore di calcolo da utilizzare sull’infrastruttura di Galileo, il supercomputer dedicato al calcolo scientifico e ingegneristico ospitato presso il Cineca.