ARCHITETTURA GENERALE DEL PROGETTO “HEALTH BIG DATA”

Il progetto Health Big Data (HBD), finanziato dal MEF e coordinato dal Ministero della Salute, coinvolge 51 Istituti di Ricovero e Cura a Carattere Scientifico (IRCCS) afferenti a quattro Reti: la Rete Cardiologica, Alleanza contro il cancro, la Rete Neuroscienze e Riabilitazione, la Rete Pediatrica IDEA. Il progetto è gestito dalle Reti in collaborazione con il Politecnico di Milano, la Fondazione Politecnico di Milano e l’Istituto nazionale di Fisica Nucleare. Dello Steering Committee del progetto fanno parte tra gli altri i Presidenti delle quattro Reti.

Obiettivo di HBD

L’obiettivo del progetto, che ha un’estensione temporale di dieci anni (il 2022 è il terzo), è quello di definire e creare una piattaforma tecnologica per la gestione, raccolta, condivisione e analisi di dati clinici e scientifici. In linea con questo obiettivo, il progetto prevede la creazione o il potenziamento di:

  • una serie di piattaforme IT locali, presso ciascuno degli IRCCS partecipanti, che garantiscano estrazione, integrazione e interoperabilità di dati clinici e scientifici;
  • una piattaforma IT centralizzata, che garantisca connettività tra gli IRCCS e analisi avanzate dei dati condivisi.

La piattaforma dovrà garantire connettività tra gli IRCCS partecipanti al progetto, con altri Istituti di Ricerca italiani e non, con i database del Servizio Sanitario Nazionale e con database pubblici internazionali, con l’obiettivo di sviluppare capacità di analisi di tipo predittivo e prescrittivo basate sull’integrazione di dati omici e clinici e sullo studio di sottogruppi di pazienti aggregati per vari parametri biologici e clinici, con possibilità di accesso e condivisione da parte di singoli operatori di ciascun IRCCS.

Quale tipologia di dati

La tipologia di dati che verranno raccolti e condivisi è eterogenea e comprende:

  1. dati omici: genomica, trascrittomica, proteomica, metabolomica;
  2. dati clinici: cartella medica elettronica e dati di follow-up dei pazienti;
  3. dati di imaging clinica e radiomica;
  4. dati individuali forniti dal paziente;
  5. nel medio termine, verranno anche inclusi dati provenienti da biosensori, dati ambientali, sociali ed economici.

Com’è organizzato il progetto

Le Reti partecipanti hanno definito quattro progetti già in corso dai quali far convergere i dati sulla piattaforma del progetto HBD: per la Rete Cardiologica il progetto selezionato è lo Studio VaVirimS (Caratterizzazione dei pazienti con disfunzione ventricolare sinistra cronica post-infartuale), coordinatore il Prof. Paolo Camici dell’IRCCS San Raffaele.

Per riuscire a gestire la grande complessità di questo progetto in modo da ricavarne anche risultati concreti, Health Big Data è articolato in gruppi di lavoro tematici, con una logica iterativa, rispetto a una serie di risultati intermedi del progetto.

I Working Group del progetto “Health Big Data”.

Un WG lavora sull’analisi del dato (in arancione nello schema), altri due (in verde) sono finalizzati alla costruzione della piattaforma di archiviazione e gestione dati, che è innestata sull’infrastruttura dell’Istituto nazionale di Fisica Nucleare (INFN) con una logica di piattaforma federata, che offre la possibilità di far collaborare i singoli istituti con il nodo centrale presso l’Istituto stesso. Vi sono quindi tre WG (in azzurro) dedicati alle diverse tipologie di dati, dalla cartella clinica elettronica, all’elaborazione del linguaggio naturale per estrarre il dato strutturato, per esempio, dalle lettere di dimissioni testuali legate ai singoli ricoveri, ai dati omici, di imaging e di sensoristica. Infine, un WG “trasversale” si occupa delle complesse e delicate tematiche della privacy, sicurezza ed etica.

L’analisi è partita dalla Rete Cardiologica perché questa possiede già un minimum dataset (MDS) condiviso di dati raccolti per i singoli progetti di ricerca della Rete, dispone di un Clinical Trial Management System (CTMS), una piattaforma unica per la gestione dei trial basata su REDCap (Research Electronic Data Capture), un progetto di ricerca già avviato (lo Studio VaVirimS), ha iniziative in corso, anche a livello internazionale, in linea con il progetto HBD  (per esempio, lo European Health Data and Evidence Network, EHDEN).

Il minimum dataset della Rete Cardiologica

La Rete Cardiologica ha definito un minimum data set di 167 variabili, che contiene i dati di ricerca comuni a tutti gli studi insieme ad alcuni dati raccolti specificamente per lo Studio vaVirimS (per esempio, i criteri di inclusione).

Il progetto ha quindi analizzato il minimum dataset della Rete sulla base degli standard FHIR (Fast Health Interoperability Resource) e OMOP (Observational Medical Outcomes Partnership) al fine di individuare un formato e una rappresentazione comune dei dati raccolti dal sistema di gestione del trial clinico della Rete Cardiologica e dei dati clinici presenti nella cartella elettronica ambulatoriale.

Da quest’analisi è emersa la necessità di procedere a una serie di allineamenti, allo scopo di riuscire a rendere interoperabili e condivisibili i dati stessi. Perché il primo requisito perché i Big Data siano utilizzabili è che parlino la stessa lingua.

Primo: imparare a parlare la stessa lingua

Verso la fine di novembre 2022 sarà conclusa la mappatura e l’analisi delle variabili del MDS, dalla quale sono già emerse alcune criticità, in particolare legate alle unità di misura utilizzate, a dimostrazione di quanto sia difficile e ambizioso il progetto.

Corrispondenza delle variabili del minimum dataset della Rete Cardiologica con gli standard FHIR e OMOP. Il 18% delle variabili prese in considerazione è risultato perfettamente allineato agli standard di interoperabilità, il 16% è allineato a livello concettuale, ma dev’essere parzialmente allineato a livello strutturale, e il 15% richiede una revisione significativa.

Il 51% delle variabili (per esempio i dati relativi al ritmo cardiaco) dev’essere profondamente rivisto a livello concettuale e strutturale.

Il 18% delle variabili prese in considerazione (per esempio i valori di troponina) è risultato perfettamente allineato agli standard di interoperabilità, mentre il 16% delle variabili (per esempio la misura dell’emoglobina) è allineato a livello concettuale, ma dev’essere parzialmente allineato a livello strutturale. Ancora, il 15% delle variabili CTMS (per esempio i dati relativi alla storia familiare) richiede una revisione significativa a livello strutturale. E infine, il 51% delle variabili (per esempio i dati relativi al ritmo cardiaco) dev’essere profondamente rivisto a livello sia concettuale sia strutturale.

La ragione di questi disallineamenti è abbastanza intuitiva: si tratta di dati che sono stati raccolti per uno specifico trial e dunque non pensati nella logica di un dataset da condividere.

I prossimi passi

Quali saranno i prossimi passi? I Working Group procederanno alla revisione della ricodifica del minimum dataset della Rete Cardiologica seguendo gli standard internazionali e sarà avviato un tavolo di lavoro per l’individuazione delle variabili del minimum dataset che dovranno essere considerate obbligatorie.

Un percorso quindi ancora lungo. Ma che potrebbe portare a una vera rivoluzione nella ricerca scientifica e nella sanità.