L’ AI Generativa sta aprendo nuove opportunità nella ricerca clinica, in particolare per le malattie rare, dove l’accesso ai dati reali è limitato.
I dati sintetici, infatti, generabili su richiesta e in quantità enormi, offrono numerosi vantaggi, come la creazione illimitata di set di dati, la protezione della privacy e la riduzione dei bias nei modelli.
Indice degli argomenti
AI Generativa, dati sintetici e trial clinici
Tecnologie come le Generative Adversarial Networks (GANs) e i modelli basati su Transformers sono fondamentali per la generazione di dati che replicano quelli reali senza compromettere la privacy o introdurre distorsioni.
Inoltre, i trial clinici nelle malattie rare incontrano notevoli difficoltà, come il numero ridotto di pazienti disponibili per la partecipazione, tempi di arruolamento lunghi, dati incompleti e necessità di gruppi di controllo.
In questo contesto, l’AI Generativa offre soluzioni innovative creando “pazienti sintetici” dai dati reali che possono essere utilizzati come gruppi di controllo. Ciò riduce il numero di partecipanti necessari, accelera il reclutamento e riduce i costi, migliorando la comparabilità dei risultati rispetto ai tradizionali controlli storici.
La collaborazione tra Train e NTT DATA
Di recente, a Milano, si è svolto l’evento di presentazione del report “Generative AI and synthetic data for clinical application”, realizzato in collaborazione tra NTT DATA e Train, con il progetto di Humanitas per lo sviluppo dell’AI generativa.
L’incontro ha visto la partecipazione di esperti tra cui: Emanuele Corbetta, Head of Life Sciences di NTT DATA Italia; Saverio D’Amico, CEO e Co-Founder di Train; Matteo Della Porta, CSO e Co-Founder di Train e Head of Leukemia Unit di Humanitas.
Nel corso dell’evento, è stato approfondito il ruolo dell’AI Generativa nel settore farmaceutico e sanitario, evidenziando come l’uso dei dati sintetici possa accelerare i progressi nella ricerca e migliorare le applicazioni cliniche.
L’incontro ha offerto un’importante occasione di dialogo e condivisione di conoscenze sull’innovazione che Train e NTT DATA stanno portando avanti nel campo dell’AI generativa, con un focus particolare sulle sue applicazioni nel trattamento delle malattie rare e altre aree critiche e sfide attuali della Medicina.
Train e NTT DATA, infatti, stanno facendo passi importanti verso il superamento di queste sfide, integrando l’AI Generativa per creare set di dati sintetici di alta qualità che consentono l’addestramento e la validazione di strumenti clinici avanzati basati sull’AI.
Questo approccio, sviluppato in collaborazione tra le due aziende, mira ad accelerare la ricerca e contribuire a migliorare i risultati per i pazienti, aprendo la strada a trattamenti più personalizzati, precisi e mirati.
Dati sintetici: validazione clinica e studi di caso reali
Nonostante i dati sintetici offrano numerosi vantaggi, la loro adozione definitiva nella ricerca clinica richiede una solida validazione clinica.
L’uso di dati che non corrispondono a pazienti reali rappresenta un cambiamento significativo e implica la necessità di risultati robusti per dimostrare che l’impiego di dati sintetici non comprometta gli esiti clinici.
La validazione dei dati sintetici è una delle sfide principali, specialmente quando si considerano le caratteristiche complesse delle malattie rare. Collaborare con esperti del settore medico è essenziale per garantire che i dati sintetici non solo siano realistici, ma anche rappresentativi delle condizioni cliniche reali.
In questo contesto, Train ha sviluppato un framework di validazione sintetica (SVF) per assicurarsi che i dati generati siano validi e utili in ambito clinico. Questo framework include metriche rigorose per misurare la qualità dei dati sintetici, la protezione della privacy e la loro utilità clinica.
Il framework si concentra sulla validazione della qualità statistica e clinica dei dati sintetici, assicurando che possano replicare con precisione le distribuzioni statistiche e le correlazioni presenti nei dati reali. Inoltre, SVF garantisce che i dati sintetici possano supportare le decisioni cliniche e la ricerca in modo altrettanto valido, pur mantenendo la privacy dei pazienti.
Real Case Study 1: uso dei dati sintetici come gruppo di controllo nello studio clinico di Luspatercept
In un caso studio reale, Train ha esplorato l’uso dei dati sintetici come gruppo di controllo nello studio clinico di Luspatercept per il trattamento dei pazienti con Sindromi Mielodisplastiche (MDS). A partire da 187 pazienti trattati con Luspatercept, è stata generata una coorte sintetica della stessa dimensione.

I risultati hanno dimostrato che la coorte sintetica replicava con precisione gli endpoint clinici dello studio originale, riducendo significativamente la necessità di un gruppo di controllo tradizionale. Questo studio evidenzia come l’uso dei dati sintetici possa accelerare lo sviluppo terapeutico, garantendo al contempo la privacy e la sicurezza dei pazienti.
Real Case Study 2: sistema di supporto decisionale clinico per il trapianto di cellule staminali ematopoietiche nei pazienti con MDS
Un altro esempio pratico dell’uso dell’AI generativa è l’adozione di un sistema di supporto decisionale clinico e genomico per ottimizzare il momento del trapianto di cellule staminali ematopoietiche nei pazienti con MDS.
Analizzando ampi volumi di dati clinici e genomici, l’AI generativa ha migliorato la precisione delle decisioni terapeutiche, personalizzando il trattamento per ogni paziente. Questo approccio ha migliorato l’efficacia del trattamento e ha anche ottimizzato il processo decisionale, utilizzando dati complessi per ottenere risultati clinici più precisi.

Il trapianto di cellule staminali ematopoietiche allogeniche (HSCT) rappresenta l’unico trattamento potenzialmente curativo per le MDS, ma comporta rischi significativi di morbilità e mortalità. Per questo motivo, è fondamentale una selezione accurata dei pazienti e una tempistica ottimale per l’intervento. Poiché non sono disponibili studi randomizzati, l’uso di dati osservazionali diventa cruciale per ottimizzare il timing del trapianto.
Lo studio ha sviluppato e validato un modello di gemello digitale come sistema di supporto decisionale, al fine di definire il momento ideale per l’HSCT, basandosi su informazioni cliniche e genomiche, in particolare tramite l’uso del Molecular International Prognostic Scoring System (IPSS-M). Il modello è stato applicato a una popolazione retrospettiva di 7.118 pazienti, suddivisi in coorti di addestramento e validazione, per stimare la sopravvivenza media e determinare la strategia di trapianto ottimale.
Dunque, in entrambi gli studi relativi ai casi studio analizzati, l’AI Generativa ha giocato un ruolo cruciale nella creazione e gestione di dati sintetici che replicano fedelmente i risultati clinici, migliorando l’efficienza dei trial e ottimizzando il processo decisionale terapeutico.
Nel primo studio, l’AI ha ridotto la necessità di un gruppo di controllo tradizionale, mentre nel secondo ha personalizzato e migliorato le decisioni cliniche, utilizzando dati clinici e genomici per determinare il trattamento migliore per ogni paziente.
AI Generativa e dati nel Pharma: stato dell’arte e sfide
Le aziende farmaceutiche possiedono dataset di grande valore attraverso cui possono migliorare significativamente l’efficacia della ricerca clinica con l’ausilio dell’AI.
Tuttavia, l’integrazione dei dati provenienti dai fornitori di assistenza sanitaria nei processi AI comporta diverse sfide, principalmente dovute alla varietà dei formati di dati e alla necessità di standardizzarli per una migliore interoperabilità.
Le aziende farmaceutiche, infatti, utilizzano spesso piattaforme di dati legacy. Queste, modellate per adattarsi a un contesto storico e in continua evoluzione, presentano alcune caratteristiche comuni:
- Sistemi monolitici: sebbene siano robusti e solidi, tali sistemi presentano difficoltà nell’adattarsi ai paradigmi moderni;
- Soluzioni personalizzate: molte aziende utilizzano soluzioni su misura che rispondono a esigenze specifiche, ma la loro rigidità può ostacolare l’agilità necessaria per affrontare le sfide attuali;
- Piattaforme specifiche per fornitore: le piattaforme create in collaborazione con fornitori specializzati sono spesso difficili da integrare con applicazioni esterne.
Nonostante questi ostacoli, le piattaforme legacy rimangono fondamentali per le aziende farmaceutiche: ogni eventuale cambiamento architetturale, infatti, deve avvenire con cautela per mantenere la conformità e garantire stabilità e affidabilità. Migrare da questi sistemi può comportare rischi significativi, come la perdita di dati o l’interruzione delle operazioni
Integrando soluzioni di AI Generativa, le aziende farmaceutiche affrontano sfide importanti nel raccogliere e armonizzare i dati provenienti da vari silos. Tra queste:
- Dati isolati in silos: database clinici, registri di ricerca e di produzione sono separati e l’estrazione di dati significativi da questi silos richiede competenza e precisione;
- Diversi formati di dati: CSV, XML, HL7 sono solo alcuni dei formati di dati utilizzati e la necessità di armonizzarli in un formato coerente per i modelli AI è una sfida complessa;
- Garbage in, garbage out: la qualità dei dati estratti è cruciale. Dati di bassa qualità comprometterebbero l’efficacia del modello generativo e la fiducia nei suoi risultati.
Nonostante queste difficoltà, l’integrazione efficace dell’AI Generativa consente alle aziende di sfruttare appieno il valore dei dati esistenti, generando nuovi insights che possono rendere più veloce lo sviluppo di farmaci e delle relative terapie. Combinando innovazione tecnologica e operazioni di qualità – come emerso dall’evento di presentazione del succitato report – la collaborazione tra Train e NTT DATA su queste tematiche consente alle aziende del settore sanitario e farmaceutico di migliorare i risultati dei pazienti, accelerare la scoperta di nuovi farmaci e ottimizzare i processi clinici.