I dati sintetici in Sanità rappresentano una soluzione innovativa alle sfide di privacy e frammentazione nel settore sanitario. Il quadro normativo, sia pure ancora in evoluzione, ne riconosce il loro potenziale.
Rispetto ai dati osservati, i dati sintetici offrono vantaggi in termini di privacy e volume, ma presentano sfide legate a validazione, privacy, qualità dei dati ed equità.
Le metodologie di generazione dei dati sintetici in Sanità spaziano da approcci guidati da processi a tecniche di AI avanzate. Le applicazioni includono lo sviluppo di farmaci e dispositivi medici, con risultati promettenti, ad esempio, in oncologia ed ematologia.
Per integrare efficacemente i dati sintetici nella ricerca sanitaria e nello sviluppo di terapie innovative, tuttavia, occorrono standard chiari, formazione specializzata e collaborazione interdisciplinare.
Indice degli argomenti
Definizione e importanza dei dati sintetici in Sanità
Secondo la definizione fornita dalla FDA, i dati sintetici sono “dati creati artificialmente (ad esempio, attraverso modellazione statistica o simulazione al computer) in modo da generare nuovi valori e/o elementi di dati“.
Lo scopo è replicare la struttura, le proprietà e le relazioni osservate nei dati reali dei pazienti, senza però contenere informazioni specifiche su individui reali.
Questa definizione evidenzia la natura artificiale, ma statisticamente rappresentativa, dei dati sintetici, distinguendoli nettamente dai dati osservati ottenuti attraverso misurazioni dirette o raccolte da eventi del mondo reale.
L’importanza dei dati sintetici in Sanità è cresciuta esponenzialmente negli ultimi anni, come dimostrato dallo European Health Data Space (EHDS). L’EHDS, infatti, mira a stabilire un mercato unificato dei dati, sfruttando i dati sanitari per l’erogazione dell’assistenza, la ricerca e lo sviluppo di politiche.
In questo contesto, i dati sintetici in Sanità diventano un elemento chiave, potenzialmente in grado di facilitare il progresso medico-scientifico senza compromettere la privacy dei pazienti.
Tuttavia, l’assenza di una definizione universalmente riconosciuta di dati sintetici complica gli sforzi normativi, rendendo cruciale stabilire una terminologia chiara e univoca nel panorama, in rapida evoluzione, dell’uso e della privacy dei dati.
Il quadro normativo e regolatorio
Il quadro normativo e regolatorio per l’uso dei dati sintetici in Sanità è un’area di crescente interesse e complessità.
A livello europeo, il Data Governance Act (DGA) è il primo testo legale a fare esplicito riferimento ai dati sintetici, descrivendoli come un “metodo di preservazione della privacy che potrebbe contribuire a un trattamento dei dati più rispettoso della privacy“.
Parallelamente, l’Agenzia Europea per i Medicinali (EMA) ha pubblicato una bozza di documento di riflessione sull’uso dell’intelligenza artificiale nel ciclo di vita dei prodotti medicinali, inquadrando i dati sintetici come strumento per “implementare tecniche di privacy differenziale” e per “aumentare le prestazioni dei modelli“.
Negli Stati Uniti, la FDA ha mostrato un grande interesse nell’integrazione di metodologie innovative basate sui dati sintetici generati dall’AI nel processo decisionale regolatorio per i prodotti medici. Tuttavia, nessun farmaco o dispositivo medico è stato finora registrato utilizzando esclusivamente o prevalentemente dati sintetici come braccio di confronto.
Ciò suggerisce che, mentre il potenziale dei dati sintetici in Sanità sia ampiamente riconosciuto, la loro piena integrazione nel processo regolatorio richiede ulteriori sviluppi e validazioni.
Differenze tra dati osservati e dati sintetici
Le differenze tra dati osservati e dati sintetici in Sanità sono sostanziali e meritano un’analisi approfondita.
I dati osservati, ottenuti attraverso misurazioni dirette o raccolte da eventi del mondo reale, rappresentano la base tradizionale per la ricerca clinica e lo sviluppo di farmaci. Questi dati includono sia quelli provenienti da studi clinici randomizzati (RCT) che i dati del mondo reale (RWD).
I RWD, in particolare, sono definiti dalla FDA come “dati relativi allo stato di salute del paziente e/o all’erogazione dell’assistenza sanitaria raccolti di routine da varie fonti”, come cartelle cliniche elettroniche, registri di malattie e dati amministrativi.
I dati osservati offrono il vantaggio di riflettere direttamente le esperienze dei pazienti e le condizioni cliniche reali, fornendo una base solida per l’analisi e la presa di decisioni. Tuttavia, presentano anche limitazioni significative, tra cui problemi di privacy, difficoltà di accesso e potenziali bias nella raccolta.
D’altra parte, i dati sintetici, generati artificialmente attraverso modelli statistici o simulazioni computerizzate, offrono vantaggi unici. Essi, infatti, possono preservare le distribuzioni statistiche a livello di popolazione dei dati originali senza essere direttamente collegati a individui specifici. Questo aspetto è particolarmente rilevante per la protezione della privacy dei pazienti.
Inoltre, i dati sintetici possono essere generati in grandi quantità, superando le limitazioni di dimensione del campione che spesso affliggono gli studi clinici tradizionali.
Tuttavia, i dati sintetici presentano anche sfide significative. La qualità dei dati sintetici, infatti, dipende fortemente dalla qualità e rappresentatività dei dati osservati utilizzati per addestrarli. Esiste quindi il rischio che i modelli di generazione possano perpetuare o amplificare bias presenti nei dati originali.
Inoltre, la validazione dei dati sintetici in Sanità è ancora una sfida cruciale: garantire che le conclusioni tratte da analisi su dati sintetici siano coerenti con quelle derivate da dati reali è fondamentale per la loro accettazione nel contesto regolatorio e clinico.
Le metodologie per la generazione dei dati sintetici
Le metodologie per la generazione di dati sintetici in Sanità si dividono principalmente in due categorie:
- approcci guidati da processi;
- approcci guidati dai dati.
Gli approcci guidati da processi si basano su modelli computazionali o meccanicistici che simulano processi biologici o clinici. Questi modelli utilizzano equazioni matematiche note, come le equazioni differenziali ordinarie (ODE), e includono modelli farmacocinetici (PK), farmacodinamici (PD) e simulazioni basate su agenti. Questi approcci sono ben consolidati e accettati dalle autorità regolatorie da decenni, come dimostrato dalle linee guida dell’EMA sulla modellazione e simulazione farmacocinetica basata sulla fisiologia (PBPK) pubblicate nel 2018.
D’altra parte, gli approcci guidati dai dati si affidano a tecniche di modellazione statistica e machine learning più recenti. Questi includono ensemble sequenziali di alberi decisionali, Variational Autoencoders (VAE) e Generative Adversarial Networks (GAN).
Questi modelli vengono addestrati su dati reali osservati e creano dataset sintetici che preservano le distribuzioni statistiche a livello di popolazione.
Esempi di applicazioni dei dati sintetici in Sanità e nel Pharma
Un esempio significativo dell’uso di dati sintetici è il processo di generazione di questi ultimi, attraverso l’intelligenza artificiale, per accelerare la ricerca e la medicina di precisione. Questo approccio, infatti, ha già permesso in alcuni casi di superare le limitazioni legate alla disponibilità di dati reali, particolarmente critiche in ambiti specialistici come l’ematologia oncologica.
Nel campo dello sviluppo dei farmaci, i dati sintetici stanno trovando applicazione nella creazione di bracci di controllo esterni (ECA) per studi clinici.
Un’applicazione particolarmente promettente dei dati sintetici, inoltre, è rappresentata dalla creazione di digital twin per prevedere gli outcome futuri dei pazienti.
Validazione dei dati sintetici per la ricerca clinica
La validazione dei dati sintetici rappresenta un aspetto cruciale per la loro adozione nella ricerca clinica e nello sviluppo di farmaci. È stato infatti dimostrato che, per ottenere risultati affidabili, è necessario generare almeno 10 dataset sintetici delle stesse dimensioni dell’originale e analizzarli utilizzando regole di combinazione di imputazione multipla.
Un aspetto fondamentale della validazione dei dati sintetici risiede nella loro capacità di produrre conclusioni allineate con quelle derivate dai dati osservati originali. Se le analisi condotte su dati sintetici e reali portano a conclusioni fondamentalmente diverse, il dataset sintetico potrebbe mancare di validità per il processo decisionale.
Dunque, persistono ancora sfide significative nella validazione dei dati sintetici in Sanità.
Ad esempio, i modelli di AI utilizzati per generare dati sintetici possono incontrare difficoltà nel rappresentare adeguatamente dati meno frequenti o rari, rendendo essenziale un attento testing dei dati sintetici generati.
Inoltre, esiste il rischio che un modello generativo di AI possa “imparare troppo bene” i dati, memorizzando alcuni dati reali e restituendoli sotto forma di dati sintetici, compromettendo potenzialmente la privacy dei pazienti.
Queste sfide sottolineano l’importanza di sviluppare metodi di validazione robusti e standardizzati che possano garantire l’affidabilità e l’utilità dei dati sintetici in Sanità, in particolar modo nel contesto della ricerca clinica e dello sviluppo di farmaci.
Dati sintetici in Sanità: sfide e considerazioni etiche
L’utilizzo dei dati sintetici in Sanità solleva una serie di sfide e considerazioni etiche che richiedono un’attenta valutazione.
Una delle principali preoccupazioni riguarda la privacy e la protezione dei dati dei pazienti. Sebbene i dati sintetici siano generati artificialmente, esiste il rischio che possano inavvertitamente rivelare informazioni sensibili se non generati o gestiti correttamente.
È fondamentale, quindi, implementare robuste misure di protezione della privacy, come tecniche di privacy differenziale, durante il processo di generazione dei dati sintetici in Sanità.
Un’altra sfida significativa è la qualità e l’affidabilità dei dati. Essa, come visto, dipende fortemente dalla qualità e rappresentatività dei dati osservati utilizzati per addestrarli. Esiste il rischio che i modelli di generazione possano perpetuare o amplificare bias presenti nei dati originali, portando potenzialmente a conclusioni errate o decisioni cliniche inappropriate.
La trasparenza e la tracciabilità sono ulteriori aspetti cruciali. È essenziale sviluppare standard completi di metadati che documentino il processo di generazione dei dati, inclusi gli algoritmi utilizzati, i parametri impostati e le caratteristiche dei dati di input. Ciò supporta la riproducibilità della ricerca e la la fiducia nella validità dei risultati.
Un’ulteriore sfida etica riguarda l’equità e l’inclusività nella generazione e nell’uso dei dati sintetici in Sanità. I modelli di AI utilizzati per generarli, infatti, possono avere difficoltà nel rappresentare adeguatamente gruppi di popolazione sottorappresentati o condizioni rare. Ciò potrebbe portare a disparità nella ricerca e nello sviluppo di trattamenti.
Infine, c’è la questione della responsabilità legale ed etica nell’uso dei dati sintetici per decisioni cliniche. È necessario, al proposito, che il legislatore intervenga per stabilire quadri chiari di governance, definendo esplicitamente le responsabilità di ciascuno degli attori in gioco, i processi, le metodologie di validazione e gli standard di qualità da rispettare.
Raccomandazioni per l’adozione e prospettive future
Le prospettive future per l’adozione dei dati sintetici nel settore sanitario sono promettenti, ma richiedono un approccio cauto e ben strutturato. Sebbene, infatti, i dati sintetici abbiano il potenziale di rivoluzionare lo sviluppo di farmaci e la ricerca clinica, offrendo soluzioni innovative a sfide come la privacy dei dati, la scarsità di dati per malattie rare e la necessità di set di dati diversificati, per realizzare appieno questo potenziale, sono necessarie diverse raccomandazioni chiave.
In primo luogo, è fondamentale sviluppare standard e linee guida specifiche per la generazione, la validazione e l’uso dei dati sintetici in Sanità. Tali standard dovrebbero coprire aspetti come la qualità dei dati, la protezione della privacy, la trasparenza dei metodi di generazione e i criteri per la validazione. Le agenzie regolatorie, come FDA ed EMA, dovrebbero collaborare con esperti del settore per stabilire quadri normativi chiari che guidino l’uso responsabile dei dati sintetici nello sviluppo di farmaci e dispositivi medici.
Un’altra raccomandazione riguarda l’investimento nella formazione e nell’educazione. È necessario, infatti, sviluppare competenze specifiche nella generazione e nell’analisi dei dati sintetici tra i professionisti sanitari, i ricercatori e i regolatori. Ciò include la comprensione delle metodologie di generazione dei dati sintetici, delle loro limitazioni e delle best practice per la loro integrazione nei flussi di lavoro di ricerca esistenti.
La collaborazione interdisciplinare è un altro aspetto chiave per il futuro dei dati sintetici in Sanità. Un approccio che coinvolga esperti di AI, statistici, clinici e specialisti in etica medica può garantire che lo sviluppo e l’applicazione di tali dati siano allineati con le esigenze cliniche, etiche e regolatorie.
Per quanto riguarda la validazione, è cruciale stabilire protocolli standardizzati per valutare la qualità e l’affidabilità dei dati sintetici. Questi protocolli dovrebbero includere metodi per confrontare le distribuzioni statistiche, le correlazioni e le inferenze cliniche tra dati sintetici e reali.
L’uso di model card e data card potrebbe migliorare significativamente la trasparenza e la tracciabilità dei dati sintetici, facilitandone l’adozione in contesti regolatori.
Infine, è essenziale continuare a soffermarsi con insistenza e a ragionare assieme sugli aspetti etici e legali dell’uso dei dati sintetici in Sanità. Questioni come proprietà intellettuale, responsabilità in caso di decisioni cliniche basate su questi dati ed equità nell’accesso ai benefici di questa metodologia devono essere affrontate proattivamente.
Nonostante i dati sintetici offrano un potenziale significativo per trasformare la ricerca sanitaria e lo sviluppo di farmaci, per quanto visto, la loro adozione su larga scala richiederà un approccio equilibrato che bilanci innovazione, rigore scientifico e considerazioni etiche. Con le giuste politiche, investimenti e collaborazioni, i dati sintetici potrebbero diventare uno strumento prezioso nel toolkit della ricerca sanitaria del futuro, accelerando lo sviluppo di nuove terapie e migliorando l’assistenza ai pazienti.
Bibliografia
Giuseppe Pasculli - Marco Virgolin - Puja Myles et. al. - "Synthetic Data in Healthcare and Drug Development: Definitions, Regulatory Frameworks" - CPT: Pharmacometrics & Systems Pharmacology - Marzo 2025
United States Census Bureau - “What Are Synthetic Data?” www.census.gov/about/what/synthetic-data.html
FDA - “FDA Glossary on Digital Health and Artificial Intelligence” (2025)
www.fda.gov/science-research/artificial-intelligenceand-medical-products/fda-digital-health-and-artificial-intelligenceglossary-educational-resource#.