Data Governance

Dati sintetici: perché sono il futuro dell’AI e della sanità digitale



Indirizzo copiato

Il successo della digital health si giocherà sulla capacità di gestire e utilizzare i dati in modo sicuro, continuo e interoperabile. I dati sintetici rispondono perfettamente a questa esigenza, rendendo privacy e innovazione parti complementari dello stesso processo

Pubblicato il 14 gen 2026

Davide Ruffo

Chief Corporate and Business development Officer – Aindo



dati sintetici sanità digitale

I dati sintetici in ambito Healthcare sono un’opportunità da non perdere. Eppure il rischio c’è. Nonostante i numeri e le stime diano una spinta ad agire speditamente, dimostrando che è il momento di cambiare passo.

Lo scenario globale: il 30% dei dati è generato dalla Sanità

Negli ultimi anni, abbiamo imparato a convivere con un flusso di dati che cresce a una velocità impressionante. Eppure, il ritmo è destinato ad accelerare ancora: si stima (IDC) che la quantità di dati generati a livello globale triplicherà entro il 2028, passando dagli attuali 181 a 394 zettabyte. Un numero quasi impossibile da visualizzare, ma che dà l’idea della scala del fenomeno.

Ancora più significativo è il fatto che circa il 30% di questo immenso volume di dati proviene dal mondo della Sanità. Non parliamo di realtà astratte. Parliamo di dati clinici, referti, immagini diagnostiche, parametri raccolti da dispositivi medici o wearable: un patrimonio conoscitivo sterminato, potenzialmente in grado di rivoluzionare diagnosi, trattamenti e ricerca scientifica.

Dati in Sanità: un tesoro (quasi) inutilizzato

Il paradosso, però, è che questo tesoro rimane quasi del tutto inutilizzato. È stato stimato, infatti, che il 97% dei dati sanitari non venga sfruttato, bloccato com’è da vincoli normativi e da timori legati alla privacy.

Si tratta di una precauzione comprensibile: nessun sistema sanitario può permettersi di mettere a rischio informazioni così sensibili. Ma la conseguenza è che ciò che potrebbe accelerare scoperte e innovazione si trasforma in un blocco che rallenta il progresso.

Dati sintetici: come i dati reali, ma senza problemi di privacy

È in questo contesto che occorre guardare ai dati sintetici con lenti differenti. Abbiamo di fronte informazioni generate artificialmente attraverso algoritmi di machine learning e intelligenza artificiale, capaci di riprodurre fedelmente la struttura statistica di un dataset reale senza includere alcun riferimento riconducibile a persone specifiche.

In sintesi: i dati sintetici mantengono l’utilità del dato vero, eliminandone gli elementi identificativi.

È come avere un gemello digitale dei dati clinici, utile per ricercatori e sviluppatori, ma innocuo dal punto di vista della privacy.

Modelli di AI: tra 5 anni li addestreremo più con i dati sintetici che con quelli reali

Secondo il Synthetic Health Data Hub, un rapporto realizzato da TEHA insieme ad Aindo e Novartis, entro il 2030 i dati sintetici sorpasseranno quelli reali nell’addestramento dei modelli di intelligenza artificiale.

Un cambiamento che non riguarda solo la tecnologia. Sul tavolo c’è un vero e proprio shift culturale: dal proteggere il dato in quanto tale, al costruire un ecosistema sicuro in cui il dato – anche se non è più quello originale – può essere usato liberamente per generare conoscenza, innovazione e valore.

I vantaggi dei dati sintetici

I benefici ottenibili dai dati sintetici non sono solo teorici. Anzitutto, garantiscono un anonimato totale, permettendo però di creare al contempo dataset più ricchi, completi e bilanciati. In questo modo si aiuta a ridurre i bias che spesso compromettono l’accuratezza dei modelli di AI, soprattutto quando mancano sufficienti dati reali o quando alcune categorie di pazienti sono sottorappresentate.

Un esempio, in tal senso, arriva dall’oncologia: l’utilizzo di dati sintetici ha migliorato fino al 17,5% la capacità dei modelli di identificare lesioni nelle fasi iniziali. Un upgrade che, tradotto nella pratica clinica, può tradursi in diagnosi più tempestive e, quindi, in percorsi terapeutici più efficaci.

Ancora più evidente è il caso nelle malattie rare, dove la scarsità di casi limita la solidità statistica degli studi. I dati sintetici permettono di costruire coorti numericamente adeguate, colmando uno dei vuoti più problematici della ricerca biomedica.

I dati sintetici nei trial clinici

L’impatto più rivoluzionario riguarda però i trial clinici. Le cosiddette synthetic control arms consentono di sostituire o affiancare i gruppi di controllo tradizionali con simulazioni statisticamente affidabili. Una novità che riduce i tempi, i costi e le complessità organizzative degli studi clinici, mantenendo comunque gli standard scientifici richiesti. Non solo: accelera anche il lavoro degli enti regolatori e dei comitati etici, che possono valutare scenari clinici più velocemente.

Le simulazioni riportate dal succitato rapporto mostrano che un sistema sanitario regionale che adotti in modo diffuso i dati sintetici potrebbe arrivare a generare fino a 92 trial aggiuntivi all’anno. Significa più ricerca, più innovazione e soprattutto un accesso anticipato delle persone a nuove terapie.

Anche l’impatto economico è notevole: circa 89,5 milioni di euro di risparmi per il Servizio Sanitario Regionale e un contributo diretto al Pil pari a 12 milioni di euro. Numeri che raccontano chiaramente come il dato sintetico non sia soltanto uno strumento tecnico, ma un vero acceleratore di sostenibilità.

Il contesto normativo

Occorre, però, una nuova consapevolezza. Il contesto normativo sta finalmente convergendo verso un approccio che riconosce il valore dei dati sintetici.

Lo European Health Data Space (EHDS) li inserisce tra le modalità legittime di riutilizzo del dato sanitario, consentendone un uso più sicuro, standardizzato e interoperabile, anche a fini di ricerca e innovazione.

Parallelamente, l’AI Act li considera una risorsa preziosa per addestrare sistemi di intelligenza artificiale ad alto rischio, perché riducono l’esposizione ai dati reali e tutelano di più i diritti dei cittadini.

L’Italia, con la legge 132 del 2025, ha persino anticipato il quadro europeo, introducendo una base giuridica autonoma che autorizza la sintetizzazione dei dati sanitari a fini di ricerca. Una scelta che spinge verso la creazione di un mercato regolato del dato, nel quale innovazione e tutela della privacy possano procedere insieme. È un passaggio decisivo per costruire un’infrastruttura digitale sanitaria matura, capace di superare l’attuale frammentazione.

I dati sintetici motore d’innovazione per AI e sanità digitale

Il futuro della sanità digitale si giocherà sulla capacità di gestire e utilizzare i dati in modo sicuro, continuo e interoperabile. I dati sintetici rispondono perfettamente a questa esigenza, ma richiedono tecnologie solide, affidabili e soprattutto conformi alle normative europee sulla protezione dei dati.

L’adozione di questi strumenti ci avvicina a un nuovo standard per l’intelligenza artificiale in sanità: un modello in cui privacy e innovazione non sono più due forze in conflitto, ma parti complementari dello stesso processo. Un futuro in cui i dati possono finalmente diventare ciò che dovrebbero essere: un motore di conoscenza e di cura, non un freno.

guest
0 Commenti
Più recenti Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x