Data quality

Dal dato alla decisione: il valore di una data pipeline solida e scalabile



Indirizzo copiato

Il caso Bayer dimostra come ripensare l’infrastruttura dati e la data pipeline possa abilitare una nuova operatività, migliorare la collaborazione tra team tecnici e business e preparare il terreno per una piattaforma davvero AI Ready

Pubblicato il 21 nov 2025



data-pipeline-healthcare Bayer

Oggigiorno si parla moltissimo di Intelligenza Artificiale generativa e delle grandi opportunità che, in settori trasversali, può apportare. Ma tutto ciò nasconde un problema, spesso sottovalutato: se non si fa attenzione alla qualità e all’affidabilità dei dati, e in generale a tutta la data pipeline, anche le tecnologie più avanzate rischiano di generare insight fuorvianti oppure poco utili.

Per poter realmente sfruttare nuovi strumenti come dashboard interattive e modelli di Data Science e avvantaggiarsi per davvero dei grandi investimenti in questo ambito, occorre prima di tutto un rigoroso lavoro sulla fondazione del dato.

Un refactoring profondo della data pipeline

La sfida della data quality e della governance è stata affrontata anche da Bayer Italia in un progetto di revisione architetturale che ha trasformato in profondità il modo in cui il dato viene gestito, trasformato e valorizzato.

Con il supporto di The Information Lab Italia, l’organizzazione ha scelto di ricostruire l’intera infrastruttura di gestione dei dati all’interno di Snowflake, una piattaforma cloud-native tra le più avanzate sul mercato. L’obiettivo è stato quello di consolidare i flussi informativi in un ambiente unico e sicuro, potenziando l’automazione e garantendo maggiore efficienza operativa, in linea con le esigenze di scalabilità e governance dei dati.

“Prima dell’avvio del progetto con The Information Lab Italia, il codice rifletteva l’evoluzione naturale di un sistema cresciuto nel tempo, modellato sulle esigenze di business e influenzato dagli stili e dalle pratiche dei diversi membri del team”, spiega Marta Fretti, Analytics e AI Manager di Bayer Pharma Italia. “L’assenza di una struttura unificata rendeva complessa la gestione locale dei dati, in un contesto tecnologico definito a livello globale. Da qui la scelta di ricostruire l’intera architettura su Snowflake, puntando su solidità, scalabilità e automazione”.

Il lavoro, avviato a gennaio 2024, ha comportato il refactoring di numerosi processi esistenti, con una ridefinizione del modello dati, delle tabelle e delle viste finali usate per la reportistica. In parallelo, sono state incorporate nuove logiche di business e questo ha permesso di aumentare la rilevanza degli insight generati e di migliorare l’allineamento tra tecnologia e strategia locale.

Migliore data quality, automazione intelligente, qualità garantita

Uno degli aspetti più significativi del nuovo assetto è l’introduzione dell’Autonomy Zone: un ambiente Snowflake, completamente dedicato all’Italia, che consente ai team locali di lavorare in modo autonomo, senza dipendere dalle strutture centrali globali. Questo ha reso più veloce l’elaborazione dei dati e più tempestivo il processo decisionale.

“Ci appoggiavamo, in parte, a un flusso dati che veniva messo a disposizione dal nostro team che lavora a livello globale”, racconta Fretti. “Quando si lavora a livello global si tende a rendere le soluzioni scalabili, ma non vengono considerate le particolarità del Paese”.

Inoltre, la qualità del dato è stata affrontata con un approccio nuovo: i controlli non avvengono più solo a valle, ma sono distribuiti lungo tutti gli step della data pipeline. Se un errore viene rilevato, il sistema ne blocca la propagazione, evitando che dati errati raggiungano dashboard e applicativi usati su larga scala.

“Nei settori non tech, spesso si dà per scontato che il dato sia già pronto e affidabile, perché l’attenzione è rivolta principalmente agli strumenti applicativi e agli insight finali”, osserva Fretti. “Ma senza investire nella qualità e nella solidità dell’infrastruttura e del modello dati, tutto ciò che viene costruito sopra rischia di poggiare su basi fragili. È proprio lì che serve concentrare gli sforzi: un dato ben governato rende ogni applicazione più efficace e ogni decisione più solida”.

Automazione, governance e applicazioni per il business

La nuova data pipeline implementata con Snowflake ha permesso anche la schedulazione automatica dei flussi, alleggerendo il carico manuale e migliorando la governance, attraverso l’inclusione di controlli di accesso più rigorosi e la possibilità di tracciare l’utilizzo dei dati. L’evoluzione della piattaforma ha reso più fluido il processo di ingestione dei dati da fonti esterne, integrandoli direttamente nel nuovo ecosistema Snowflake. Parallelamente, lo sviluppo di applicazioni tramite Streamlit ha introdotto strumenti innovativi a supporto degli informatori farmaceutici, semplificando i processi interni e rendendo più intuitive le interazioni con i dati.

Un risultato particolarmente significativo è stato l’empowerment degli utenti non tecnici: anche chi non possiede competenze avanzate in ambito data analytics può ora operare in autonomia, accedendo a informazioni rilevanti in modo semplice e guidato.

Dal punto di vista operativo, la transizione verso la nuova infrastruttura è stata gestita con grande attenzione alla continuità del servizio. “Abbiamo mantenuto attivi entrambi gli ambienti, quello esistente e quello nuovo, per un periodo di verifica”, spiega Fretti. “Quando le nuove applicazioni, basate sulla nuova architettura, hanno superato tutti i test, le abbiamo messe in produzione senza modificare le funzionalità visibili agli utenti. Il passaggio è stato così fluido che nessuno ha percepito cambiamenti: tutto ha continuato a funzionare come prima, ma con una base tecnologica decisamente più solida”.

Una trasformazione anche culturale

Oltre alle difficoltà tecniche, come la gestione di codice sviluppato in anni da più mani, il progetto ha richiesto anche un importante sforzo di comunicazione interna. Far comprendere il valore strategico di un’operazione di refactoring, priva di risultati visibili nell’immediato, è stato uno degli ostacoli culturali principali.

“Far comprendere la necessità di intervenire sull’infrastruttura non è stato immediato”, fa notare Fretti. “Il messaggio chiave è stato: per avere dati affidabili, aggiornati in tempo utile e coerenti tra i sistemi, serve una base solida e stabile”.

La strategia comunicativa ha puntato sul coinvolgimento diretto delle figure più vicine al business. “Abbiamo attivato call ricorrenti con le persone che lavorano a stretto contatto con le funzioni operative”, continua Fretti. “Rivolgerci a loro è stato fondamentale per far percepire il valore di questo cambiamento, perché sono proprio loro a vivere ogni giorno l’impatto concreto dei dati sulle decisioni”.

Investire nella data pipeline per costruire decisioni migliori

Rifondare una data pipeline non è dunque un esercizio tecnico fine a sé stesso, ma un investimento strategico. Centralizzare i dati, automatizzare i flussi, ridefinire la governance e mettere ordine nelle logiche di business consente non solo di migliorare la qualità dell’informazione, ma anche di renderla accessibile e utile a chi deve decidere.

Soprattutto in contesti come quello farmaceutico, non è sempre immediato riconoscere il valore di un lavoro che agisce sotto la superficie, lontano dagli applicativi visibili. Eppure, come sottolinea Fretti, “costruire un’infrastruttura dati solida significa mettere tutto ciò che viene a valle, dalle analisi alle applicazioni, in una posizione migliore”.

Un investimento che non solo migliora l’affidabilità e la coerenza del dato, ma prepara l’organizzazione ad affrontare le sfide future, abilitando una piattaforma AI Ready capace di supportare modelli avanzati e soluzioni intelligenti in modo scalabile e sicuro.

Contributo editoriale realizzato in collaborazione con The Information Lab

Articoli correlati