Algoritmi e reti neurali

L’intelligenza artificiale applicata alla medicina: potenzialità, limiti e rischi

I risultati della ricerca e le principali applicazioni dell’IA nella diagnostica medica in ambito radiologico, oncologico e cardiologico

15 Ott 2021

Riccardo De Gobbi

Medico di Medicina Generale, autore del libro "Intelligenza Artificiale e Medica Digitale: una guida critica"

Giampaolo Collecchia

Medico di Medicina Generale, autore del libro "Intelligenza Artificiale e Medica Digitale: una guida critica"

In ambito diagnostico, i vari sistemi di Intelligenza Artificiale (IA) hanno sempre maggiore spazio. Numerosi studi, infatti, ne hanno  dimostrato la grande utilità quale supporto dei medici e di vari specialisti nel formulare diagnosi più precise, rapide, accurate.

Rimane irrisolto, invece, il quesito fondamentale, ovvero se i sistemi di AI possano sostituire e, in prospettiva, superare l’uomo.

Nella prima  sistematica review e metanalisi di confronto tra sistemi di deep learning e professionisti sanitari, basata su 31.587 studi, dei quali soltanto 82 (su 147 coorti di pazienti) inclusi, si è evidenziata una sostanziale equivalenza di performance tra intelligenza artificiale e clinici (1). Lo studio ha anche evidenziato che solo un numero limitato di lavori aveva una validità esterna metodologica adeguata e che, in particolare, i gruppi di confronto erano spesso diversi.

Vediamo invece cosa accade, in dettaglio, riguardo all’utilizzo di sistemi di intelligenza artificiale ad alcuni ambiti importanti e specifici della medicina.


L’intelligenza artificiale in radiologia

L’ambito radiologico è quello maggiormente interessato dalla rivoluzione digitale. Ogni anno, ad esempio, si effettuano in tutto il mondo circa 2 miliardi di radiografie del torace. I radiologi, che utilizzano per il loro lavoro il sistema di riconoscimento visuale per pattern, sono inevitabilmente soggetti a possibili bias. Tra questi, ad esempio, la cosiddetta cecità attentiva (inattentional blindness), per la quale soggetti focalizzati su specifici aspetti possono trascurare dati inaspettati anche se perfettamente visibili. Ciò è stato dimostrato in un studio nel quale l’83% dei radiologi non ha visto l’immagine del gorilla nelle radiografie che stava analizzando (2).

WHITEPAPER
SPEECH ANALYTICS, SENTIMENT ANALYSIS e AI per aumentare l’efficacia del Contact Center
Cloud
Intelligenza Artificiale
I ricercatori della Harvard Medical School hanno scoperto che l’83% dei radiologi non ha notato il gorilla nella parte in alto a destra di questa immagine (fonte: NPR)

La scelta di inserire nell’immagine Tac la figura di un gorilla opportunamente mimetizzato può sembrare originale: in realtà, lo spunto è giunto da un noto ed importante esperimento di psicologia della percezione che dimostra come, attirando l’attenzione su alcuni aspetti della scena, altri aspetti, magari grossolani ma incoerenti con la scena, possano del tutto sfuggire (come mostrato di seguito nel video dell’esperimento).


Nello studio Invisible Gorilla, viene chiesto di contare quante volte i ragazzi in maglia bianca si scambiano la palla. Focalizzando l’attenzione sulla palla, il 50% dei partecipanti non ha notato il gorilla che entra, si ferma per un po’ al centro, si batte il petto e poi esce dallo schermo con disinvoltura

Un algoritmo di intelligenza artificiale si è dimostrato superiore ad un gruppo di confronto rappresentato da 4 radiologi nella diagnostica delle polmoniti, anche se il livello di accuratezza non è ottimale e, comunque, il sistema è in grado di offrire una risposta soltanto a una piccola parte del lavoro complessivo giornaliero dei radiologi.

Uno studio condotto dal team di Pranav Rajpurkar con un algoritmo di deep learning – denominato CheXNeXt – addestrato su un dataset di oltre 100.000 radiografie del torace di circa 31.000 pazienti, ha ottenuto risultati simili ad un gruppo di 9 radiologi nella diagnostica di polmoniti, versamenti pleurici, masse polmonari, pneumotorace e noduli su semplici rx torace in antero-posteriore.

A parità di efficacia diagnostica, il tempo medio di interpretazione delle 420 immagini del set di validazione è stato di 420 minuti per gli umani e di soltanto 1,5 minuti per l’algoritmo (3). Questo strumento, peraltro ancora in sviluppo, potrà offrire soluzioni agli errori diagnostici dei professionisti per mancanza di tempo o stanchezza e fornire la possibilità di una valida diagnostica nei paesi dove i radiologi sono poco numerosi o assenti.

Sempre in ambito polmonare, uno studio su oltre 470.000 referti ha dimostrato una performance accettabile nel triage automatico su radiografie del torace, classificandole come critiche, urgenti, non urgenti o normali. La sensibilità è stata del 71%, la specificità del 95%, il valore predittivo positivo 73% e il valore predittivo negativo 94%. I tempi di refertazione sono risultati ridotti in maniera significativa (4).

In uno studio retrospettivo, un sistema automatico di deep learning è risultato in grado di diagnosticare un pneumotorace all’rx torace standard con bassa sensibilità (0,80) ma alta specificità (0,90) per forme moderate e gravi. Il modello potrebbe integrare l’attività dei radiologi fungendo da sistema di allarme additivo, soprattutto in contesti ad alto flusso di prestazioni, per escludere le tipologie più importanti.

Un documento della Società Europea di Radiologia propone di adattare le 3 regole della robotica di Asimov all’intelligenza artificiale applicata alla radiologia. In particolare, i sistemi di IA dovrebbero essere molto efficaci nella diagnostica e sempre supervisionati da un radiologo, a integrazione della diagnostica umana e non in sostituzione. Inoltre, gli algoritmi devono essere protetti dalla possibile obsolescenza, a causa dello sviluppo di macchine più moderne o per cambiamenti della pratica clinica. Il documento riconosce, peraltro, che le leggi di Asimov sono finzioni e auspica una regolamentazione istituzionale che assicuri l’applicazione di regole certe e condivise.

La diagnosi delle malattie respiratorie

Nel 2019, il JAMA (Journal of the American Medical Association) ha pubblicato un importante studio di ricercatori sudcoreani  sull’ applicazione di un sistema di intelligenza artificiale tipo Deep Learning Assisted Detecting (DLAD) alla diagnostica radiologica. In questo lavoro, i ricercatori hanno sviluppato un algoritmo diagnostico in grado di riconoscere 4 importanti gruppi di malattie respiratorie sulla base della semplice radiografia toracica standard: neoplasie maligne, polmoniti, tubercolosi attiva, pneumotorace. I ricercatori hanno utilizzato, come base di addestramento del sistema di IA, 54221 radiografie normali di 47917 individui e 35613 immagini patologiche di 14102 individui. L’algoritmo interpretativo, creato sulla base di questi dati, è stato quindi testato su 486 radiografie toraciche normali e 529 patologiche provenienti da 5 diversi centri diagnostici. Le medesime radiografie sono state anche interpretate da tre gruppi di medici: 5 internisti, 5 radiologi generalisti e 5 radiologi toracici, per un totale di 15 esperti.
L’algoritmo diagnostico del sistema di intelligenza artificiale DLAD ha dimostrato migliore accuratezza diagnostica rispetto a tutti i gruppi medici di confronto, compresi i radiologi toracici. Più precisamente, il DLAD si è dimostrato superiore agli esperti tanto nella individuazione di RX patologiche (983 corrette su 1000, mentre gli umani oscillavano tra 814 e 932 con p < 0,05) quanto nella localizzazione corretta delle lesioni (985 su 1000 a favore del DLAD, mentre gli umani oscillavano tra 781 e 907 con p <0,0 1) (5).

Com’ era prevedibile, i radiologi toracici fornirono le migliori interpretazioni diagnostiche, mentre gli internisti quelle meno frequentemente corrette. Tuttavia, quando i tre gruppi di umani utilizzarono il DLAD, le loro prestazioni migliorarono significativamente, senza tuttavia raggiungere gli standard dell’intelligenza artificiale.

I risultati sono chiari e univoci: il sistema diagnostico di intelligenza artificiale DLAD ha dimostrato una elevata accuratezza nella individuazione anche di piccole lesioni polmonari, con un buon valore predittivo positivo e un eccellente valore predittivo negativo. In questo primo livello diagnostico, il DLAD si è dimostrato superiore a tutti i gruppi di specialisti umani, non solo gli internisti, ma anche i radiologi toracici.

Intelligenza artificiale in oncologia: Watson For Oncology (WFO)

IBM  ha lanciato diversi progetti in ambito medico. Tra questi: Watson for Genomics, Watson for Drug Discovery e Watson for Clinical Trial Maching.

In ambito oncologico, IBM ha realizzato Watson for Oncology, uno dei casi più noti dell’impiego dell’intelligenza artificiale in medicina, evoluzione dei tradizionali sistemi di supporto decisionali. Si tratta di un sistema esperto, addestrato dagli oncologi del Memorial Sloan Kettering Cancer Center di New York attraverso la somministrazione di protocolli terapeutici e regole per imparare ad applicarli nelle diverse casistiche. Utilizzato, a pagamento, in decine di centri ospedalieri sparsi in tutto il mondo, dalla Corea del Sud alla Slovacchia, dall’India alla Florida, ne supporta l’attività clinica confrontando i dati dei pazienti con la letteratura prodotta dalla riviste mediche, le linee guida internazionali e con lo “storico” di casi simili reali affrontati in passato. Il fine è proporre la cura più appropriata tenendo conto dell’efficacia delle terapie e degli effetti collaterali.

Sono, peraltro, descritti incertezze e limiti del sistema (6):

  • algoritmi basati su numeri relativamente piccoli, con dati molto limitati del mondo reale;
  • possibili bias metodologici: i dati utilizzati per addestrare il sistema, e anche i protocolli terapeutici implementati, usati come standard, provengono dalle storie cliniche dei pazienti americani e sono basati prevalentemente su studi e linee guida statunitensi che possono portare a problematiche di riproducibilità in altre popolazioni e contesti, anche economici;
  • numero limitato di tipologie tumorali che il sistema è in grado di riconoscere;
  • difficoltà a istruire nuovamente il sistema ogni volta che le linee guida e gli studi su cui basa le sue decisioni cambiano completamente o vengono comunque aggiornate;
  • carenza di studi clinici randomizzati pubblicati su riviste peer-reviewed che ne dimostrino l’affidabilità e/o la maggiore efficacia su esiti clinici rispetto ai sistemi tradizionali;
  • riserve sulla tutela della privacy e della sicurezza dei cittadini e dei pazienti;
  • problematiche di regolamentazione del sistema e definizione di specifiche responsabilità in caso di errore e accuse di malpractice (ad esempio, il sistema ha consigliato il trattamento con un farmaco in un paziente con severa emorragia, tipica controindicazione dello stesso);
  • difficoltà di integrazione di medici e infermieri nel contesto lavorativo, con differenti livelli di utilizzo nei diversi ospedali;
  • effetto “black box” degli algoritmi: mancanza di prove alla base del loro “ragionamento” tali da consentire ai medici di valutare se decidere di seguire il suggerimento oppure no;
  • pericolo di sovraffidamento e di eccessiva dipendenza da tali sistemi che potrebbero avere seri effetti di dequalificazione e desensibilizzazione dei medici al contesto clinico;
  • questioni etiche quali, ad esempio, l’ utilizzo di un sistema di intelligenza artificiale per prendere decisioni sulle cure di fine vita oppure grandi perplessità in caso di dialogo tra due sistemi di intelligenza artificiale in una lingua sconosciuta all’uomo.

In ambito oncologico, si segnala l’indagine coordinata da Eugenio Santoro, Responsabile del Laboratorio di Informatica Medica dell’Istituto di Ricerche Farmacologiche Mario Negri di Milano (nonché autore e collaboratore scientifico di HealthTech360.it), realizzata in collaborazione con l’AIMAC (Associazione Italiana Malati di Cancro, parenti e amici) su 537 pazienti (7). Le conclusioni sono che il 74% dei malati utilizza internet come forma importante di ricerca delle informazioni (dopo l’oncologo e prima del medico di medicina generale). In particolare, il motore di ricerca più utilizzato è Google (62%) ma sono consultati anche siti più istituzionali come quelli delle società scientifiche, delle istituzioni sanitarie e delle associazioni dei pazienti (circa 40%). Poco usate, invece, le piattaforme dei social media, con la sola eccezione delle online community, utili per lo scambio di informazioni tra “pari”, ma ritenute, in generale, poco affidabili dal 51% degli intervistati. Il 32% dei pazienti oncologici usa almeno un’ app health per smartphone, soprattutto per fruire di servizi sanitari quali prenotazioni di visite mediche, esami, accesso ai referti e per monitorare l’attività fisica. Seguono le app dedicate all’alimentazione.

Sono risultate poco utilizzate le app per il monitoraggio dei parametri di salute e per migliorare l’aderenza alle cure. Interessante il dato secondo cui 8 pazienti su 10, tra coloro che non usano app o dispositivi indossabili, sarebbero disposti a farlo se il medico o l’oncologo li suggerisse.

I pazienti oncologici, infine, fanno  ampio uso di strumenti di contatto con il medico, soprattutto email e whatsapp, a seguire gli sms.

Sistemi di intelligenza artificiale basati sul “natural language processing” possono analizzare i dati sugli esiti clinici riportati dai pazienti in maniera più precisa e personalizzata rispetto ai tradizionali questionari. I dati, peraltro, sono preliminari e richiedono ulteriori verifiche prima di essere immessi sul mercato.

Intelligenza artificiale e tumori al seno

Un altro importante ambito di studio dei sistemi di IA è lo screening mammografico, che ha l’obiettivo di diagnosticare le neoplasie mammarie in fase precoce, in assenza di segni evidenti di malattia, quando il trattamento può ottenere I migliori risultati. L’interpretazione delle mammografie è, peraltro, caratterizzata da possibili falsi positivi e falsi negativi. La fisiologica densità radiologica mammaria può, infatti, mascherare quella tumorale. Sono inoltre inevitabili gli errori degli esaminatori. Ciò ha sviluppato un grande interesse per la realizzazione di sistemi di intelligenza artificiale in grado di migliorare le performance diagnostiche dei radiologi.

Un esempio è il sistema di intelligenza artificiale sviluppato da Google che, secondo uno studio pubblicato su Nature, sarebbe in grado di ridurre i falsi positivi del 5,7% e dell’1,2% e i falsi negativi del 9,4% e 2,7%, utilizzando rispettivamente database statunitensi e britannici. Il sistema di IA ha fornito performance superiori sia a quelle storiche di referti forniti in precedenza sugli stessi database, sia a quelle di 6 radiologi che hanno interpretato 500 immagini radiologiche selezionate casualmente in uno studio controllato (8).

“Abbiamo mostrato ai radiologi le mammografie e abbiamo chiesto loro di verificare la presenza di un tumore. Poi le abbiamo dato in pasto all’intelligenza artificiale e abbiamo chiesto di effettuare la stessa verifica”, ha spiegato al proposito Mozziyar Etemadi della Northwestern University. L’AI è risultata più accurata dei radiologi, perché – ha commentato il coautore dello studio – a differenza degli esseri umani, i computer non si stancano e non si distraggono (come può accadere, ndr) verso la fine di una lunga giornata di lettura di mammografie”. E sull’importanza della ricerca ai fine della prevenzione, ha precisato come “il cancro al seno sia una delle maggiori cause di mortalità per cancro nelle donne. Trovare il cancro prima significa che può essere più piccolo e più facile da trattare. Speriamo –  ha proseguito Etemadi – che è anche un medico della Northwestern Medicine e membro del Cancer Center della Northwestern University – che tutto ciò, alla fine, potrà salvare molte vite”.

“I computer sono davvero bravi in ​​queste attività”, ha affermato Scott McKinney, un ingegnere del software di Google e coautore principale della ricerca. Speriamo che un giorno questo strumento per i radiologi diventi onnipresente come il controllo ortografico mentre scriviamo le e-mail”.

Occorre, però, restare in guardia da possibili entusiasmi: il mondo reale è più complesso di quello “ideale e irreale” della ricerca. A tal proposito, ad esempio, si deve tener conto che, nel suddetto studio, la maggior parte delle immagini sono state realizzate dalla stessa macchina. Non si conoscono, quindi, i risultati che si sarebbero potuti ottenere con altri apparecchi per le mammografie. Inoltre, sarebbe importante conoscere le performance della IA rispetto alle due diverse tipologie di mammografi utilizzati, la tomosintesi (mammografia 3D) e la digitale convenzionale (2D), caratterizzati da diverse prestazioni. Nello studio, infine, tranne l’età, non sono ben definite le altre caratteristiche della popolazione, indispensabili per la generalizzabilità e l’applicabilità della tecnologia (9).

E’ lo stesso Etemadi – peraltro – a invitare alla prudenza: “Anche se questa è una ricerca entusiasmante in fase iniziale – ha affermato il medico e coautore della ricerca – è necessaria la convalida in studi futuri per comprendere meglio come modelli come questi possano essere efficacemente integrati nella pratica clinica. In alcuni esempi – ha proseguito – l’essere umano supera l’IA, ma in altri accade l’opposto. L’obiettivo finale sarà trovare il modo migliore per combinare le due cose: per il momento – ha chiarito – la ‘magia’ del cervello umano non potrà essere sostituita da nulla”.

Riepilogando, possiamo affermare che le grandi speranze nella diagnostica computer assistita del tumore al seno, sollevate da studi sperimentali e dalla disponibilità di grandi database per l’addestramento degli algoritmi di machine learning (ML), non sono state fino ad oggi confermate da studi nel “mondo reale”. In particolare, è stato rilevato un peggioramento della sensibilità, cioè della capacità dei radiologici di evidenziare la presenza della neoplasia, con aumento dei falsi negativi, senza peraltro migliorare la specificità, cioè la capacità degli specialisti di escludere la presenza della neoplasia e, quindi, incrementando i falsi positivi.

L’intelligenza artificiale in cardiologia

intelligenza-artificiale-cardiologia

 La diagnostica degli elettrocardiogrammi con lettura automatica risale ad alcuni decenni fa, peraltro con risultati di scarso rilievo.

L’utilizzo di reti neurali ha invece dimostrato ottima sensibilità (93%) e specificità (90%) nella diagnostica delle sindromi coronariche acute, paragonabile a quelle dei cardiologi (10).

I dati sui quali si basa il trattamento della fibrillazione atriale (FA) sono quelli relativi alla presentazione clinica e, quindi, occorrono studi per capire quali popolazioni sottoporre a screening e quali casi di FA occulta richiedono effettivamente un trattamento.

Nell’ambito dell’ecocardiografia, gli algoritmi hanno fornito risultati migliori di gruppi di cardiologi esperti, ma solo in ambito sperimentale: i sistemi di IA sono anche in grado di quantificare altri parametri come le stenosi vascolari e l’ischemia coronarica, evitando misure invasive (11).

In uno studio retrospettivo, l’intelligenza artificiale ha dimostrato grande accuratezza nella diagnostica della cardiomiopatia ipertrofica, dell’amiloidosi cardiaca e dell’ipertensione polmonare.
Esistono anche stetoscopi intelligenti che possono analizzare suoni cardiaci e polmonari per una profilazione personale dei pazienti.

In futuro, è ipotizzabile che i cardiologi potranno cogliere informazioni, nascoste ai sensi umani, capaci di predizioni di eventi cardiaci (12).

Conclusioni

Riguardo alle applicazioni diagnostiche, è importante sottolineare due caratteristiche peculiari dell’ intelligenza artificiale applicata alla medicina.
Da un lato, occorre ricordare che obiettivi che oggi appaiono irraggiungibili potrebbero essere raggiunti tra pochi mesi grazie al travolgente progresso delle reti neurali e dei computer quantistici: un esempio tra tutti è AlphaFold di Google, un sofisticato sistema di reti neurali che ha stupito il mondo rivelando, in pochi mesi, la struttura di migliaia di proteine umane.

Dall’altro lato, tuttavia, occorre ricordare che, in ambito clinico-epidemiologico, anche le ricerche più raffinate sono limitate dal fatto che la loro validità è accertata solo con quel dato campione, in quel particolare contesto e con quella precisa metodica: in alcuni casi, infatti, poche e semplici modifiche possono cambiare radicalmente i risultati.

Ancora una volta, dunque, occorre verificare tutto con quel gelatinoso organo di 1400 grammi circa che si chiama cervello!

Note bibliografiche 

  1. Liu X, Faes L, Kale Au, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digital Health 2019; 1: e271-97.
  2. www.npr.org/sections/health-shots/2013/02/11/171409656/why-even-radiologists-can-miss-a-gorilla-hiding-in-plain-sight
  3. Rajpurkar P, Irvin J, Ball RL, et al. Deep learning for chest radiograph diagnosis: a retrospective comparison of the CheXNeXt algorithm to practicing radiologists. PLoS Med 2018; 15(11): e1002686
  4. Annarumma M, Withey SJ, Bakewell RJ, et al. Automated triaging of adult chest radiographs with deep artificial neural networks. Radiology 2019; 291: 196-202.
  5. Hwang EJ, Park S, Park CM et al. Development and validation of a deep learning-based automated detection algorithm for major thoracic diseases on chest radiographs. JAMA NetworkOpen 2019; 2(3): e191095
  6. Santoro E. Watson accompagna il lavoro degli oncologi; Forward 2017; 08.
  7. www.marionegri.it/magazine/pazienti-oncologici-strumenti-digitali
  8. McKinney SM, Sieniek M, Godbole V, et al. International evaluation of an AI system for breast cancer screening. Nature 2020; 577: 89-94.
  9. Pisano ED. AI shows promise for breast cancer screening. Nature 2020; 577: 35-6.
  10. Rajpurkar P, Hannun AY, Haghpanahi M, Bourn C, Ng AY. Cardiologis-level arrhythmia detection with convolutional neural network; sarXiv:1707.01836
  11. Madani A, Arnaout R, Mofrad M, Arnaout R. Fast and accurate view classification of echocardiograms using deep learning. NPJ Digit 2018; 1: 6.
  12. The heart of the matter: technology in the future of cardiology. The Medical Futurist 2019.

WHITEPAPER
Costruire una VERA DATA STRATEGY: machine learning, sicurezza e valorizzazione del dato.
Amministrazione/Finanza/Controllo
Big Data
@RIPRODUZIONE RISERVATA

Articolo 1 di 5