Il ChatGPT di Google per la Sanità

I ricercatori di Google e DeepMind stanno sperimentando Med-PaLM, un modello per il riconoscimento del linguaggio naturale in grado di rispondere a qualsiasi tipo di domande mediche con un grado di accuratezza simile a quello umano. Una sorta di ChatGPT per la Sanità che apre a nuovi scenari (e interrogativi) sull’uso dell’AI in ambito medico-sanitario

Mentre ChatGPT sta catalizzando l’attenzione su tutte le questioni relative all’Intelligenza Artificiale (AI) e ai Large Language Model (LLM) per il riconoscimento del linguaggio naturale, senza tanto clamore i team di ricerca di Google e DeepMind – stanno iniziando a mostrare al mondo i promettenti risultati ottenuti dallo sviluppo congiunto di uno strumento LLM open source chiamato Med-PaLM. Risultati analizzati e divulgati in questi giorni attraverso un corposo quanto interessante documento di ricerca.

Indice degli argomenti

Un ChatGPT per l’assistenza sanitaria?

A differenza di ChatGPT, che viene addestrato su una gamma straordinariamente vasta di set di dati allo scopo di poter essere usato ad ampio spettro come strumento per il riconoscimento del linguaggio naturale, Med-PaLM è stato progettato per uno scopo ben preciso: rispondere a domande di carattere medico, sia da parte di professionisti del settore sia dei pazienti.

Google sfida OpenAI (e Microsoft)

PaLM è l’acronimo di “Pathways Language Model”, modello che Google ha lanciato lo scorso anno. Da Mountain View sostengono che, in compiti complessi con linguaggio e codice, PaLM superi GPT-3, tool per il riconoscimento del linguaggio naturale sviluppato da OpenAI e su cui ha pesantemente investito Microsoft.

Per Med-PaLM, che basa il funzionamento su 540 miliardi di parametri, circa il triplo di quelli usati da GPT-3, il team di ricerca sostiene di aver sviluppato un nuovo metodo di prompting al fine di adattare una variante di Flan-PaLM al dominio medico. Flan-PaLM che, a sua volta, è una variante del più ampio modello PaLM perfezionato con istruzioni per compiti (come dialoghi, domande frequenti, ragionamenti), che Google Brain ha presentato a ottobre 2022.

Med-PaLM: risultati incoraggianti

Per ottenere una sorta di ChatGPT per la Sanità, il team di Google ha utilizzato una combinazione di suggerimenti e dati scritti da esseri umani in risposta a domande mediche specifiche.
A tal fine, i ricercatori di Alphabet, proprietaria di Google e DeepMind, hanno collaborato con medici degli Stati Uniti e del Regno Unito ottenendo una combinazione di suggerimenti chiamata “Instruction Prompt Tuning”.
Gli studiosi coinvolti nell’esperimento sostengono che il modello Med-PaLM risultante dopo l’Instruction Prompt Tuning superi in modo significativo il modello Flan-PaLM non ottimizzato per le risposte mediche e ottenga “risultati incoraggianti”, pur se ancora inferiori alle prestazioni dei medici.

Le prestazioni del chatbot medico di Google

In realtà, alla luce dei risultati ottenuti, quanto appena evidenziato sulle performance di Med-PaLM potrebbe apparire riduttivo, osservato che – in realtà – il modello ha un comportamento “professionale” in quasi tutti i test.
Un gruppo di medici ha stabilito che il 92,6% delle risposte fornite a una serie di specifiche domande fosse coerente con quelle che avrebbero dato gli stessi medici, mentre solo il 61,9% delle risposte fornite tramite Flan-PaLM alle medesime domande è risultato coerente con quelle dei medici, a dimostrazione dell’evoluzione ottenuta da Med-PaLM nei confronti del “vecchio” Flan-PaLM non adattato per fini medici.

Med-PaLM ha inoltre fornito un numero significativamente inferiore di risposte potenzialmente pericolose.
Nel caso di Flan-PaLM, il 29,7% delle risposte poteva essere dannoso per la salute. Con Med-PaLM, invece, questa percentuale è stata solo del 5,9%, rispetto al 5,7% dei medici, dimostrando ancora una volta di poter fornire prestazioni in linea con quelle degli esperti umani.

Il cuore della tecnologia Med-PaLM

Com’è fatto, come viene testato, a quali domande risponde esattamente e da quali dati è alimentato questa sorta di ChatGPT di Google per la Sanità?

Poiché Med-PaLM nasce per l’impiego specifico in ambito medico, viene valutato tramite MultiMedQA, un benchmark open source studiato appositamente per domande e risposte mediche. Combina, inoltre, HealthSearchQA, un nuovo set di dati a risposta libera di domande mediche poste online, con 6 set di dati di risposte a domande aperte che coprono esami medici professionali, ricerche e richieste dei pazienti.

Google-Med-PaLM-schema-funzionamento — Med-PaLM: panoramica e schema di funzionamento (*fonte: “Large Language Models Encode Clinical Knowledge”, Google Research, DeepMind*)

Più in dettaglio, Med-PaLM risponde a domande a scelta multipla e a quesiti posti da professionisti e non professionisti del settore medico attraverso la fornitura di vari set di dati. Questi provengono dai seguenti set di dati consolidati:

MedQA
MedMCQA
PubMedQA
LiveQA
MedicationQA
MMLU

Per migliorare MultiMedQA è stato aggiunto il nuovo set di dati di ricerche mediche HealthSearchQA, che è composto da 3.375 domande frequenti poste da persone comuni ed è stato creato a partire dalle diagnosi mediche e dai sintomi associati.

Un ChatGPT per la Sanità: scenario reale o futuristico?

Secondo quanto affermano i ricercatori Google, i risultati ottenuti con Med-PaLM dimostrano che, con una rapida messa a punto delle istruzioni, è possibile disporre di un’efficace tecnica di allineamento a livello di dati e parametri. Questa è utile per migliorare fattori legati all’accuratezza, alla fattualità, alla coerenza, alla sicurezza e al danno potenziale, in modo da colmare il divario con le riposte degli esperti clinici e così avvicinare i modelli di AI alle applicazioni cliniche del mondo reale.

Ma davvero l’AI potrà essere un aiuto concreto anche per medici e operatori sanitari nel dialogo con i pazienti?

Google, Microsoft, IBM… Come si muovono le Big Tech

Med-PaLM sembra essere sulla buona strada, ma Google non è certo l’unico tra le Big Tech ad avventurarsi nell’assistenza sanitaria basata sull’intelligenza artificiale.
Microsoft e IBM, per esempio, l’hanno preceduta, anche se con risultati, sinora, non sempre pienamente confortanti.

Microsoft sta lavorando a stretto contatto con il team OpenAI per impiegare GPT-3 in modo da facilitare la collaborazione tra dipendenti sanitari e medici al fine di migliorare l’efficienza dei team. Ma esiti concreti non sembra al momento siano stati ancora raggiunti.

IBM è da tempo impegnata in questo campo con la sua divisione Watson Health. Tuttavia, nonostante si sia posta l’obiettivo di rivoluzionare l’assistenza sanitaria attraverso l’AI e sia certamente tra i leader della ricerca in questo settore , l’azienda nel gennaio 2022 ha ceduto parti di Watson Health. L’annuncio ha fatto riflettere (e, in qualche modo, spiazzato) gli analisti e alcuni di loro hanno sottolineato come sia possibile intravedere in questa vendita un deterrente rispetto alla scommessa di usare Watson quale anello di congiunzione tra il mondo dell’assistenza sanitaria e quello dell’intelligenza artificiale.

Il futuro del chatbot di Google per la Sanità

I risultati ottenuti da Google e DeepMind con Med-PaLM sembrano lasciare ben sperare sull’impiego dell’AI anche per effettuare diagnosi mediche o, quantomeno, per fornire consigli professionali attendibili a pazienti e operatori sanitari simulando quanto farebbe un medico umano.
Gli esperti ritengono, tuttavia, che si debba ancora lavorare molto per migliorare ulteriormente il riconoscimento del linguaggio ed essere sicuri che non accadano più eventi da scongiurare come, ad esempio, quello del chatbot medico basato su GPT-3 – progettato dalla startup francese Nabla nel 2020 – arrivato a consigliare a un paziente (nell’occasione, simulato) di suicidarsi.