In un mondo che si affida sempre più alla scienza per affrontare sfide complesse, da malattie non ancora curabili a problemi legati al cambiamento climatico, la scoperta di nuove molecole è di fondamentale importanza. Questo processo, tuttavia, richiede spesso decenni di lavoro e investimenti economici di notevole entità. Tradizionalmente, la scoperta di nuove molecole e materiali avviene attraverso un laborioso processo di tentativi ed errori, che comporta la sintesi e la prova di innumerevoli composti chimici, sperando che uno di essi possieda le proprietà desiderate. È un processo che può durare anni, se non decenni, e comportare costi nell’ordine dei milioni, se non miliardi, di dollari.
Tuttavia, una squadra di ricercatori del MIT e del MIT-Watson AI Lab sta ora sviluppando un nuovo metodo per accelerare notevolmente il processo di scoperta molecolare, sfruttando le potenzialità dell’Intelligenza Artificiale (IA). L’IA, infatti, sta aprendo orizzonti nuovi e promettenti in numerosi campi, e la chimica molecolare non fa eccezione.
Per comprendere l’importanza e l’innovatività di questa ricerca, è utile prima di tutto chiarire che cosa comporta l’addestramento di un modello di apprendimento automatico per prevedere le proprietà di una molecola. Questo processo richiede la presentazione al modello di milioni di strutture molecolari etichettate, una procedura nota come addestramento. Questo comporta l’identificazione di milioni di molecole, la determinazione delle loro proprietà e la trasmissione di queste informazioni al modello di apprendimento automatico. Tuttavia, a causa dei costi associati alla scoperta delle molecole e delle sfide legate all’etichettatura manuale di milioni di strutture, l’ottenimento di ampi set di dati per l’addestramento è spesso difficile. Questa limitazione, a sua volta, limita l’efficacia degli approcci basati sull’apprendimento automatico.
Eppure, grazie all’uso intelligente dell’IA, il sistema sviluppato dai ricercatori del MIT può prevedere efficacemente le proprietà molecolari utilizzando solo una piccola quantità di dati. In altre parole, questo sistema è in grado di “imparare” le regole fondamentali che governano la struttura delle molecole e prevedere le proprietà di nuove molecole sulla base di queste regole. Questo approccio sfrutta l’idea che le molecole con strutture simili avranno proprietà simili. Ciò consente al sistema di generare nuove molecole e prevedere le loro proprietà in un modo efficiente dal punto di vista dei dati.
Il team del MIT ha adottato un approccio diverso rispetto ai metodi tradizionali basati sull’apprendimento profondo. Piuttosto che richiedere un ampio set di dati per l’addestramento, il team ha sviluppato un sistema di apprendimento automatico in grado di “imparare” la grammatica delle molecole utilizzando solo un piccolo set di dati specifico del dominio. Ma cosa significa “imparare” la grammatica delle molecole?
In linguistica, la grammatica è un insieme di regole che regolano la struttura delle parole e delle frasi. Si può pensare alla grammatica molecolare in modo simile: è un insieme di regole di produzione che dettano come generare molecole o polimeri combinando atomi e sottostrutture. Così come una grammatica linguistica può generare un’infinità di frasi seguendo le stesse regole, una grammatica molecolare può rappresentare un vasto numero di molecole. Le molecole con strutture simili usano le stesse regole di produzione della grammatica, e il sistema apprende a comprendere queste somiglianze.
Per apprendere le regole di produzione di una grammatica molecolare, i ricercatori hanno utilizzato un approccio basato sul reinforcement learning. In termini semplici, il reinforcement learning è un processo di tentativi ed errori in cui il modello è premiato ogni volta che si avvicina a un obiettivo. Questo processo, tuttavia, può diventare estremamente complesso quando si tratta di molecole, dato che ci potrebbero essere miliardi di modi per combinare atomi e sottostrutture. Per risolvere questo problema, i ricercatori hanno suddiviso la grammatica molecolare in due parti. La prima parte, chiamata metagrammatica, è una grammatica generale, ampiamente applicabile, che viene fornita al sistema all’inizio. Poi, il sistema deve apprendere solo una grammatica molto più piccola, specifica per le molecole, dal set di dati del dominio. Questo approccio gerarchico consente di accelerare il processo di apprendimento.
Nei test effettuati, il nuovo sistema del MIT ha dimostrato di poter generare molecole e polimeri validi e di prevedere le loro proprietà in modo più accurato rispetto a vari metodi di apprendimento automatico popolari, anche quando i set di dati specifici del dominio contenevano solo qualche centinaio di campioni. Alcuni di questi metodi richiedono inoltre una costosa fase di pre-addestramento che il nuovo sistema evita. Il modello ha dimostrato di essere particolarmente efficace nella previsione delle proprietà fisiche dei polimeri, come la temperatura di transizione vetrosa, ovvero la temperatura necessaria perché un materiale passi da uno stato solido a uno liquido.
Il team del MIT è anche riuscito a dimostrare la potenza del sistema utilizzando un set di dati di addestramento ridotto a soli 94 esempi. Nonostante la dimensione estremamente ridotta del set di dati, il modello è stato in grado di produrre risultati comparabilia quelli ottenuti con set di dati di dimensioni tradizionali. Ciò dimostra come il nuovo sistema possa facilitare l’individuazione di nuove molecole a partire da un numero di esempi molto limitato.
Ma il futuro potrebbe riservare ancora più progressi. I ricercatori stanno attualmente lavorando su come poter estendere le capacità del modello, per permettergli di considerare non solo le strutture molecolari, ma anche la loro geometria tridimensionale. Questa è una caratteristica fondamentale per comprendere le interazioni tra le catene di polimeri, che sono cruciali per determinare le proprietà fisiche di una molecola. Al momento, la maggior parte dei modelli di apprendimento automatico non tiene in considerazione la geometria tridimensionale delle molecole, limitando così le loro capacità predittive. L’inclusione di questa informazione nel modello potrebbe rappresentare un grande passo avanti nella previsione accurata delle proprietà molecolari.
In sintesi, l’Intelligenza Artificiale sta dimostrando di avere un potenziale incredibile nel campo della scoperta molecolare. Non solo permette di accelerare il processo di scoperta e di ridurre i costi associati, ma fornisce anche un metodo più efficiente per prevedere le proprietà delle molecole rispetto ai metodi tradizionali. Man mano che queste tecniche continueranno ad essere sviluppate e affinate, potremmo assistere a un miglioramento esponenziale nella velocità e nell’efficienza della scoperta scientifica.
L’era della scoperta molecolare accelerata dall’IA potrebbe essere proprio dietro l’angolo. Questo non significa solo che potremmo essere in grado di scoprire nuove molecole in tempi più brevi, ma anche che potremmo essere in grado di prevedere le loro proprietà con maggiore precisione. E, come conseguenza, potremmo essere in grado di progettare molecole con proprietà desiderate in modo più efficiente e accurato.
Questi sviluppi rappresentano una vera e propria rivoluzione nel campo della chimica molecolare, e potrebbero avere un impatto enorme su numerosi settori, dalla medicina alla produzione di materiali, dall’energia all’ambiente.Siamo davvero all’inizio di una nuova era in cui l’Intelligenza Artificiale ci permette di comprendere e manipolare il mondo a un livello molecolare in modi che non avremmo mai immaginato prima. Il futuro della scoperta molecolare è emozionante, e non vediamo l’ora di vedere cosa ci riserva.
di Andrea Bruno Viliotti
B2B Data-Evolution Lead Generation Specialist.
Aiuto startup B2B a trovare clienti ideali attraverso una lead generation
basata su dati e profili LinkedIn, ottimizzando risorse e incrementando vendite