Nel 2005 uscì un articolo che fece molto scalpore, il titolo era già un proclama ‘Why most Published Research Findings are false’ né più né meno ‘Perché la maggior parte dei risultati scientifici pubblicati sono falsi’[1].
La rivista era delle più prestigiose e John Ioannidis, statistico greco di stanza a Stanford, uno scienziato di chiara fama. Ioannidis non usava ipotesi moralistico-consolatorie (molto in voga negli Stati Uniti) come “E’ la smania di successo di alcuni scienziati che li porta a falsificare i dati”, ma individuava la fallacia di gran parte della ricerca scientifica in semplici considerazioni statistiche. Il furioso dibattito che seguì alla pubblicazione ebbe termine con il riconoscimento della effettiva mancanza di ripetibilità della ricerca (soprattutto in biomedicina).
Grandi agenzie di finanziamento come l’NIH (National Institutes of Health, l’agenzia di ricerca biomedica americana che è di gran lunga il maggior erogatore di fondi) inserirono standard molto severi sulla congruità statistica dei risultati e Nature (insieme a Science la rivista scientifica più di tendenza) ha recentemente pubblicato un intero numero sul problema della mancanza di ripetibilità dei risultati della ricerca di base in biomedicina[2].
La prestigiosa Rivista PLoS Biology ha inaugurato in queste settimane una sezione denominata ‘Meta-Research’ tutta dedicata all’analisi della verosimiglianza dei risultati scientifici che in molti campi è drammaticamente bassa[3].
Quello che traballa è niente meno che il fondamento della conoscenza scientifica: le galileiane ‘sensate esperienze’ che sembrano smarrire la loro qualità precipua: quella di poter essere riprodotte da altri sperimentatori in maniera indipendente.
Come si è arrivati a questa crisi conoscitiva? Si tratta di un esempio di quella vasta classe di problemi legata agli effetti di scala: raggiungere con una strada di campagna una spiaggia contornata da pini per passare una giornata d’estate è di per sé un’idea splendida, se la stessa idea è condivisa da migliaia di persone che, dopo una estenuante fila sotto il sole, si ritrovano su un arenile affollato le cose cambiano di molto.
Fuor di metafora, se un ricercatore vuole verificare la fondatezza di una sua ipotesi, organizza un esperimento in cui definisce operativamente e teoricamente una misura (osservabile), raccoglie un numero sufficiente di osservazioni (animali, colture cellulari…) indipendenti e controlla se la misura in questione ha dei valori compatibili con l’ipotesi di partenza.
La verosimiglianza di questa compatibilità viene di norma valutata in maniera ‘falsificazionista’: si confronta il valore osservato con quanto ci si attende per il puro effetto del caso (che, a seconda dei contesti viene immaginato in termini di particolari distribuzioni di probabilità come la distribuzione gaussiana, uniforme, binomiale … ) e, se la probabilità di osservare per puro effetto del caso, un valore uguale (o più estremo) di quello effettivamente ottenuto è più bassa di una certa soglia, si ‘scommette’ sulla significatività del risultato ottenuto. E’ importante sottolineare il carattere personale di questa (come di qualsiasi altra) scommessa: accettare un risultato come ‘significativo’ (e quindi corroborante l’ipotesi) se la probabilità di osservare un risultato identico o più estremo di quello effettivamente osservato per il puro effetto del caso è minore di 1 su 20 (il famoso p < 0.05) non è niente di più che ‘una buona e assodata consuetudine’ non certo la dimostrazione di un teorema.
Fin qui nessun problema, la scommessa è stata fatta ‘prima’ di andare a vedere le carte e soprattutto i suoi termini sono chiari: essa vale esclusivamente per una sola misura che si definisce come rilevante per il fenomeno in studio.
Implicito nel criterio ‘p < 0.05’ è il fatto che se si eseguono 200 misure differenti, ci si aspetta di osservare una media di 10 risultati ‘statisticamente significativi’ puramente casuali, è chiaro quindi che se un gruppo di ricerca fa quello che in gergo si chiama ‘cherry-picking’ (letteralmente ‘scegliersi le ciliegie’) su molte sperimentazioni, si imbatterà di sicuro in un risultato statisticamente significativo per puro effetto del caso. Se il gruppo di ricerca pubblicherà questo risultato (scelto ad hoc) corredato da una dotta e conseguente discussione, questo verrà considerato una evidenza scientifica da parte della comunità laddove è solo una naturale conseguenza del concetto stesso di probabilità. Moltiplicate questo fenomeno perverso per il milione e passa di ricercatori attualmente attivi nel solo campo biomedico e avrete un’idea delle dimensioni del problema. Nel loro editoriale sulla rivista Significance della Royal Statistical Society, Stanley Young e Alan Karr forniscono un quadro molto lucido della gravità della situazione con grande rigore metodologico e cristallina chiarezza[4].
Una forma differente dello stesso problema di sovra-determinazione la abbiamo nel campo della modellizzazione matematica[5].
A differenza del caso precedentemente descritto della verifica statistica della congruità di un’ipotesi, che è comunque procedura ‘esterna’ alla natura profonda del fenomeno studiato, qui in qualche modo assistiamo a un ‘corto-circuito’ tra la natura intima degli oggetti e lo stile della scienza.
L’idea che ‘più aspetti si prendono in considerazione, più accurate saranno le nostre previsioni su un certo fenomeno’ sembra del tutto pacifica e non meritevole di alcun approfondimento. Le cose però stanno in maniera molto diversa: la nostra conoscenza scientifica si è sviluppata attraverso un approccio alla conoscenza completamente differente. I modelli di successo in scienza sono ‘grossolani’ (sloppy nel gergo dell’analisi dei dati): essi riescono a prevedere con buona (a volte ottima) approssimazione il comportamento di sistemi molto complessi prendendo in considerazione pochissimi parametri di controllo e deliberatamente trascurando un’infinità di dettagli potenzialmente interessanti.
Claudio Ronchi, nel suo fondamentale trattato[6], ci racconta come l’incredibile semplicità e accuratezza delle leggi di Keplero riassunte nella sintesi Newtoniana sia stata possibile concentrandosi sull’interazione diadica tra i singoli pianeti e il sole tralasciando tutte le interazioni (comunque presenti) con gli altri pianeti del sistema solare.
In tempi moderni ci si rese conto che il moto di precessione di Mercurio non era in accordo con le leggi di Newton e ci volle la teoria della Relatività Generale per renderne conto[7]. Purtroppo le correzioni necessarie presentano gravi problemi matematici per essere calcolate ab initio per cui si rese necessario introdurre, attraverso il metodo matematico delle perturbazioni (e chiaramente il calcolo elettronico), circa 100 ‘fattori di correzione empirici’ in maniera non troppo dissimile dall’uso tolemaico di 18 rotazioni ‘eccentriche’ per rendere conto delle orbite effettivamente osservate dei pianeti. Se Keplero avesse avuto a disposizione strumenti di misura accurati come quelli oggi disponibili, con tutta probabilità la scienza moderna non sarebbe mai nata.
E qui siamo al ‘grado zero’ della complessità: pochissimi enti interagenti in maniera regolare, quando abbiamo di fronte un sistema con molti elementi le cui interazioni reciproche variano a seconda delle condizioni al contorno (si pensi ad esempio alle reti metaboliche delle cellule), i problemi diventano molto più gravi e la ricerca di descrizioni ‘più esaurienti’ che ‘tengano conto’ dell’effettiva complessità del sistema porta a patologie (e conseguenti errori di previsione) molto più gravi.
Il bell’ articolo di Transtrum e colleghi[8] ci fornisce una rigorosa spiegazione matematica dell’apparentemente paradossale peggioramento della capacità previsionale al crescere del dettaglio della modellizzazione matematica. In termini estremamente semplificati, ciò che accade è che maggiore è il numero di equazioni variamente concatenate descriventi il modello, maggiore è l’effetto di un (anche piccolo) errore di stima dei loro parametri (sempre presente data l’impossibilità di eliminare completamente l’errore sperimentale). Questo errore si risolve in una sostanziale impredicibilità del comportamento a lungo termine del sistema.
I modelli che funzionano sono quelli che deliberatamente tralasciano le proprietà individuali (e.g. nel caso di una rete metabolica le cinetiche dei singoli enzimi coinvolti) a favore della definizione di pochi descrittori collettivi del sistema in studio. Ciò corrisponde al fatto intuitivo che i descrittori collettivi, corrispondenti a ‘medie’ sulle caratteristiche individuali, proprio per il loro carattere statistico, abbiano un effetto ‘compensatorio’ sugli errori.
Il punto cruciale è che questo non è solo un aspetto legato al nostro modo di studiare la natura, ma è una caratteristica precipua del mondo. L’emergere di un livello collettivo ‘statistico’ di funzionamento dei sistemi complessi (cioè costituiti da molti elementi interagenti) è una proprietà dei fenomeni naturali. Questo è un concetto molto antico: grandezze collettive come volume, pressione, temperatura sono alla base della termodinamica classica, il cui eccezionale potere predittivo fece esclamare ad Albert Einstein:
Una teoria è tanto più importante quanto maggiore è la semplicità delle sue premesse, quanto più diversi sono i tipi di cose che correla e quanto più esteso è il campo della sua applicabilità. Di qui, la profonda impressione che ho ricevuto dalla Termodinamica classica. E’ la sola teoria fisica di contenuto universale di cui sono convinto che nell’ambito di applicabilità dei suoi concetti di base non verrà mai superata”[9]
Ma allora, cosa è cambiato rispetto alla nascita della termodinamica, che ci spinge a tornare su questi concetti?
In un importante articolo del 1948 pubblicato su American Scientist dal titolo “Science and Complexity”[10] Warren Weaver, uno dei padri della teoria matematica dell’informazione, suggerì la possibilità di distinguere differenti aspetti della conoscenza scientifica in termini di: problemi semplici (problems of simplicity), di «complessità disorganizzata (problems of disorganized complexity) e infine di complessità organizzata (problems of organized complexity).
Egli identificava i primi con tutti quei problemi che potevano essere utilmente affrontati attraverso lo stile delle equazioni differenziali e che quindi si prestavano bene alla scoperta di ‘leggi generali di natura’. I problemi ‘semplici’ erano di fatto quelli che permettevano l’uso della matematica più ‘difficile’ in quanto consentivano una astrazione efficace degli enti studiati come, ad esempio, l’astrazione di considerare un pianeta un punto materiale che permette di arrivare a produrre modelli matematici accurati della dinamica gravitazionale.
Abbiamo appena commentato i problemi della complessità disorganizzata tipici della termodinamica, che consentono di arrivare a una precisione (e soprattutto ad una robustezza e applicabilità) ancora maggiore dei problemi a semplicità organizzata grazie a macro-parametri descritti a livello di popolazione. La regolarità e la precisione sono insomma una conseguenza della statistica e non del dettaglio.
In queste due situazioni la scienza si trova a proprio agio, i problemi nascono con la ‘via di mezzo’, quando un certo numero di enti interagiscono reciprocamente in maniera non trascurabile (complessità organizzata). Questo è il luogo dove abita la biologia (e anche l’economia e le scienze sociali, con ulteriori problemi legati alla difficile interpretabilità delle misure) e ai tempi di Weaver la scienza (intesa nel classico senso predittivo e non puramente descrittivo) aveva poco da dire.
La figura di seguito fornisce una visione sintetica dei tre mondi sopra delineati: i nodi della rete sono da intendere come gli elementi di base del fenomeno studiato, i legami (archi) dalle relazioni tra di essi.
La categorizzazione di Weaver resta ancora, a distanza di tanti anni, una provocazione epistemologica: ormai lo sviluppo di sofisticati metodi di analisi strumentale, permette di ottenere in contemporanea i dati rilevanti per costruire le reti di relazione riportate nel pannello di destra della figura. Allo stesso modo, sul versante computazionale, non esistono problemi degni di nota per trattare quantitativamente tali sistemi.
La termodinamica funziona bene perché è relativamente semplice derivare macro-parametri quando le interazioni reciproche tra gli elementi costituenti il sistema sono trascurabili, diverso è il caso della complessità organizzata dove la necessaria ‘sloppiness’[11] che ci salva dalla esagerata sensibilità (e conseguente fallacia) dei modelli troppo dettagliati non può essere ottenuta attraverso semplici medie.
Gran parte dei problemi scientifici oggi sono del tipo a ‘complessità organizzata’ e le patologie descritte nella prima parte dell’articolo dipendono in larga misura dal fatto che le ‘vie classiche’ (semplicità organizzata / complessità disorganizzata) si trovano a mal partito in questa mutata situazione. Non che non esistano tentativi (anche molto interessanti e promettenti) per intraprendere la nuova via (l’odierno interesse per le reti complesse ne è un esempio), il problema è più che altro di tipo ‘extra-scientifico’ e politico, e ha a che vedere con il ruolo sproporzionato della scienza nel fondare il pensiero dominante.
La considerazione della scienza come l’unico sapere ‘reale’ o comunque fondato, provoca come conseguenza il suo stabilirsi come ‘pietra di paragone’ o comunque ‘segno privilegiato’ dello stato generale del mondo. L’idea dominante è quella di uno sviluppo scientifico (e conseguentemente umano) lineare, senza battute d’arresto e cambi di direzione: è l’idea di progresso per cui oggi capiamo di più di ieri e meno di domani. Questo atteggiamento è talmente importante (tanto da essere una sorta di religione secolare del mondo) che annebbia la ragione a tal punto che nessuno sembra farsi domande molto semplici come quella di che senso abbia considerare come indice di benessere economico di una nazione l’aumento del PIL, ben sapendo che, in una situazione di risorse limitate non solo non è ragionevole immaginare una crescita indefinita ma non è neanche auspicabile. E’ lo stesso atteggiamento che informa gli articoli di alcuni commentatori sportivi che si meravigliano di come il record dei 100 metri piani sia fermo da molti anni attorno a 9.8 secondi e non si riesca a migliorarlo, senza pensare ai paradossi che questa crescita indefinita comporterebbe (dopo qualche tempo i velocisti si troverebbero ad arrivare al traguardo prima di essere partiti ..).
L’elenco delle follie legate alla ‘impensabilità’ della presenza di un qualsivoglia limite sarebbe infinito e lasciamo al lettore (se ne ha voglia e sufficiente senso dell’umorismo da non deprimersi) di provare a stilarlo..
Il punto è che la complessità organizzata ingombra la via degli scienziati e se non si vuole far spegnere il sacro fuoco del ‘progresso lineare e inesorabile’ che produce di pari passo conoscenza e tecnologia, bisogna trovare un opportuno dosaggio dei due ingredienti ‘semplicità organizzata’ e ‘complessità disorganizzata’ per superare lo scoglio. Torno a ripetere che tutto questo è un po’ folle, visto che la scelta ragionevole sarebbe quella di ammettere candidamente che siamo arrivati ad un punto in cui dobbiamo ripartire con la scienza di base, che darà i suoi frutti applicativi tra decenni, ma questa è, appunto, una bestemmia per la religione scientista. Il che implica che sicuramente che un (ristretto) gruppo di scienziati avrà modo di dedicarsi a fondare una ‘scienza della complessità organizzata’ ma la scienza ‘sotto i riflettori’, i grandi progetti internazionali, quella scienza insomma che paga gli stipendi a gran parte della mano d’opera scientifica dovrà continuare a ostentare la sicurezza in un progresso lineare e illimitato.
La soluzione dominante è allora quella di affidarsi completamente all’informatica e al catalogo dell’esistente, nella convinzione che la conoscenza totale sia già presente ma non utilizzabile, in quanto dispersa in mille rivoli: abbiamo bisogno di fare ordine e come per magia si costruirà un quadro coerente attraverso la potente tecnologia informatica.
Anche se il mezzo (la tecnologia informatica) è nuovo, questo tipo di soluzione è molto antica e tipica dei momenti di crisi conoscitiva, nella seconda metà del Cinquecento fiorì una vera e propria mania delle ‘catalogazioni totali e definitive’ che avevano nomi come ‘Theatrum Naturae’[12] o, addirittura ‘Universae Naturae Theatrum’ come nel libro del 1596 del francese Jean Bodin che nel sottotitolo spiegava come nel volume fosse compreso l’elenco completo delle ‘cause efficienti’ di tutti i fenomeni naturali[13].
Se l’ingenuità dei nostri antenati ci fa sorridere, forse il sorriso dovrebbe presto lasciare il posto alla preoccupazione se andiamo a scorrere i temi dominanti della ricerca finanziata dall’ Unione Europea per la biomedicina nell’ambito del grande e onnicomprensivo progetto ‘Horizon 2020’[14].
Ci accorgeremo della dominanza di temi come lo sviluppo di data base relazionali, di modelli puramente informatici che ricostruiscono la conoscenza globale dei fenomeni sulla base di una mera ‘catalogazione intelligente’ del già noto, facendo adombrare una sostanziale sostituibilità di nuova sperimentazione con diverse prospettive. E negli Stati Uniti la prospettiva non cambia[15].
L’aspetto paradossale è che questi supposti ‘sistemi intelligenti’ saranno nutriti dagli stessi risultati che si riconoscono essere in partenza fallaci.
L’insidia della complessità è quella di farsi passare per ‘complicazione’ e quindi potenzialmente affrontabile con la forza bruta del calcolo (informatica). Laddove complessità è solo un richiamo urgente a una nuova forma di semplicità che non richiede un impossibile ‘controllo totale’ dei dettagli ma la scelta di nuovi punti di vista ‘intelligentemente grossolani’. Ma questo è mestiere di persone pensanti e creative, non di macchine, e questo appare come un problema.
[1] Cfr. Ioannidis, 2005.
[2] Cfr. AA.VV., 2015.
[3] Cfr. http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002334.
[4] Cfr. Young, Karr, 2011.
[5] Cfr. Transtrum et al 2015.
[6] Cfr. Ronchi, 2010.
[7] Ibidem.
[8] Cfr. Transtrum, et al 2015.
[9] Einstein, 2010
[10] Cfr. Weaver, 1948.
[11] Cfr. Transtrum et al. 2015.
[12] Cfr. Ottaviani, Trabucco, 2007.
[13] Cfr. Bodin, 1956.
[14] http://ec.europa.eu/programmes/horizon2020/en/h2020-section/heal th-demographic-change-and-wellbeing.
[15] http://ntp.niehs.nih.gov/pubhealth/evalatm/3rs-meetings/past-meetin gs/aop-wksp-2014/index.html
Alessandro Giuliani, primo ricercatore, Istituto Superiore di Sanità, Roma (giugno 2016)