giovedì 27 dicembre 2007

Ma le analisi filogenetiche ricostruiscono la Storia?

Il post sugli alieutotteri (oggetti artificiali che mimano oggetti darwiniani) ripropone un diLemma pregnante la mente di chi, come me, si occupa di ricostruzione di catene (prei-)storiche di eventi: ovvero quale sia la possibilità di effettuare tali ricostruzioni. Le esche non si sono differenziate sotto l’effetto di spinte evolutive naturali (darwiniane), bensì sotto l’azione di processi culturali (lamarkiani) finalizzati alla realizzazione di un progetto, eppure la loro distribuzione nel campo delle forme produce un albero storico plausibile, sebbene probabilmente falso. Tuttavia, siamo sicuri che anche le nostre ricostruzioni storiche naturali siano attendibili? In particolare, il nostro metodo (l’analisi filogenetica) quanto è attendibile? Per rispondere (in parte) a questa domanda, ho elaborato un test.
Un anno solare è una serie storica la cui consequenzialità (alla scala umana) è indiscutibile. Nessuno può obiettare che Gennaio 2007 sia precedente a Marzo 2007 e a Giugno 2007, i quali sono tutti precedenti a Ottobre 2007. Sulla base di questa ovvietà, è possibile elaborare un albero evolutivo dei mesi dell’anno 2007, avente Gennaio alla base e la coppia Novembre - Dicembre come nodo terminale. Analogamente con le analisi filogenetiche, ogni nodo deve essere contraddistinto da caratteristiche diagnostiche assenti nei nodi immediatamente precedenti. Nel caso dei mesi, eventi accaduti nel bimestre finale devono necessariamente aver prodotto conseguenze che NON sono documentate negli altri mesi. Questo criterio ci permetterebbe, in teoria, se non conoscessimo la disposizione cronologica dei mesi, di ricostruirla sulla base della distribuzione più parsimoniosa degli eventi accorsi nell’anno. Per rendere l’analisi non-tautologica non dovrò usare eventi che hanno al loro interno un indicatore temporale (ad esempio: non ha senso accomunare Novembre e Dicembre sul fatto che entrambi distano meno di 60 giorni dal 2008), ma solo caratteristiche condivise che, in teoria, non dovrebbero dare alcuna indicazione sulla posizione nel tempo. Al contrario, catene di eventi che hanno necessariamente una sequenza ordinata (nel senso che non danno indicazione specifica sulla posizione nell’anno, ma sono nondimeno sequenziali e quindi vincolati a seguire un ordine cronologico: ad esempio la serie “preparare un evento - l’evento si verifica”) sono state considerate utili per l’analisi. La condizione primitiva di ogni carattere è quella che è verificata anche nell’anno 2006. Ho cercato di immettere anche eventi “omoplastici” ovvero eventi che possono verificarsi più volte indipendentemente l’una dall’altra, per rendere il test più realistico. Per semplificare le codifiche, assumo che un evento appartiene ad un mese se ne occupa almeno metà del tempo.
I caratteri che ho utilizzato sono tratti dalla mia vita personale e da eventi di cronaca pueblica:
Si citano ripetutamente gli eventi del Monte Fuso: no (0); sì (1).
Al MSNM si studia uno pterosauro libanese: sì (0); no (1).
Irina è un personaggio (mitologico?) citato nella bandiera del Pueblo: no (0); sì (1).
Il Demiurgo è accoppiato: no (0); sì (1).
Curz lavora: no (0); sì (1).
Il romanzo “***” è terminato: no (0); sì (1).
Numero di dottori magistrali domiciliati/residenti al Pueblo: uno (0); due (1); tre (2).
Muttificazione: no (0); sì (1).
“Swarosky” è un epiteto dotato di significato pueblico: no (0); sì (1).
Al Pueblo è presente uno scooter: no (0); sì (1).
Il Puma di Blisshill ha un metacarpale rotto: no (0); sì (1).
Il Demiurgo porta la barba: no (0); sì (1).
Clastu consuma patate intelligenti: no (0); sì (1).
Esiste il blog “UltRazionale”: no (0); sì (1).
Con questi dati ho provato una prima analisi, la quale NON ha prodotto la topologia reale (la sequenza cronologica Gennaio, Febbraio, ..., Novembre, Dicembre) bensì un consenso di 6 topologie che con la sequenza reale ha in comune solo una vaga affinità dei mesi finali rispetto a quelli iniziali.
Ciò significa che la distribuzione più parsimoniosa dei 14 dati usati sopra NON è la distribuzione temporale REALE degli stessi.
Per avere la topologia reale è necessario forzare il risultato dell’analisi, ma a costo di avere un albero che è meno parsimonioso (di 2 steps) rispetto a quello ottenuto. Questo risultato si spiega facilmente osservando che abbiamo immesso pochi dati. L’uso di solamente 14 caratteri per risalire alla sequenza di 12 mesi è poco produttivo, sopratutto se abbiamo usato alcuni caratteri omoplastici. Per far capire la questione: teoricamente, n oggetti possono essere disposti in [(2n-3)!]/[2(n-2)(n-2)!] (nota matematica: nella formula appena scritta, il punto esclamativo “!” è il simbolo matematico dell’operazione fattoriale, e non un’esclamazione...) alberi dicotomici distinti, quindi i 12 mesi possono produrre quasi 14 miliardi di alberi distinti: ma di questi, solo 1 è quello reale!!
Per migliorare l’analisi, ho aggiunto altri caratteri, in modo da restringere ulteriormente il numero delle possibili soluzioni:
Esiste un veicolo chiamato Freelemmer: no (0); sì (1).
Il Demiurgo termina le paleotavole e viene pagato: no (0); sì, ma non è ancora pagato (1); sì e viene pagato (2). Carattere ordinato.
La Pueblica Ragazza della Porta Accanto ha una MG-car verde: no (0); sì (1).
Clastu è (pseudo)accoppiato: no (0); sì (1). (Inutile rimarcare che questo carattere non è necessariamente ridondante col carattere 13).
Esiste un articolo che parla di unguali abelisauroidi malgasci del batoniano: no (0); sì (1).
Al Pueblo esiste un perizoma maschile leopardato: no (0); sì (1).
Di fianco al Pueblo esiste un appartamento multietnico intercontinentale: no (0); sì (1).
Anche dopo l’immissione di questi dati, non si ottiene l’albero reale (il quale è ancora di 2 steps meno parsimonioso del risultato). Ad ogni modo, sebbene ancora falso, questo nuovo albero è più realistico del precedente:

Continuiamo ad aggiungere caratteri (dopotutto, la Storia comprende tutti gli eventi, quindi una sua ricostruzione sarà tanto più fedele quanto più dettagliata):
La Megamatrice ha più di 750 caratteri: no (0); sì (1).
MSMN V3882 ha un nome specifico (che non posso ancora divulgare): no (0); sì (1).
Esiste (o persiste) una bicicletta al Pueblo che non appartiene a nessuno dei pueblici: no (0); sì (1).
Al Pueblo Orientale (dimora meridionale del Clastu) esiste un divano diabolicamente comodo: no (0); sì (1).
Esiste un surrogato statale di scimmia con un bisturi in mano: no (0); sì (1).
Il Demiurgo ha abolito il Primo Dogma Tanatophobico (ed istituito la Festa del Theropode Derivato).

Finalmente otteniamo una topologia (di due alberi ugualmente parsimoniosi) che rispecchia quella reale dei mesi, con l’unica nota che PAUP non è stato in grado di stabilire la posizione temporale di Marzo rispetto a Febbraio: probabilmente perché ho immesso pochi dati significativi per quel periodo dell’anno. Tuttavia, reimpostando PAUP per dare pesi differenti ai caratteri sulla base della loro distribuzione, si ottiene la topologia reale.
Da ciò deduciamo che solamente con una robusta serie di dati è plausibile ricostruire la serie degli eventi storici: fissarsi su alcuni dettagli, trascurandone altri, porta inevitabilmente a ricostruzioni (più) deformate.

Nel prossimo post, descriverò gli eventi del 2007 citati sopra seguendo la loro sequenza così come viene riprodotta da PAUP: sarà interessante vedere se/come essa di discosti da quella reale.

1 commento:

-I COMMENTI ANONIMI SARANNO ELIMINATI