Giusto il McDonald di quello che sarà la cultura prossima ventura, ma mi ci  sono volute 900 parole ed una figura (scusate)

Nella biblioteca di Zampagna non sono passati, ma questi signori di google hanno passato gli ultimi anni a frequentare biblioteche, scannerizzare pagine e pagine di libri, estrarne il contenuto testuale mediante OCR e finalmente creare un corpus di 5 milioni di libri contenente piu’ o meno il 4% di tutti i libri pubblicati. Si tratta ‘solo’ del 4% ma è già una cifra che nessun essere umano potrà mai leggere: 500 miliardi di parole, le piu’ antiche delle quali stampate intorno al 1500. Volendo solo considerare quelle stampate a partire dal 2000, e assumendo una velocità di lettura di 200 parole al minuto, evitando accuratamente di mangiare e dormire potrei leggere il tutto in ottant’anni. Ci hanno tanto rotto i timpani con il progetto genoma, ma la sequenza del nostro DNA è lunga meno di un centesimo di questo corpus che poi altro non è che Google Books, ed è li’, sequenziato in qualche hard-disk del google-caveau. Se ne riparla adesso, perché lo scorso 16 dicembre, altri signori di Harvard hanno fatto una prima analisi computazionale di questo corpus e l’hanno pubblicata su Science: se un essere umano non puo’ leggere il tutto, puo’ forse farlo un computer. E qui siamo di fronte a due problemi che ad Harvard si sono posti: il primo è che i computer sono meno perspicaci degli uomini, e il secondo è che i legislatori (ovvero i detentori del potere legislativo) sono meno perspicaci dei computer. Prova infatti a chiedere a Peter Norvig (Director of Research at Google Inc), chiedetegli il full-text di tutti i libri: vi risponderà presumibilmente che la legge sul copyright impedisce di

riprodurre, trascrivere, memorizzare, tradurre, trasmettere in alcuna forma o con alcun mezzo elettronico, meccanico, magnetico, ottico, chimico, manuale o diverso senza il consenso scritto dell’editore.

Non a caso google è stata oggetto di class actions da parte di molti editori e scrittori ‘defraudati’ dal diritto di copia. Ma se la sequenza di parole è blindata, sembra non esserlo la singola parola. Ecco allora che ad Harvard si chiedono: quante volte una parola è rappresentata all’interno di questo corpus blindato che rappresenta forse quella cosa che piu’ si avvicina all’espressione globale della cultura scritta? E studiando queste ‘quante volte’ si è stampata una parola (ovvero la sua frequenza nel corso degli anni), è possibile investigare quantitativamente trend culturali? Le frequenze di utilizzo del corpus inglese, americano, francese, tedesco, spagnolo e russo sono disponibili e facilmente consultabili (provateci è divertente, scoprirete che Dio non è morto, ma ha bisogno di un miglior consulente d’immagine). Purtroppo l’italiano manca.

censura dell'artista Marc Chagall nel corpus tedesco durante il nazismo

Citazioni per 'Marc Chagall' nel corpus inglese (blu) e tedesco (rosso). E' indovinabile una censura tedesca durante negli anni del Nazismo, ed un effetto rimbalzo negli anni successivi. Al contrario, la serie inglese è piu' regolare (e meno interessata al grande pittore).

Nell’articolo di Science, gli autori mostrano l’utilità dell’analisi delle frequenze per una serie di inferenze riguardanti tra l’altro l’evoluzione del lessico, la regolarizzazione dei verbi irregolari, la memoria collettiva di eventi e di persone et cetera. La cosa forse piu’ interessante è lo studio della censura: per esempio, la censura nazista dell’artista ebreo Marc Chagall è evidente negli anni 1933-1945 se si compara il corpus inglese con quello tedesco (vedi grafico). Ma ci sono altri esempi (Trotsky in Russia, Tiananmen in Cina). Sembra sia addirittura possibile identificare de novo censure locali computando un ‘suppression index‘ e comparando corpus di diverse lingue. Stando a questa analisi, altre persone come Pablo Picasso, Walter Gropius e Hermann Maas non ricevevano molti imprimatur durante il terzo reich. Insomma, l’analisi testuale quantitativa puo’ essere di aiuto anche per gli storici.

Per me questo è solo l’antipasto. Il 4% della cultura su carta stampata, e per di piu’ passata al mini-piner per evitare sbattimenti legali. Giusto il McDonald di quello che sarà la cultura prossima ventura. Ora, io capisco che un autore/editore debba salvaguardare la propria arte, ma come ho già detto, reputo necessario ripensare il concetto di editoria e di copyright. Oggi (cito la siae):

i diritti di utilizzazione economica durano per tutta la vita dell’autore e fino a 70 anni dopo la sua morte. Trascorso tale periodo l’opera cade in pubblico dominio

Cosa? Dopo che Umberto Eco sarà morto, io dovro’ aspettare altri 70 anni prima di macinare algoritmi sul nome della rosa? Ma faccio prima veramente a leggermi tutto il corpus ‘ad occhio’! In un settore che gode di peggior fama di quello dell’editoria, le multinazionali farmaceutiche hanno solo 10 anni di brevetto su un farmaco prima che questo diventi di ‘pubblico dominio’ (ovvero il ‘generico’). Google sta pian piano accumulando altri corpus, vedi la Street View, di cui immagino sbocchi di simile impatto in architettura, urbanistica e sociologia. E i pochi fortunati Google Scholar e Google Health, il cui potenziale per la medicina e biologia è inimmaginabile. E noi cosa facciamo? Ci arrocchiamo in posizioni protezionistiche perché dalla foto di Street View si capisce che quello affacciato all’appartamento della mia amante ero io, e col cavolo che renderei di pubblico dominio la sequenza del mio genoma, mica che magari poi non mi passa l’assicurazione sulla vita. Il concetto di copyright, cosi’ come il concetto di privacy, secondo me sono anacronismi. Abolirli è ragionevolmente impensabile, tanto la nostra società è impreparata a riguardo. Ma invito a ripensarli sotto la luce dei limiti che essi pongono (e non alla protezione che ci garantiscono). Ah già, limite e protezione in latino sono espressi dalla stessa parola: limes. Googlatela.

Fonte:
L’articolo citato è: Quantitative analysis of culture using millions of digitized books, di Jean-Baptiste Michel et al., Science 16 dicembre 2010. doi:10.1126/science.1199644

Annunci