Informació massiva
La paraula anglesa és big data i descriu un fenomen que tindrà repercussions importants. Mai hem tingut els humans tanta informació, molta d'ella directament accessible a traves les xarxes, però la qüestió no és l'accés que disposar de molta més informació obliga a canviar la manera d'utilitzar-la. Al segle III la major part de la informació d'Occident (Orient era diferent) estava emmagatzemada a la biblioteca d'Alexandria. Avui, si tota la informació existent es repartís entre els habitants del planeta, cada un disposaria de 300 vegades més informació de tota la que hi havia a Alexandria.
La capacitat de guardar electrònicament la informació ha augmentat exponencialment el seu volum. L'any 2000 el 25% de tota la informació es guardava electrònicament; avui és el 98%. L'ús de grans quantitats d'informació té tres conseqüències per a la seva explotació. La quantitat pot ser un substitut de l'exactitud. Quan es tenia i s'utilitzava poca informació era important que les dades fossin exactes; quan se'n té molta el seu volum fa irrellevant que una part sigui inexacta perquè la quantitat de dades corregeix els errors, uns compensen els altres. Fins ara, amb relativament poca informació, la recerca i el coneixement es basava en la cadena de causes i efectes; ara, amb molta informació, el que és rellevant no és la causa sinó la correlació. Si tenim molta informació no sabrem per què un fenomen succeeix però sí que constatarem que està relacionat amb altres fenòmens que quan passen, aquest es produeix. El gran volum d'informació no permet respondre a per què passa el que passa però sí al fet que si una cosa passa, altres aparentment no relacionades amb la primera passen també, i per tant la conseqüència és clara, una qüestió arrossega l'altra i si es produeix un fenomen, l'altre també. Finalment disposar de molta informació obliga a tenir eines per explotar-la, no és a l'abast humà fer-ho, la manera de treballar necessàriament canvia, com diuen Kenneth Cukier i Viktor Mayer-Schoenberger en un recent assaig sobre la qüestió, descobrirem que una part important de les nostres vides està controlada per la probabilitat més que per la certesa.
L'estadística és un invent del segle XIX que permet inferir resultats a través de mostres relativament petites i, per tant, que han d'estar necessàriament ben seleccionades. Errors en la selecció de la mostra porten a l'error. Quan la mostra es multiplica en dimensió per mil o per un milió, triar bé la mostra esdevé irrellevant i la seva mateixa dimensió permet seccionar-ne una part i conèixer coses que no eren abans al nostre abast, perquè si s'hagués fet la mostra seccionada no hauria tingut dimensió suficient. Abans podíem saber els gustos musicals de la gent de Girona; avui, què els agrada als que tenen entre 20 i 30 anys en un determinat barri... El fet que l'exactitud hagi disminuït la seva importància permet recollir informació a l'engròs, sense refinar i triar perquè una vegada recopilada es pot tractar, polir, associar, referenciar, etc. Per recollir informació ara importa més la capacitat, guardar-ho tot, abans que la selectivitat, guardar el que és correcte i no conté errors.
La creació d'un traductor automàtic d'anglès i francès la va dur a terme fa anys IBM sobre les transcripcions de les sessions del Parlament canadenc disponibles en anglès i francès perquè el llenguatge era precís i la traducció, correcta. Es tractava de buscar la traducció més adequada de cada paraula en un context, aquest és exactament l'atribut clau d'una bona traducció, perquè tan important és la paraula concreta com la frase; és a dir, el paràgraf en què se situa. La base eren els milers de pàgines de les transcripcions del Parlament, per tant una “població” relativament petita, i el resultat va ser mediocre malgrat les eines d'interrelació i estadística utilitzades. Anys mes tard el treball el va repetir Google amb una base de textos no seleccionats, traduïts en anglès i francès milions de vegades més gran, i el resultat ha estat satisfactori. La traducció automàtica de textos té avui un nivell alt de precisió. La raó principal per a la diferència de resultat és sens dubte la dimensió de la mostra.
Un avantatge no menor de la capacitat de gestionar gran quantitat d'informació és la possibilitat de fer-ho de manera permanent en el temps, i per tant tenir la possibilitat d'actuar quan una relació de dades dins d'uns rangs determinats coincideixen en el temps. En medicina aquesta qüestió és important si es poden controlar de manera permanent un número alt de constants vitals, perquè per exemple conèixer que una crisi de l'organisme pot tenir lloc en un malalt en observació és més important que conèixer les causes per les quals la crisi es produeix, perquè permet prevenir els seus efectes i actuar fins i tot abans que aquests hagin tingut lloc. El mateix es pot dir respecte de la focalització en els tractaments tant en el qui com en el què i el quan. Si es pot focalitzar es pot millorar l'eficiència de les accions, i per tant reduir el cost sense afectar el resultat. El tractament de gran volum d'informació permet inferir el futur a partir del passat, encara que aquesta predicció té limitacions òbvies perquè ni la vida ni la societat es mouen en cercles idèntics i repetitius, però en el cas de fenòmens de gran complexitat, com passa en economia, aquesta predicció d'un resultat a partir de moltes variables independents és certament útil perquè pot ser modelitzada.
S'ha iniciat el que ja es coneix com el predicting policing, és a dir, la predicció de risc de delicte a través de l'anàlisi de moltes dades de la ciutadania i la societat, però això porta inevitablement a envair la privacitat de les persones i aproxima el fenomen al big brother que ho controla tot i ho vigila tot trencant la privacitat i violant la intimitat. La raó adduïda per fer-ho des dels poders públics és sempre la mateixa: evitar a la ciutadania danys malgrat el condicionament de la seva llibertat individual i social. És un fet de total actualitat que afecta les primeres potències del món, ara en especial els EUA i el Regne Unit. Hi ha d'haver límits per a la invasió de la privacitat malgrat que la decisió dels governs és comprensible per tal de protegir la seva ciutadania. És potser aquest un dels pitjors efectes deixats pel terrorisme... Com diuen Cukier i Mayer-Schoenberger, la informació massiva és un recurs i una eina, informa més que explica, porta coneixement, però pot conduir a la confusió, pot ser enlluernadora pel poder que atorga a qui la té, però portar l'abús i el dany a tercers. En la seva força radica la seva utilitat i perillositat.