[06/11/2008] Comunicati

The dark side of the web

FIRENZE. Il lato oscuro del web sta per essere illuminato. E – come era da aspettarsi – sarà Google a guidarci rischiarando gli angoli tenebrosi della biblioteca universale. Il blog dell’azienda californiana ha infatti annunciato la settimana scorsa di aver messo a punto un’evoluzione del programma Ocr (Optical character recognition), che consentirà così di riconoscere – e quindi indicizzare sul motore di ricerca – file finora non identificabili, come la gran parte dei documenti scannerizzati.

La notizia è rilanciata oggi da “Nova”, supplemento del Sole 24 ore. In termini comprensibili, il programma Ocr è definibile come un occhio elettronico dotato di scanner, analogo a quei dispositivi che permettono ai centri di smistamento postale di riconoscere indirizzi e mittenti decifrando parole scritte con la calligrafia dei vari utenti, e non a macchina. Sul web, molti dei documenti che vengono resi pubblici (pensiamo al web 2.0: nei forum e nei blog è tipico rinvenire file scannerizzati dagli utenti e condivisi con gli altri) non sono file di testo (agevoli da scansionare), ma immagini di file di testo.

Ciò finora rendeva difficile ai sistemi Ocr usati da Google di riconoscere il testo nella sua totalità: sul blog del motore di ricerca viene fatto l’esempio della lettera “O”, che i programmi finora utilizzati potevano leggere come lettera, ma anche confondersi e interpretarla come “numero zero” (0) o come una macchia di caffé lasciata da uno scansionatore troppo distratto. In conseguenza del rischio di queste malevole interpretazioni, finora l’azienda di Mountain View aveva evitato di introdurre nei suoi risultati quelli ottenuti da file scannerizzati con i sistemi Ocr e tramutati in formato .Pdf, o perlomeno si era limitata a segnalarli senza però attribuire altri elementi di riconoscibilità, come le brevi didascalie che abitualmente troviamo sotto i risultati forniti da Google.

Da oggi le cose cambiano: il product manager dell’azienda californiana, Evin Levey, annuncia sul blog che – da oggi in poi – qualsiasi documento scansionato, ridotto in formato .pdf e pubblicato sul web sarà indicizzato da Google al pari di tutti gli altri file, sia che si tratti di un documento scritto, sia che si tratti dell’immagine di un documento cartaceo scritto. Il prossimo passo verso quella che Google chiama «la propria missione di rendere tutte le informazioni del mondo accessibili e utilizzabili» sarà l’evoluzione dei programmi di “lettura” delle immagini, che permetterà di accedere a immagini digitandone le parole-chiave: una possibilità già oggi accessibile (basta vedere Google images), ma solo attraverso parole-chiave (tag words) scelte dagli utenti che inseriscono l’immagine: per chiarirci, se oggi cerchiamo la parola “albero” sul motore di ricerca delle immagini troveremo non tutte le immagini indicizzate che ritraggono un albero, ma solo quelle a cui l’autore (o chi le ha introdotte nel web) ha dato un titolo contenente la parola “albero”.

Comunque, a parte le altre future applicazioni, occorre dire che Google compie un altro passo verso la creazione di una vera e propria biblioteca universale. E, ovviamente, tanto di cappello a chi sa così bene coniugare i propri affari con fini costruttivi.

C’è però un rovescio della medaglia: come abbiamo già scritto più volte su greenreport, in ogni biblioteca esistono libri avvelenati, in certi casi addirittura si possono ritrovare infamie analoghe ai famosi “Protocolli dei savi di Sion”, fascicoli cospirazionistici riguardanti il popolo ebraico che ebbero grande diffusione agli inizi del secolo scorso, e che poi fu scoperto essere stati prodotti ad arte a fini diffamatori, probabilmente dalla polizia segreta dello Zar di Russia. Bene, in una qualsiasi biblioteca fascicoli di questo genere sono rintracciabili, ma con difficoltà, nascosti come sono in angoli bui e polverosi. E nella biblioteca virtuale? Nella biblioteca virtuale essi non sono nascosti per niente, basta pensare alla questione climatica e alle mille e mille bufale negazioniste che affliggono la libera informazione sul web. Cercando notizie sul surriscaldamento climatico è piuttosto facile imbattersi in siti dove tutto ciò che diamo ormai per appurato (per esempio, l’esistenza del surriscaldamento indipendentemente dalle sue cause antropiche o meno) è messo in discussione ogni giorno.

E non ci sarebbe niente di male se i fini fossero speculativi, poichè lo scetticismo è la base della scienza sperimentale. Ma i fini sono ben altri, e non è difficile ad un occhio abituato riconoscerli tra le righe. Come spesso non è difficile riconoscere, sotto la maschera di innocui navigatori del web 2.0, le mentite spoglie di chi cerca ad arte, per motivi politici, di diffondere informazioni false o tendenziose, per poi introdurle in dibattiti dove esse avranno valore di “legittima opinione altrui” da “rispettare”, in nome dell’equivalenza delle idee opposte.

Questo sembra il rischio maggiore che è insito nelle nuove possibilità di accesso ai documenti messe a disposizione da Google: sul web basta una buona capacità di “impacchettare” le proprie notizie, o magari la costanza di rilanciare le discussioni create, o magari ancora di far sì che il link al proprio sito salga più in alto nella pagina di Google attraverso un uso astuto degli algoritmi usati dal motore di ricerca, e il gioco è fatto, e senza bisogno di tirare fuori un euro. Ed ecco che, tramite una veloce ricerca sul web, è facile imbattersi in “nuove ricerche” che assegnano agli alieni un importante ruolo nel surriscaldamento climatico, o che raccontano come la temperatura media globale “non sia più cresciuta dal 1998”. Dunque come sempre sottolineiamo, l’approfondimento e la capacità critica personale debbono essere il filtro attraverso il quale leggere tutto quello che troviamo sul web, perché è questa l’unica arma di difesa contro che anche on line spaccia informazioni false.

Torna all'archivio