Come funziona Google

Si stima che il motore di ricerca Google indicizzi solo il 10% del web esistente e che il rimanente, il grosso non indicizzato, sia sommerso da una marea di errori e facilonerie che spesso si riscontrano nei siti poco autorevoli. Ma come funziona esattamente Google? Subito si capisce che Google non effettua una ricerca sul web, ma su sé stesso, ovvero sulla parte della rete che è in grado di indicizzare.

A scanso di equivoci occorre precisare che, nonostante Google venga considerato come un “essere” pensante, attivo, rimane, almeno per chi dichiara di conoscerlo bene, un coacervo di algoritmi e formule matematiche tesi a fornire risposte congruenti a domande appropriate. Quindi, Google è un software di indicizzazione, costituito da due elementi fondamentali:

  1. Il datacenter, ovvero la tabella o il database sul quale viene indicizzato tutto il web che riesce a indicizzare;
  2. Lo spiderbot, cioè googlebot, un particolare programma in grado di seguire i collegamenti sulla rete (hyperlink) e scaricare le pagine sul database;

Il lavoro coordinato tra questi due elementi forma il processo di indicizzazione, ovvero la catalogazione di un dominio e delle sue pagine all’interno della tabella di Google. Quando un utente effettua una ricerca da Google non fa altro che sondare l’indice delle pagine scaricate in tabella. E’ per questo motivo che Google è tanto veloce nel fornire una risposta: perché non cerca nell’intero web, che si stima essere appunto nove volte più grande di quello che riesce a scaricare il motore di ricerca, ma all’interno del proprio database. Con delle conseguenze che non è difficile immaginare.

Nei tratti fondamentali dell’indicizzazione hanno una rilevanza i link, ovvero quei collegamenti a pagine (interne o esterne), che normalmente un sito web ospita, implementando semplicemente il linguaggio di scrittura base del web, l’html, attraverso i comandi di decodifica dei browser. Google, fin dal principio, è stato ideato e sviluppato come motore di ricerca basato sul link.

indicizzazione googleA differenza dei suoi predecessori Google scandaglia la rete lanciando googlebot su siti principali, definiti hub, ai quali, come dei nodi nelle comunicazioni satellitari e radio, sono agganciati tutti i siti della rete ipoteticamente indicizzabile. Gli esperti del settore ritengono che Google scelga manualmente i siti hub (es,: wikipedia, repubblica, cnn, disney, nasa… et cet), per definire una sorta di controllo umano sull’autorevolezza di alcuni domini. Posto che sia vero non cambia la natura delle cose, se l’autorevolezza viene attribuita tutta attraverso gli algoritmi matematici, ai quali sono legati i cosiddetti fattori di posizionamento e indicizzazione.

Di sicuro, la rilevanza di un sito si può misurare nella distanza intercorrente tra lo stesso sito e un sito hub, in termini di link crossing e link proximity, di incrocio e vicinanza tra pagine linkate. La famosa teoria del sesto grado di separazione spiega bene questo meccanismo, illustrato nella figura in alto. Il sito F e il sito E ricevono pagerank e autorevolezza dal Sito HUB attraverso collegamenti a catena tra i siti intermedi. Tanto è più lunga la catena di collegamenti tra siti hub e siti periferici, tanto minore è il tasso di autorevolezza e indicizzazione del sito. Per questa ragione si può affermare correttamente che il processo di posizionamento e indicizzazione di un sito equivale a una crescita di autorevolezza.

This entry was posted in Indicizzazione. Bookmark the permalink.

I commenti non sono abilitati.