Come probabilmente molti sanno Google ha più di uno spider che compie il lavoro di crawling, ovvero di ricerca ed analisi dei contenuti delle pagine web che andranno ads essere inserite nell'indice generale di Google. Se si guarda ai propri files di log ci si accorge che esistono diverse stringe relative allo spider di Google.
Per esempio lo spider che esegue il crawling per l'indice generale di Google è riconoscibile dalla seguente stringa:
Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)
Ma è ancora visibile in certi casi una precedente versione di Googlebot con il seguente log:
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Google Images è lo spider dedicato all'indicizzazione delle immagini del web ed è identificabile dalla seguente stringa:
Googlebot-Image/1.0
Mentre Google Mobile è lo spider dedicato all'indicizzazione di tutte le pagine web per palmari e telefoni cellulari, con la seguente stringa:
Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Infine c'è anche Ad Sense/Mediabot che è utilizzato per determinare quali messaggi del circuito AdSense appariranno nelle vostre pagine. Questo è riconoscibile dalla seguente stringa.
Mediapartners-Google/2.1
Nell'ambito dell'update Big Daddy, il più recente ed uno dei più significativi e notevoli di tutti i tempi, Google ha provveduto a modificare iul sistema dell'attività di crawling.
Attualmente, infatti, Google impiega un grande dispendio di risorse e di banda, per compiere appieno il lavoro di indicizzazione.
Facciamo un esempio: diciamo che il vostro blog mostri gli annunci del circuito AdSense: questo significa che Google dovrà indicizzare il sito due volte: una prima volta col lo spider GoogleBot per i risultati tradizionali, l'altra con l'apposito spider AdSense ed una terza con il Blog Spider.
Una grossa perdita di banda e di risorse non vi pare? La novità è ora che gli spiders di Google avranno la capacità di dialogare e condividere informazioni tra di loro, con il risultato che, se una determinata pagina web è già stata visitata dallo spider GoogleBot, AdSense Googlebot, così come gli altri spiders, immagazzineranno i dati prelevati da esso, piuttosto che visitare nuovamente la stessa pagina web.
Tutto ciò cosa significa e che risultato porta per il vostro sito?
Prima di tutto se siete abituati ad osservare i vostri logs potrete notare in futuro una strana nuova tendenza da parte degli spiders di Google e saputo quanto sopra detto sarete consapevoli che non si tratta di errori, ma di una nuova policy voluta ed attuata dal grande motore di ricerca.
E' altresì importante sapere che il nuovo modo con cui Google indicizzerà il vostro sito non avrà alcun impatto sul vostro posizionamento n' sulla sua frequenza e profondità di crawling.
Per esempio, se vi iscrivete al circuito AdSense il bot di AdSense farà (cosa che avviene normalmente) l'indicizzazione del sito in un lasso di tempo variabile fra i due e i tre giorni. Ma ciònon significa che il sito comincerà ad apparire immediatamente nei risultati di ricerca tradizionali, per i quali il sito dovrà essere indicizzato dallo spider principale (GoogleBot) e potranno passare da diversi giorni a settimane per vedere il sito incluso nell'indice generale. L'inclusione dipenderà, come sempre avviene, soprattutto dalla qualità e quantità dei links esterni che il sito riceverà.