Quanto è grande il web e in che percentuale i documenti della grande ragnatela vengono indicizzati dai motori di ricerca e da Google in particolare? La realtà è che una grande parte del web non viene indicizzata dai motori per limiti oggettivi e la quantità di informazioni presenti nel database dei motori di ricerca appare un po' come un iceberg, la cui punta è visibile al di fuori dall'acqua ma di cui una gran parte rimane sommersa e non visibile. Proprio questa parte del web non visibile viene definita “web profondo” o “web invisibile” (in inglese “deep web”).
Gli operatori del settore non sono concordi sulle cifre ma c'è chi stima che i documenti non indicizzati siano addirittura dalle 20 alle 100 volte quantitativamente più grandi rispetto ai contenuti attualmente indicizzati.
Eppure i motori di ricerca sono in recupero, rispetto al passato, ed hanno cominciato, Google in testa, ad indicizzare contenuti che sfuggivano precedentemente agli spiders: si pensi ad esempio alle pagine dinamiche (asp, php, jsp, cf ecc.) le cui url contengono i cosiddetti caratteri jolly (“=”, “&”, “?” ecc.) che prima venivano direttamente scartate dallo spider mentre ora vengono parzialmente lette ed indicizzate, oppure ai documenti word e pdf per non parlare dei documenti flash.
Ma nonostante l'evoluzione della tecnologia dei motori di ricerca ai fini di una migliore e più completa indicizzazione, rimane comunque molto grande il web non visibile ad essi. Ogni contenuto web infatti, per essere visto dallo spider (o crawler) deve avere almeno un link che lo indichi rendendo possibile il raggiungimento del documento, senza alcun blocco causato da registrazioni, accesso riservato, autenticazioni ecc., poiché in questi casi lo spider, così come le persone non autorizzate, è costretto a fermarsi e procedere oltre.
Ci sono poi i database online che sono accessibii solo mediante una apposita interrogazione le cui pagine web in realtà non esistono in senso tradizionale in quanto vengono create “al volo” e temporaneamente dietro la specifica richiesta di un utente. Molti di questi documenti spesso non sono nemmeno dotati di un vero e proprio indirizzo (url) raggiungibile con un link.
Infine ci sono le intranet aziendali, i siti privati, i cui documenti non sono accessibili né dagli utenti né, tantomeno, dai motori di ricerca.
L'irrompere del Web 2.0. con l'avvento dei blog e l'affermazione delle communities e degli altri strumenti di condivisione delle informazioni ha enormemente ingrandito la quantità di documenti e informazioni che si sono così aggiunte sia al web “indicizzabile” che al “web profondo”.
Per i motori di ricerca dunque la prossima sfida e il prossimo teatro di competizione sarà quello di riuscire ad affinare le proprie tecniche di indicizzazione al fine di poter restituire alle ricerche degli utenti i risultati quantitativamente maggiori e più correlati. E' prevedibile che in questa nuova partita il solito Google si affermerà come primo della classe.
Stefano Mc Vey
Articoli correlati:
| Quali sono dunque i motori di ricerca e le directories su cui e' opportuno attuare l'indicizzazione? A questa domanda si puo' rispondere solo considerando ... |
| CDUWEB Internet Marketing e' una web agency specializzata nell'indicizzazione, inserimento, posizionamento e promozione dei siti web sui motori di ricerca.
|
| CDUWEB Internet Marketing organizza corsi per il posizionamento sui motori di ricerca e tecniche di webmarketing. Certificazione come search engine ... |
| migliore indicizzazione dello spider di Google e maggiore presenza sul suo database;; contenuti del sito sempre aggiornati nei risultati di ricerca; ... |
| Casi reali consultabili on line del nostro servizio di indicizzazione siti web sui motori di ricerca. Forse gli utenti meno giovani si ricorderanno di uno ... |
| Msn e Yahoo, adottano sistemi analoghi, in special modo il secondo con la possibilità di indicizzazione di files xml, ma la novità, assai gradevole per noi ... |
| Mediante l'utilizzo di questi programmi l'operazione di indicizzazione era estremamente veloce in termini operativi e comoda per l'operatore che, ... |
| Posizionamento garantito del sito fra i primi venti risultati dei motori di ricerca. I nostri servizi. RISULTATI GARANTITI AL 100%, SODDISFATTI O RIMBORSATI ... |
| Google Sitemaps: nuovo standard per l'indicizzazione su Google ... Utilizzo delle mappe del sito per l'indicizzazione nei motori ... |
Se poi questi links provengono da Yahoo! e da Dmoz il valore dei links ricevuti è tale da spingere Google a fare anch’esso l’indicizzazione del sito in ...
|