Google e la duplicazione dei contenuti

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 



Come è noto il motore di ricerca Google è in grado di rilevare quando un contenuto non è unico ed originale attraverso uno specifico filtro presente nel suo algoritmo e ci sono casi in cui il contenuto duplicato è visto come un'azione di spam in quanto nelle linee guida di Google si afferma: “.....Non creare più pagine, sottodomini o domini dai contenuti sostanzialmente duplicati. ....”.

In quanto spam il contenuto duplicato è punibile attraverso le penalizzazioni di Google, dunque la domanda che sorge spontanea è: quanto diverso deve essere un documento rispetto ad un altro per poter essere classificato come contenuto unico ed originale evitando così di ricadere nella fattispecie di contenuto duplicato?

Per rispondere alla domanda occorre subito precisare che non esiste una esatta percentuale di contenuto duplicato che faccia scattare il filtro contro la duplicazione dei contenuti. Occorre più che altro fare attenzione per evitare di realizzazione una serie di situazioni che possono generare la fattispecie penalizzante. Ad esempio se su un sito ci sono molte pagine web e su ciascuna di esse c'è un identico contenuto, allora è probabile che il filtro di Google entrerà in funzione. Analizziamo alcune ipotesi:

  1. una versione “printer friendly”di una pagina web può produrre la coesistenza di due pagine web con lo stesso identico contenuto, di cui magari una versione inserita dentro la layout grafico, e l'altra “pulita” ad hoc per la stampa del documento;
  2. un blog con i suoi archivi per data e categoria potrebbe generare la coesistenza di uno stesso post su più pagine web;
  3. un content management system (cms) che assegni url multiple ad una stessa pagina web....
    in questi casi si realizza un problema di contenuti duplicati.

Sebbene i casi sopra esposti siano del tutto innocenti e non ci sia alcuna strategia occulta la conseguenza degli stessi è la configurazione di casi di contenuto duplicato che possono essere penalizzati o quantomeno finire nell'indice dei risultati supplementari di Google, rimanendo così al di fuori dei risultati che contano!

Si potrebbe obiettare che molto spesso un sito ricorre all'utilizzo di un template identico per tutte le pagine del sito (quindi: stessi headers, stessi footers, stessi elementi di navigazione, links, menu ecc.) e quindi anche in questi casi si potrebbe configurare a rigor di logica una situazione di duplicazione dei contenuti.

La provocazione è giusta e fondata ma Google è piuttosto abile nel riconoscere, individuare e valutare separatamente le parti statiche di una pagina rispetto al contenuto unico di cui la stessa è portatrice.

E' altresì vero che abbiamo assistito a casi in cui elementi del template particolarmente “pieni” posizionati prima del contenuto unico nel codice html hanno causato l'immissione della pagina tra i risultati supplementari di Google, soprattutto quando la colonna di sinistra può causare allo spider di processare una quantità eccessiva di testo prima di riuscire a giungere al contenuto unico della pagina. Una soluzione è dunque quella di ottimizzare le tabelle e il codice html della pagina web per una maggiore lettura e scansione da parte degli spiders; un'altra soluzione è quella di convergere verso una scelta di menu di navigazione più usabili con la creazione di menu di navigazione di dimensioni più ridotte.

Quando i motori di ricerca trovano un contenuto duplicato su diversi siti generalmente procedono all'indicizzazione della fonte originale del contenuto e, individuando le altre pagine come contenuti duplicati, le inseriscono nei loro risultati supplementari.

Tipicamente, al fine di decidere se un contenuto sia duplicato, i motori di ricerca valutano:

  • dove è stato trovato il contenuto per la prima volta (quale pagina e quale sito);
  • quale tra le pagine/siti portatrici del medesimo contenuto riscuote maggiore fiducia e credibilità (migliori links, dominio più anziano, page rank più elevato ecc.);
  • se il contenuto duplicato contiene un link verso la pagina originale.

Come regola generale, se una pagina contiene il medesimo contenuto di un'altra, allora è probabile che sarà rimossa dall'indice principale e inserita nell'indice secondario dei risultati supplementari mentre se una pagina è solamente simile ad un'altra, nel senso che con essa condivide diversi elementi (come quelli del menu di navigazione o altri snippets di codice) allora generalmente non viene individuata come contenuto duplicato.

Stefano Mc Vey

 

Articoli correlati:

Il contenuto duplicato e la sua penalizzazione sui motori di ricerca

I motori di ricerca nella valutazione di contenuto duplicato osservano attentamente gli host (gli indirizzi IP dei server) e penalizzano contenuti duplicati ...

Finalmente completato il grande aggiornamento del data center "Big ...

A questo punto si concretizza una fattispecie di contenuto duplicato in quanto una stessa pagina risiede su due url contemporaneamente. ...

Yahoo perfeziona la funzionalità del file Robots.txt

Questo parametro sarebbe stato utilizzato per la funzione “stampa questa pagina” e sarebbe stato visto come contenuto duplicato dai motori di ricerca in ...

Il programma Google Sitemaps diventa “Webmaster Central”

... versioni presenti sul server ed evitando di incorrere nella fattispecie di contenuto duplicato penalizzato come è noto con l'esclusione dai risultati di ...

Un filtro per eliminare i contenuti doppi nell'algoritmo di Google

... risultati della massima qualità escludendo pagina ritenute non desiderabili per via del fatto che sono portatrici di un medesimo contenuto duplicato. ...

Rispettare le linee guida di Google

Non create più pagine, sottodomini o domini dal contenuto sostanzialmente duplicato. Evitate le pagine di rimando (doorway) create appositamente per i ...

Posizionamento nei motori di ricerca: cosa fare quando il sito ...

Il contenuto duplicato e la sua penalizzazione sui motori di ricerca ... quella del redirect 301, il quale indica che la pagina richiesta è stata trasferita ...