La gestione dei contenuti duplicati in Google

Di - 20 November 2012 - in

Uno dei problemi con cui i motori di ricerca si trovano spesso ad avere a che fare è quello dei contenuti duplicati. Il web, per diversi motivi (mirroring, citazioni, copie) è pieno di pagine che sono le copie identiche, o quasi, di altre pagine. Supponendo quindi un motore di ricerca ideale che dia come risultati tutte le pagine in cui compaiono le keyword richieste in maniera significativa, la pagina contenente i risultati di molte ricerche sarà piena di doppioni.

Questo è ovviamente un comportamento particolarmente indesiderato, poiché fa perdere molto tempo agli utenti. Approssimativamente, il modo in cui Google risolve il problema è piuttosto semplice. Se una delle pagine è linkata da siti con PageRank (l’indice di autorevolezza che Google assegna a ogni pagina web) piú alto, quella pagina verrà mostrata nei risultati di ricerca. Inoltre, come mostrato dalla figura sopra, tutte le pagine che linkano le copie vengono considerate come collegate alla pagina piú autorevole.

Questo comportamento è uno dei comportamenti teorici possibili. Il fatto che Google lo metta in atto è stato recentemente dimostrato da +Dan Petrovic, un esperto di ottimizzazione dei siti web per i motori di ricerca.

Petrovic ha tentato di rompere questo meccanismo, analizzando il comportamento di Google. Il metodo è estremamente semplice: ha creato una pagina web che copiasse esattamente una pagina già esistente (MarketBizz, con il permesso del proprietario), ha fatto +1 sulla pagina da lui creata, e infine la ha linkata dal suo blog, molto seguito, su DejanSEO, sito autorevolissimo nel campo.

Dopo quattro giorni, non solo cercando MarketBizz su Google si otteneva la pagina di Petrovic, ma addirittura cercando il sito di MarketBizz con l’indirizzo corretto e il tag “info:” per ottenere informazioni sulla pagina, si aveva un link alla pagina finta.

Va notato come questo comportamento non sia propriamente un bug di Google, ma piuttosto una caratteristica che lo espone a problemi, ma davvero difficile da gestire in altra maniera. Oltretutto, un problema di questo tipo non è facilmente utilizzabile per scopi malevoli, dovendo avere un sito autorevole che linki la pagina falsa, e che rischia di perdere la sua autorevolezza non appena venisse segnalato a Google per spam.

Petrovic non si è limitato a provare questo problema, ma ha voluto testare come i servizi accessori messi a disposizione da Google potessero mitigare il problema, in modo da far dormire sonni tranquilli a chi avesse paura che la propria pagina venga sostituita da una falsa (ed eventualmente malevola) nei risultati di ricerca di Google, che sono in ultima analisi la porta di accesso per la maggior parte degli utenti.

Il primo test è stato fatto con Dumb SEO Questions, un interessante sito che raccoglie le domande sciocche fatte a chi ottimizza siti per motori di ricerca, e i cui post sono autenticati da Google Authorship, che dovrebbe assegnare al profilo Google+ dell’autore il link alla pagina. I risultati ottenuti sono stati i medesimi del test precedente: Google ha completamente sostituito la pagina vecchia con la nuova, assegnandola anche all’autore. Insomma, utilizzare Autorship non basta a stare tranquilli.

Curiosamente, però, la ricerca della chiave esatta “Dumb SEO Questions” porta al link corretto, e non a quello falso. Ciò rivela un qualche meccanismo di associazione nome-link fatto da Google.

Il test successivo è stato fatto con ShopSafe, un sito di e-commerce che ha la caratteristica di avere nel suo codice un attributo rel=canonical. Si tratta di un tag nel codice della pagina, che contiene un link alla pagina da utilizzare in caso di duplicati. Il duplicato avrà, per forza di cose, il medesimo tag, che segnalerà a Google che la pagina corretta da utilizzare è quella vecchia. Ci si aspetterebbe che in questo modo Google ignori la pagina-copia, ma non è cosí: mentre la ricerca con il tag info: riporta l’indirizzo corretto, anche in questo caso la ricerca per parole chiave manda alla pagina falsa.

Il problema è stato segnalato a Google, che si spera prenda presto contromisure presumo basate su una corretta interpretazione dell’attributo rel=canonical. Rimuovendo i +1 sulle pagine false, Google ha ricominciato ad ignorarle, ma non è chiaro se si tratti di un effetto dei +1 o semplicemente del fatto che Google si sia accorta dell’inganno.

Per chi voglia difendere i suoi siti web nel frattempo, i consigli sono quelli classici: monitorare costantemente i risultati delle ricerche di Google, e utilizzare il piú possibile link interni completi al posto di quelli relativi: se copiano automaticamente le vostre pagine, queste continueranno a linkare pagine reali del vostro sito.

Via | DejanSEO

Leave a Reply

Lorenzo Breda Articolo scritto da

Studente di Informatica a Roma, si occupa di programmazione web sopratutto lato server, e di accessibilità del web. Utilizza e ama Debian GNU/Linux, e si interessa di fisica, fumetto, trekking e fotografia (gli ultimi due possibilmente abbinati). Collabora con Googlab da aprile 2012.

Contatta l'autore

Previous post:

Next post: