10 cose da sapere sull’indicizzazione dei siti da parte di Google

Di - 26 November 2012 - in
Post image for 10 cose da sapere sull’indicizzazione dei siti da parte di Google

La parola “indicizzazione” è una delle più vecchie e conosciute quando si parla di motori di ricerca, ed è anche una delle più fraintese ed usate a sproposito (non di rado si trova erroneamente citata come sinonimo di “ottimizzazione per i motori di ricerca”). Vediamo di approfondire un po’ di cosa si tratta.

1. Cosa significa indicizzazione

Il termine indica l’attività, o meglio, quell’insieme di attività svolte da un motore di ricerca volte ad inserire dei contenuti all’interno di un archivio informatico, la loro elaborazione e la definizione di un indice per il loro reperimento. Quando parliamo di indicizzazione, stiamo quindi descrivendo sotto un unico termine tutte quelle attività che vanno dalla scansione di un sito da parte dello spider, fino alla memorizzazione dei dati raccolti all’interno di un database.

2. Perché è importante farsi indicizzare

Un sito internet che voglia essere visibile nei risultati di Google, dovrà assicurarsi di garantire la massima facilità di indicizzazione dei suoi contenuti da parte del motore di ricerca. Essere indicizzati dal motore di ricerca fa la differenza tra apparire tra i risultati (quale che sia il grado di visibilità) e non apparire del tutto.

3. Come farsi indicizzare in fretta

Google segue alcune regole per definire la frequenza con cui indicizza un sito internet, che possono variare in base al PageRank, i link diretti ad una pagina, la frequenza di aggiornamento dei contenuti o altri vincoli di scansione. In generale comunque, per assicurarsi un’indicizzazione veloce è importante costruire una struttura di navigazione accessibile e possibilmente progettare un’architettura piatta del contenuto, che permetta all’utente e allo spider di raggiungere in pochi clic qualunque pagina del sito.

Google inoltre tiene traccia della frequenza di aggiornamento di un sito e regola automaticamente su questo la frequenza di scansione. I sistemi di ping delle principali piattaforme di blog (ad esempio WordPress) possono essere un ulteriore strumento per indicizzare rapidamente i propri contenuti.

4. Come indicizzare una gran mole di contenuto

Va utilizzato lo strumento della sitemap.xml, un file che idealmente dovrebbe contenere l’elenco di tutte le pagine che si vogliono far indicizzare, costruito secondo una precisa sintassi XML, secondo le linee guida definite dal protocollo Sitemaps. E’ possibile segnalare a Google la presenza di una sitemap XML attraverso gli Strumenti per Webmaster o inserendone l’URL all’interno del file robots.txt, con la seguente sintassi:

Sitemap: http://www.esempio.com/sitemap.xml

5. Gli errori più comuni che ostacolano l’indicizzazione

Vanno evitati con cura tutti quegli errori che possono bloccare , complicare o confondere le capacità di navigazione dello spider di Google. Bisogna considerare che Googlebot segue principalmente link in HTML, non conserva cookie e che identifica le pagine dal loro URL. Inoltre, segue alla lettera le istruzioni presenti all’interno del file robots.txt (vedere sotto al punto 6). Ecco alcuni errori piuttosto comuni:

  • menu di navigazione non accessibili (ad esempio realizzati in flash o con l’URL di destinazione definito in javascript al posto dell’istruzione href)
  • gestione delle versioni in lingua tramite cookie di sessione (Googlebot è in grado di navigare solo la lingua di default)
  • link che generano loop di indicizzazione (solitamente sono errori di costruzione del CMS, che portano alla creazione di URL ricorsivi come /pagina/pagina/pagina/pagina ecc.)
  • istruzioni Disallow non volute all’interno del file robots.txt (succede spesso quando si pubblica un sito dall’area di staging)

6. A cosa serve il file robots.txt

E’ un file che serve ad autorizzare o negare l’accesso al sito, o a determinate parti di esso, da parte degli spider dei motori di ricerca. E’ opportuno notare come bloccare l’accesso allo spider di un URL che è già stata indicizzato non aiuta a rimuoverlo dall’indice, al contrario: bloccandone l’accesso si impedisce anche che vengano lette le istruzioni per la rimozione (vedere successivamente ai punti 8 e 9).

7. A cosa serve il meta robots

L’istruzione robots è una variante dei tag HTML <meta> , pensata per fornire indicazioni agli spider dei motori su come gestire l’indicizzazione di una pagina specifica. All’interno dell’attributo description è possibile inserire le istruzioni Index/Noindex e Follow/Nofollow, nelle seguenti combinazioni:

  • (Index, Follow): indicizza la pagina, segui i link in essa contenuti. Questa istruzione specifica descrive il comportamento di default degli spider, pertanto è da considerarsi opzionale.
  • (Noindex, Nofollow): non indicizzare la pagina, non seguire i link in essa contenuti
  • (Index, Nofollow): indicizza la pagina, ma non seguire i link in essa contenuti
  • (Noindex, Follow): non indicizzare la pagina, ma segui i link in essa contenuti

8. Come NON farsi indicizzare

Per prevenire che un sito venga indicizzato (è il caso ad esempio di siti in area di test), la soluzione più pratica è quella di inserire all’interno del file robots.txt l’istruzione generalizzata Disallow, come segue.

User agent: *
Disallow: /
Lo stesso tipo di misura può essere adottata per disabilitare l’accesso allo spider a determinate parti del sito (ad esempio, una sottocartella), specificandola sempre tramite l’istruzione Disallow.
Attenzione! Se Google ha già indicizzato una pagina che non doveva essere indicizzata, questa non va bloccata tramite robots.txt. Impedire l’accesso allo spider impedisce a monte a Google di controllare se sussistono i requisiti per la rimozione dall’indice.

9. Come rimuovere del contenuto dall’indice

Google rimuove un determinato URL dal suo indice quando in fase di scansione della pagina rileva una delle seguenti informazioni:

  • l’URL restituisce un codice di errore HTTP di tipo 404 (Not Found), 403 (Forbidden) o 410 (Gone)
  • il tag meta robots contiene l’istruzione Noindex
In caso sia necessaria una rimozione urgente di determinati contenuti dall’indice di Google, è possibile farne richiesta utilizzando l’apposita funzione di rimozione presente negli Strumenti per Webmaster.

10. Strumenti di diagnostica: il Centro per Webmaster

Per chiudere, è degna di menzione la sezione degli Strumenti per Webmaster dedicata proprio allo stato dell’indicizzazione: è possibile visualizzare lo storico delle pagine indicizzate nel corso dell’ultimo anno, assieme ad alcuni dati avanzati sulle pagine rimosse o sottoposte a scansione finora.

Immagine di copertina: Google Data Center

Leave a Reply

Martino Mosna Articolo scritto da

Specialista di Search Marketing e Web Anaytics, lavora nel campo dal 2006, attualmente come consulente freelance. Appassionato di astronomia e giochi di ruolo, il suo motto è “Non si smette di giocare perché si invecchia, si invecchia perché si smette di giocare”.

Contatta l'autore

Previous post:

Next post: