Come rendere indicizzabile un sito con lo scroll infinito

Di - 20 February 2014 - in
Post image for Come rendere indicizzabile un sito con lo scroll infinito

Lo scroll infinito, o infine scroll per gli anglofoni, è una delle tendenze più recenti in ambito di sviluppo web. Nella pratica consiste nel fornire all’utente un feed continuo di un certo numero di contenuti che appaiono mano a mano durante lo scroll della pagina. L’utente vedrà comparire via via contenuti senza soluzione di continuità, almeno fino al momento in cui i contenuti stessi non si esauriscono. Eliminando di fatto la paginazione, questo tipo di design fornisce un’esperienza di lettura più monolitica e, se vogliamo, immersiva.

Molti non sanno però che questo tipo di approccio, o meglio diversi metodi per raggiungere questo tipo di risultato, non sono così “amichevoli” nei confronti del GoogleBot.  I metodi “incriminati” prevedono solitamente l’uso di JavaScript per caricare dinamicamente i contenuti. In questo caso GoogleBot non è in grado di interpretare correttamente il codice JavaScript. Questo software non è infatti sempre in grado di simulare il comportamento degli utenti, come lo scrolling o il click su un pulsante, per far apparire ulteriori contenuti. Il risultato è che molte parti del sito web potrebbero non venire indicizzate.

Ecco perché Google ha pubblicato una guida con suggerimenti per quei webmaster che vogliono implementare lo scroll infinito in modo che i contenuti del sito risultino accessibili e quindi indicizzabili dal crawler di Google.

Vediamo come fare.

La prima scelta di design consiste nel suddividere il contenuto del sito in pagine ben definite, ad esempio utilizzando la History API di HTML5. La paginazione sarà del tutto invisibile agli occhi dell’utente. Il contenuto del sito deve quindi essere accessibile anche nel momento in cui JavaScript non sia attivato.

Il contenuto di ogni parte paginata deve inoltre essere ben definito e non ci devono essere sovrapposizioni.

Parliamo ora degli URL.
L’architettura del sito deve essere tale da prevedere URL univoci per ogni pagina: engeene.it/category?name=photos&page=1

Gli URL devono anche mostrare lo stesso contenuto al variare dei giorni. Ad esempio bisogna evitare riferimenti relativi come “yesterday”, “days-ago=2” e via dicendo.

È altresì importante che gli URL siano costruiti in modo tale che il contenuto del sito sia accessibile attraverso ricerche. Ad esempio così: http://www.engeene.it/google-earth-e-le-cascate-sottomarine/

Per quanto riguarda la paginazione, questa deve essere fatta in modo tale che i valori rel=next e rel=prev siano contenuti nel parametro <head>. Il GoogleBot ignorerà di default i valori di paginazione contenuti nel <body>.

Un ultimo accorgimento è quello di prevedere che i tentativi di accesso a pagine inesistenti nell’ordine di paginazione, ritornino un errore 404. Ad esempio la pagina engeene.it/category?name=photos&page=13 deve restituire errore 404 se le pagine effettive sono solo 12.

Seguendo queste poche indicazioni sarete sicuri che il vostro sito web è accessibile correttamente al crawler di Google e che verrà quindi indicizzato correttamente.

Fonte | Google Developers BlogGoogle Webmaster Central

Credit foto | Franco Folini - Google

Leave a Reply

Gabriele Visconti Articolo scritto da

Editor in Chief per Engeene. Appassionato di Linux, FOSS, videogame e, da poco, di cucina. Parla quattro lingue ed ama leggere libri in lingua inglese.

Contatta l'autore

Previous post:

Next post: