Che cosa impedisce l’indicizzazione di un sito web
Se da una parte essere indicizzati è un’operazione relativamente facile, è assai utile sapere quali sono gli elementi che impediscono alle risorse web di essere indicizzate dai motori di ricerca.
Una breve e non esaustiva lista di aspetti negativi per i motori di ricerca è la seguente:
- alcuni tipi di link in Javascript
- alcuni tipi di link in Flash
- sistemi basati su AJAX, Silverlight, iFrame, ecc…
Anche se ne esistono molti altri questi sono certamente i più diffusi; in ogni caso Google ha migliorato molto la sua capacità di comprendere schemi AJAX complessi e testo annidato dentro file FLASH, ed è perciò ormai frequente vedere interi siti web FLASH indicizzati nelle SERP.
Uno svantaggio di queste tecniche sta nella più difficile gestione del contenuto indicizzabile e della struttura del sito web che Google tende molto a considerare come un fattore importante della qualità di un sito web.
Il più evidente svantaggio è la contestualizzazione dei link e la “lettura” di parole contenute nelle immagini. Ad oggi Googlebot (lo spider proprietario di Google) non riesce a leggere gli elementi di Silverlight, esclude gli iFrame dagli indici e non comprende bene la struttura dei file FLASH.
Ecco un elenco di risorse che potete consultare per mantenervi aggiornati su come Google tratta i seguenti argomenti:
- Tipi di file indicizzati da Google
http://www.google.com/support/webmasters/bin/answer.py?answer=35287 - Flash e altri tipi di contenuti multimediali
http://www.google.com/support/webmasters/bin/answer.py?answer=72746 - Per indicizzare correttamente AJAX
http://www.google.com/support/webmasters/bin/topic.py?hl=it&topic=27777
Uno dei sistemi per controllare l’indicizzazione delle risorse, e più in particolare tutte quelle pagine web o cartelle che non devono essere indicizzate, è creare un file denominato “robots.txt” nella cartella principale (root) del sito web.