di: Francesco Caccavella 21 Febbraio 2002
Spesso si ha la necessità di inibire ad alcuni software l'accesso al vostro sito oppure ad una sezione di esso. Pensiamo ai cosiddetti "offline browser" (software che possono scaricare sull'hard disk del computer un intero sito), oppure agli spider dei motori di ricerca: i primi sono eccellenti nel consumare la banda dei server, i secondi potrebbero invece mettere il naso in zone del vostro sito che volete far rimanere private.
Per evitare che ciò avvenga si può agire sia sul server, ossia modificando le impostazioni del web server che ospita il sito, oppure sulle pagine. Il secondo metodo, quello che esamineremo, è alla portata di chiunque abbia uno spazio web.
Un consorzio di ricercatori ha trovato una soluzione geniale che piano piano è diventata uno standard. Ogni software che visualizza pagine Web deve, prima di iniziare a recuperare il contenuto del sito, verificare la presenza di un piccolo file situato nella radice del sito: il file robots.txt. In questo file il webmaster ha inserito i "permessi di visita" del proprio sito indicando quali software (detti robot) hanno accesso e quali invece no.
Il file robots.txt è un semplicissimo file di testo che, nella sua forma ideale, dovrebbe contenere semplicemente due campi: User-agent e Disallow. Il primo campo serve a definire quale robot dovrà essere escluso, il secondo definisce da quale zona del sito escluderlo. Tipicamente i due campi sono composti in questo modo e separati da un "a capo":
User-Agent: Googlebot-Image
Disallow: /
In questo esempio il file robots.txt escluderà dalla visita dell'intero sito (lo slash identifica la radice del sito e dunque la sua interezza) lo user agent Googlebot-Image, ossia lo spider di Google che indicizza le immagini.
Il file Robots.txt accetta anche il parametro di commento identificato dal simbolo di cancelletto #. Tutto ciò che seguirà il cancelletto sarà interpretato dallo user agent come un commento e dunque ignorato:
# Escludo dall'intero sito Teleport, aggiunto il 21/02/02
User-agent: Teleport
Disallow: /
Nell'esempio viene escluso dall'intero sito il browser offline Teleport. I due campi sono preceduti da un commento in cui potete inserire, ad esempio, la data di scrittura dell'esclusione per utilizzarla a fini statistici.
Il file robots.txt andrà poi inserito nella radice del sito, nella stessa posizione in cui compare la index dell'homepage, e dovrà dunque essere visibile digitando http://www.nomesito.it/robots.txt.
Guida Google Webmaster ToolsWebmaster Tools è uno strumento gratuito messo a disposizione da... |
Guida Google AnalyticsPercorso pratico per la creazione e gestione di un account... |
Guida Google AdWordsGuida alla piattaforma di advertising di Google. Per creare annunci... |
Ogni giovedì, direttamente nella tua e-mail: notizie e articoli sui motori di ricerca rivolte a SEO e Webmaster.
Iscriviti alla newsletter
|
|
Corso Google AdWords Base27 Febbraio 2012 a Milano |
|
|
Corso Posizionamento Motori di Ricerca (SEO)27 Marzo 2012 a Milano |
|
|
Corso Posizionamento Motori di Ricerca (SEO)28 Marzo 2012 a Roma |
|
|
Corso Google AdWords Base28 Marzo 2012 a Roma |