Il file robots.txt: escludere i motori indesiderati

di: Francesco Caccavella     21 Febbraio 2002

Spesso si ha la necessità di inibire ad alcuni software l'accesso al vostro sito oppure ad una sezione di esso. Pensiamo ai cosiddetti "offline browser" (software che possono scaricare sull'hard disk del computer un intero sito), oppure agli spider dei motori di ricerca: i primi sono eccellenti nel consumare la banda dei server, i secondi potrebbero invece mettere il naso in zone del vostro sito che volete far rimanere private.

Per evitare che ciò avvenga si può agire sia sul server, ossia modificando le impostazioni del web server che ospita il sito, oppure sulle pagine. Il secondo metodo, quello che esamineremo, è alla portata di chiunque abbia uno spazio web.

Un consorzio di ricercatori ha trovato una soluzione geniale che piano piano è diventata uno standard. Ogni software che visualizza pagine Web deve, prima di iniziare a recuperare il contenuto del sito, verificare la presenza di un piccolo file situato nella radice del sito: il file robots.txt. In questo file il webmaster ha inserito i "permessi di visita" del proprio sito indicando quali software (detti robot) hanno accesso e quali invece no.

La struttura del file robots.txt

Il file robots.txt è un semplicissimo file di testo che, nella sua forma ideale, dovrebbe contenere semplicemente due campi: User-agent e Disallow. Il primo campo serve a definire quale robot dovrà essere escluso, il secondo definisce da quale zona del sito escluderlo. Tipicamente i due campi sono composti in questo modo e separati da un "a capo":

User-Agent: Googlebot-Image
Disallow: /

In questo esempio il file robots.txt escluderà dalla visita dell'intero sito (lo slash identifica la radice del sito e dunque la sua interezza) lo user agent Googlebot-Image, ossia lo spider di Google che indicizza le immagini.

Il file Robots.txt accetta anche il parametro di commento identificato dal simbolo di cancelletto #. Tutto ciò che seguirà il cancelletto sarà interpretato dallo user agent come un commento e dunque ignorato:

# Escludo dall'intero sito Teleport, aggiunto il 21/02/02
User-agent: Teleport
Disallow: /

Nell'esempio viene escluso dall'intero sito il browser offline Teleport. I due campi sono preceduti da un commento in cui potete inserire, ad esempio, la data di scrittura dell'esclusione per utilizzarla a fini statistici.

Il file robots.txt andrà poi inserito nella radice del sito, nella stessa posizione in cui compare la index dell'homepage, e dovrà dunque essere visibile digitando http://www.nomesito.it/robots.txt.

Guide Web marketing

Guida Google Webmaster Tools

Webmaster Tools è uno strumento gratuito messo a disposizione da...

Guida Google Analytics

Percorso pratico per la creazione e gestione di un account...

Guida Google AdWords

Guida alla piattaforma di advertising di Google. Per creare annunci...

Altre guide

Newsletter @Web marketing e SEO

Ogni giovedì, direttamente nella tua e-mail: notizie e articoli sui motori di ricerca rivolte a SEO e Webmaster.

Iscriviti alla newsletter

Altre newsletter

Corsi in aula

Corso Google AdWords Base

27 Febbraio 2012 a Milano
Disponibilità: 7 Posti

Corso Posizionamento Motori di Ricerca (SEO)

27 Marzo 2012 a Milano
Disponibilità: 5 Posti

Corso Posizionamento Motori di Ricerca (SEO)

28 Marzo 2012 a Roma
Disponibilità: 6 Posti

Corso Google AdWords Base

28 Marzo 2012 a Roma
Disponibilità: 7 Posti