Il file robots.txt: escludere i motori indesiderati

di: Francesco Caccavella     21 Febbraio 2002

Chi escludere?

Sappiamo come escludere. Ora dobbiamo sapere cosa escludere dal nostro sito.

Solitamente ad essere escluse per prime sono le directory che contengono contenuto che non si vuole rendere pubblico: le pagine di amministrazione, le pagine ad uso interno e così via. Se ad esempio vogliamo escludere le directory /cgi-bin/ /admin/ e /privata/ basterà inserire i seguenti campi:

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /privata/

Tuttavia la maggiore utilità del file è nella possibilità di escludere specifici robots "maligni" dalla visita del sito. Per robots maligni si intendono tutti quegli user agent che

  • Creano traffico inutile sul sito
  • Scandagliano il sito alla ricerca di indirizzi e-mail per utilizzarli nello spam
  • Eseguono troppe richieste e sovraccaricano il server
  • Non sono utili per il nostro sito

Il metodo migliore per identificarli è quello di verificare sui log di accesso i nomi degli user agent che giornalmente passano sul sito, verificare a che programma appartiene cercando il nome su un motore di ricerca e, se la funzione del robot non è gradita, inserire il nome dello user agent nel file robots.txt.

Escludiamo i robot indesiderati

Proviamo ad escludere qualche robot significativo della sua categoria. Apriamo Blocco Note di Windows, o il vostro editor testuale preferito, e scriviamo i seguenti campi evidenziati.

Con questo campo escludiamo dall'intero sito il robot di Google che cerca e indicizza le immagini. Lo escludiamo perché non vogliamo che le nostre immagini siano prese e riadattate da altri.

User-Agent: Googlebot-Image
Disallow: /

Escludiamo anche i robot di Netmechanic, il sito che offre servizi di controllo di siti Web cui non siamo interessati.

User-agent: NetMechanic
Disallow: /

Escludiamo anche EmailCollector, un software che ricerca sulla rete indirizzi di e-mail per poi utilizzarli nello spam.

User-agent: EmailCollector
Disallow: /

Infine, escludiamo anche Teleport, l'offline browser noto per le sue capacità di sovraccaricare i server.

User-agent: Teleport
Disallow: /

Salviamo il file come robots.txt, colleghiamoci al server che ospita il nostro sito e carichiamo il file nello stesso posto della homepage. Se tutto è a posto, tra qualche giorno i robot indicati spariranno dai nostri log file. Un esempio di file lo trovate sempre su HTML.it.

Guide Web marketing

Guida Google Webmaster Tools

Webmaster Tools è uno strumento gratuito messo a disposizione da...

Guida Google Analytics

Percorso pratico per la creazione e gestione di un account...

Guida Google AdWords

Guida alla piattaforma di advertising di Google. Per creare annunci...

Altre guide

Newsletter @Web marketing e SEO

Ogni giovedì, direttamente nella tua e-mail: notizie e articoli sui motori di ricerca rivolte a SEO e Webmaster.

Iscriviti alla newsletter

Altre newsletter

Corsi in aula

Corso Google AdWords Base

25 Giugno 2012 a Milano
Disponibilità: 7 Posti

Corso Posizionamento Motori di Ricerca (SEO)

29 Giugno 2012 a Milano
Disponibilità: 5 Posti

Corso Google AdWords Base

05 Giugno 2012 a Roma
Disponibilità: 7 Posti

Corso Posizionamento Motori di Ricerca (SEO)

19 Giugno 2012 a Roma
Disponibilità: 6 Posti