di: Francesco Caccavella 21 Febbraio 2002
Sappiamo come escludere. Ora dobbiamo sapere cosa escludere dal nostro sito.
Solitamente ad essere escluse per prime sono le directory che contengono contenuto che non si vuole rendere pubblico: le pagine di amministrazione, le pagine ad uso interno e così via. Se ad esempio vogliamo escludere le directory /cgi-bin/ /admin/ e /privata/ basterà inserire i seguenti campi:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /privata/
Tuttavia la maggiore utilità del file è nella possibilità di escludere specifici robots "maligni" dalla visita del sito. Per robots maligni si intendono tutti quegli user agent che
Il metodo migliore per identificarli è quello di verificare sui log di accesso i nomi degli user agent che giornalmente passano sul sito, verificare a che programma appartiene cercando il nome su un motore di ricerca e, se la funzione del robot non è gradita, inserire il nome dello user agent nel file robots.txt.
Proviamo ad escludere qualche robot significativo della sua categoria. Apriamo Blocco Note di Windows, o il vostro editor testuale preferito, e scriviamo i seguenti campi evidenziati.
Con questo campo escludiamo dall'intero sito il robot di Google che cerca e indicizza le immagini. Lo escludiamo perché non vogliamo che le nostre immagini siano prese e riadattate da altri.
User-Agent: Googlebot-Image
Disallow: /
Escludiamo anche i robot di Netmechanic, il sito che offre servizi di controllo di siti Web cui non siamo interessati.
User-agent: NetMechanic
Disallow: /
Escludiamo anche EmailCollector, un software che ricerca sulla rete indirizzi di e-mail per poi utilizzarli nello spam.
User-agent: EmailCollector
Disallow: /
Infine, escludiamo anche Teleport, l'offline browser noto per le sue capacità di sovraccaricare i server.
User-agent: Teleport
Disallow: /
Salviamo il file come robots.txt, colleghiamoci al server che ospita il nostro sito e carichiamo il file nello stesso posto della homepage. Se tutto è a posto, tra qualche giorno i robot indicati spariranno dai nostri log file. Un esempio di file lo trovate sempre su HTML.it.
Guida Google Webmaster ToolsWebmaster Tools è uno strumento gratuito messo a disposizione da... |
Guida Google AnalyticsPercorso pratico per la creazione e gestione di un account... |
Guida Google AdWordsGuida alla piattaforma di advertising di Google. Per creare annunci... |
Ogni giovedì, direttamente nella tua e-mail: notizie e articoli sui motori di ricerca rivolte a SEO e Webmaster.
Iscriviti alla newsletter
|
|
Corso Google AdWords Base25 Giugno 2012 a Milano |
|
|
Corso Posizionamento Motori di Ricerca (SEO)29 Giugno 2012 a Milano |
|
|
Corso Google AdWords Base05 Giugno 2012 a Roma |
|
|
Corso Posizionamento Motori di Ricerca (SEO)19 Giugno 2012 a Roma |