di: Simone Carletti 20 Luglio 2007
Search Engine Strategies, forum SEO e blog sul posizionamento: non c'è un'occasione dove non si senta parlare, o non si legga, delle caratteristiche dei motori di ricerca, delle regole da seguire per una corretta indicizzazione e dei suggerimenti da tenere in considerazione.
Sebbene questi elementi siano in realtà la sostanza di un corretto posizionamento, è bene considerare che si tratta del risultato dell'interpretazione delle capacità dei crawler dei motori di ricerca. Mi spiego meglio.
Si sente spesso che è importante limitare il numero di parametri in querystring al fine di garantire la corretta indicizzazione della pagina web. Perchè? La risposta è tutto sommato semplice e deriva da alcune limitazioni dei crawler meno evoluti che potrebbero incappare in loop o duplicazioni automatiche a causa di eccessivi parametri o una configurazione errata del sito web. Risultato? Le pagine non verranno indicizzate.
Insomma, praticamente ogni buona regola per una corretta indicizzazione deriva da quello che i crawler dei motori di ricerca sanno e non sanno fare. Giusto! Ma allora, cosa non sanno fare i motori di ricerca, oggi? Andiamo a scoprire alcune limitazioni, desiderate o indesiderate, dei crawler. Conoscerle ci aiuterà a progettare meglio un sito web ed agevolare l'indicizzazione.
I motori di ricerca non sanno gestire i cookie o, più semplicemente, gestirli potrebbe non risultare così interessante agli occhi dei motori di ricerca.
Ogni qual volta che il crawler accede ad una pagina del vostro sito ogni cookie inviato scade nell'esatto momento in cui termina la richiesta del crawler, indipendentemente che si tratti di un cookie di sessione o di un cookie datato. Ogni successiva richiesta del crawler non conterrà traccia dei cookie precedentemente inviati e quindi sono sarà possibile risalire a proprietà precedentemente impostate.
In pratica, i crawler non potranno quindi portare avanti un processo di acquisto in un e-commerse se il carrello è gestito via cookie (beh, dubito comunque che sia di vostro interesse un acquisto da GoogleBot), così come non potranno seguire percorsi di navigazione alternativi basati sull'ultima connessione dell'utente, ovviamente se salvata nei cookie.
Data questa limitazione è bene non affidare ai cookie dati che possano limitare la navigazione del sito. Ad esempio, implementare un controllo sulla capacità di gestire i cookie ed inviare il client ad una pagina di errore se il controllo fallisce non è certo una soluzione utile. Qualsiasi crawler di un motore di ricerca finirà sempre, inesorabilmente, nella pagina di errore ed il vostro fantastico sito da 10.000.000 di pagine non verrà neanche visto di striscio!
L'argomento sessioni è tutt'altro che banale. Prima di procedere è bene chiarire brevemente il valore delle sessioni ed il loro funzionamento.
Poiché il protocollo HTTP è senza stato, ovvero non conserva alcuna informazione tra una richiesta e l'altra, per poter garantire interazioni avanzate tra utenti e siti web, come una transazione di commercio elettronico, è stato neceessario introdurre il concetto di sessione. Ogni qual volta vi connettete ad un sito web, il web server che lo gestisce genera un identificativo univoco chiamato ID di sessione che vi rappresenterà per un limitato periodo di tempo. In questo modo, sarà possibile associare alla vostra sessione una serie di dati caratterizzanti, come ad esempio il vostro nome utente se siete autenticati nel sito, oppure la lingua preferita per permettervi di navigare agevolmente su un sito tradotto in più versioni.
Ora arriviamo al punto cruciale: nella maggior parte dei casi, anzi praticamente sempre, i crawler non sanno gestire le sessioni. Il motivo è sostanzialmente una conseguenza dell'incapacità di usare i cookie e della natura multi-threading dei crawler. Vediamo insieme cosa significa.
L'ID di sessione, generato dal server, deve essere salvato dal client in qualche modo. Il modo predefinito è un cookie, un semplice cookie che contiene l'ID univoco e scade al termine della sessione stessa, in genere 20 minuti. Poiché abbiamo appena visto che i crawler non sanno gestire i cookie, la sessione non può essere salvata e di conseguenza i crawler non sanno gestire le sessioni.
Esiste un'alternativa. Nel caso in cui il web server si accorga che il client non è in grado di gestire i cookie, può essere configurato in modo da appendere l'identificativo di sessione ad ogni URL richiamata nel sito. Ecco alcuni esempi di session ID generata in Java:
http://www.sito.com/pagina.jsp;jsessionid=7E8C3C2594D3CFB297CF75218E3537B5.acaps1
Ed ecco un esempio per PHP:
http://www.sito.com/pagina.php?PHPSESSID=062b4f2d4dcb85d7dd56f09c3e809f9f
Guida Google Webmaster ToolsWebmaster Tools è uno strumento gratuito messo a disposizione da... |
Guida Google AnalyticsPercorso pratico per la creazione e gestione di un account... |
Guida Google AdWordsGuida alla piattaforma di advertising di Google. Per creare annunci... |
Ogni giovedì, direttamente nella tua e-mail: notizie e articoli sui motori di ricerca rivolte a SEO e Webmaster.
Iscriviti alla newsletter
|
|
Corso Google AdWords Base25 Giugno 2012 a Milano |
|
|
Corso Posizionamento Motori di Ricerca (SEO)29 Giugno 2012 a Milano |
|
|
Corso Google AdWords Base05 Giugno 2012 a Roma |
|
|
Corso Posizionamento Motori di Ricerca (SEO)19 Giugno 2012 a Roma |