di: Simone Carletti 05 Luglio 2006
Vi siete mai chiesti come funzioni un motore di ricerca? Se state leggendo questo articolo probabilmente la risposta è sì, almeno una volta nella vostra carriera di utente o professionista della rete.
Il funzionamento specifico di ciascun motore di ricerca, e sto parlando in questo caso di complessi e strutturati motori di ricerca come Google, MSN e Yahoo e non il motore di ricerca di un forum, è un segreto che ogni azienda custodisce gelosamente. Salvo chi lo ha creato, non è possibile conoscere con precisione ed a fondo le caratteristiche degli algoritmi di un motore di ricerca e la natura dei calcoli eseguiti.
Ma allora, di che si parlerà in questo articolo? Presto detto: ci sono alcune caratteristiche fondamentali di un motore di ricerca professionale imprescindibili dall'azienda e dagli algoritmi specifici. Alcuni dettagli legati al funzionamento che sono noti e consolidati ma che spesso non rientrano nel bagaglio culturale di quanti si avvicinano per le prime volte allo studio ed alla progettazione di questo tipo di architetture. In questo articolo vedremo quindi in linea teorica quali sono le fasi principali dell'indicizzazione di un documento da parte di un motore di ricerca comune.
...recita un famoso detto popolare. Anche nel campo dei motori di ricerca vale questa regola poiché 3 sono le fasi fondamentali nel processo di indicizzazione.
Le precedenti sono grossomodo le 3 principali fasi di un motore di ricerca che abbia come obiettivo la gestione di un numero sufficientemente alto di dati.
Le caratteristiche ed i dettagli di ogni singolo procedimento possono differire notevolmente in base all'architettura del motore di ricerca e non è da escludere che alcuni possano prevedere ulteriori fasi.
Il crawling è un processo estremamente meccanico grazie al quale un motore di ricerca recupera i dati necessari per costruire il suo indice. Per eseguire il crawling sono utilizzati appositi programmi, chiamati di norma spider, bot o più semplicemente crawler, che scandagliano il web alla ricerca di pagine.
Il crawler scarica i documenti sui computer per consentire un processo di indexing più rapido ed efficace. In questa fase lo spider, nella maggior parte delle volte, non si limita a salvare solo le pagine ma raccoglie una serie di informazioni correlate ed utili per autoalimentare la sua coda di documenti.
Durante le scansioni il crawler salva in una sua memoria la lista di nuovi URL identificati durante il salvataggio delle pagine. Su questo grande taccuino lo spider annota sapientemente tutti i link che in futuro potrebbe dover seguire. Saranno poi i progettisti ad indicare allo spider quali link seguire ed in quali modalità.
Il processo di raccolta dei link, estremamente banalizzato in precedenza, è in realtà decisamente complesso. È necessario progettare con maestria lo spider per evitare che lo stesso cada in processi di link che incastrerebbero il crawler in un ciclo infinito.
Allo stesso tempo è fondamentale che lo spider raccolga questi link poiché garantisce al motore di ricerca di autoalimentare sé stesso senza apparente bisogno di fornire manualmente nuove risorse. È infatti ipotizzabile che passando da un sito all'altro sia possibile scandagliare almeno il 95% dell'intero world wide web.
Guida Google Webmaster ToolsWebmaster Tools è uno strumento gratuito messo a disposizione da... |
Guida Google AnalyticsPercorso pratico per la creazione e gestione di un account... |
Guida Google AdWordsGuida alla piattaforma di advertising di Google. Per creare annunci... |
Ogni giovedì, direttamente nella tua e-mail: notizie e articoli sui motori di ricerca rivolte a SEO e Webmaster.
Iscriviti alla newsletter
|
|
Corso Google AdWords Base25 Giugno 2012 a Milano |
|
|
Corso Posizionamento Motori di Ricerca (SEO)29 Giugno 2012 a Milano |
|
|
Corso Google AdWords Base05 Giugno 2012 a Roma |
|
|
Corso Posizionamento Motori di Ricerca (SEO)19 Giugno 2012 a Roma |