Aldo Agostinelli

I file robots.txt servono a rendere più efficace la scansione e l’indicizzazione da parte dei crawler dei motori di ricerca all’interno del proprio sito web: ecco come usarli e perché

I file robots.txt sono dei file di testo che, inseriti all’interno di un sito web, indicano ai crawler dei motori di ricerca in quali pagine del sito può essere eseguita la scansione e in quali no. Perché si usano? Perché la scansione dell’intero sito da parte dei bot dei motori di ricerca al fine dell’indicizzazione del sito stesso può essere dispendiosa e fuorviante. Meglio indirizzarli su pagine specifiche. Ricordando che il file robots.txt non costituisce un blocco o un obbligo: è una indicazione, la segue chi vuole seguirla. Normalmente tutti i motori di ricerca lo fanno, mentre ad esempio lo spam li ignora sistematicamente. Vediamo dunque di capire meglio a che cosa servono questi file di testo e come creare un file robots.txt.

File robots.txt: cos’è

Un file robots.txt è un file di testo utilizzato per fornire istruzioni ai motori di ricerca e ad altri bot web su come navigare e indicizzare le pagine di un sito web. Facciamo un passo indietro: i motori di ricerca, tramite i loro crawler (o spider, o bot) esplorano, in primo luogo, e poi indicizzano il contenuto delle pagine web su Internet. Questi crawler navigano attraverso il web, visitando pagine web e seguendo i link presenti in esse per scoprire nuove pagine da esaminare.

Il processo di crawling è fondamentale per la raccolta di informazioni da migliaia di siti web in modo efficiente e sistematico. I crawler analizzano il contenuto delle pagine web, estraggono informazioni come testo, link, immagini e metadati, e le inviano agli algoritmi dei motori di ricerca per l’indicizzazione: le informazioni raccolte vengono organizzate e memorizzate nei in modo che possano essere recuperate rapidamente quando un utente effettua una ricerca, affinché trovi informazioni rilevanti.

Torniamo ora al nostro file robots.txt. Questo file viene posizionato nella radice del sito web e fornisce una serie di direttive per specificare quali parti del sito devono essere escluse dall’indicizzazione e quali invece possono essere indicizzate. Le direttive comuni presenti in un file robots.txt includono “Disallow”, per impedire ai motori di ricerca di indicizzare determinate pagine o directory e “Allow”, per consentire l’indicizzazione di specifiche risorse. Il file robots.txt può essere utilizzato anche per specificare la posizione del sitemap del sito web, che fornisce una mappa delle URL all’interno del sito facilitando così l’indicizzazione.

A cosa serve robots.txt?

Il file robots.txt è utilizzato per migliorare la performance dei siti web comunicando al crawler di Google e di altri motori di ricerca su quali pagine concentrarsi e quali possono invece ignorare al fine dell’indicizzazione. Questo incide sul modo in cui il proprio sito verrà visualizzato nei risultati di ricerca. Il file robots.txt serve quindi ad evitare di sovraccaricare un sito web e che alcune pagine che non sono destinate alla visualizzazione pubblica vengano indicizzate. Si ottimizza così il crawl budget, o budget di scansione, ovvero il numero di url che un crawler può scansionare e indicizzare.

È importante ricordare che questo budget non è illimitato, e se non siamo noi a “dire” ai crawler quali pagine possono ignorare, loro ne salteranno alcune a caso, che magari per noi sono importanti. Quali pagine solitamente possono essere ignorate? Dipende dal sito web e dalle proprie esigenze, ma sicuramente tutte quelle di login (come /wp-admin/ su WordPress, che infatti viene automaticamente disabilitata), pagine doppie o pagine di risultati di ricerca interni, risorse private come immagini, video o documenti.

Dove si trova il file robots.txt?

Il file robots.txt si trova nella radice del sito web. Questo significa che è posizionato nella directory principale del sito, generalmente accessibile tramite l’url di base del sito stesso. Per esempio, se il sito web ha l’url https://www.example.com, il file robots.txt sarà accessibile all’indirizzo https://www.example.com/robots.txt. Dovendo fornire istruzioni ai motori di ricerca e ad altri bot web, è importante che sia facilmente accessibile e posizionato nella directory principale del sito per consentire ai crawler di trovarlo rapidamente.

Cosa contiene un file robots.txt?

La sintassi dei file robots.txt è semplice. Occorre assegnare regole ai crawler  indicando il loro user-agent (il nome del bot del motore di ricerca), seguito da una direttiva (la regola). Se ci si vuole rivolgere a tutti i crawler indistintamente si può usare l’asterisco (qui c’è un elenco dei principali crawler). In questo caso la regola che segue sarà valida per tutti. In questo modo:

User-agent: *

Disallow: /

Allow: /

La direttiva disallow “impedisce” (sempre solo a livello teorico) ai crawler di scansionare e indicizzare una determinata pagina. La direttiva allow lo consente.

Oltre a questi tre elementi principali (user-agent/allow/disallow) esistono altre direttive. Sitemap fornisce un elenco strutturato di tutte le url importanti all’interno del sito, facilitando il processo di indicizzazione per i motori di ricerca. Crawl-delay specifica invece un ritardo, in secondi, tra le richieste successive del crawler. Può essere utilizzata per limitare la frequenza con cui i crawler visitano il sito, al fine di ridurre il carico sul server.

Come creare un file robots.txt

Si può creare un file robots autonomamente, inserendo gli elementi che abbiamo indicato, oppure utilizzare un comodo robots.txt generator, un generatore di file robots.txt. Per iniziare in ogni caso occorre aprire un documento .txt (meglio non usare Word) e scrivere qui le direttive. Ogni direttiva deve stare su una singola riga. Se ci si vuole rivolgere a crawler diversi bisogna creare diversi “blocchetti” di direttive, separati da uno spazio. Una volta terminata la scrittura il file va salvato come robots.txt e caricato sul proprio sito. Il processo di caricamento varia in base alla tipologia e alla struttura del sito web.

Come faccio a sapere se il mio sito è indicizzato?

Per sapere se il proprio sito è indicizzato si può partire dalla ricerca diretta: puoi cercare il tuo sito utilizzando il nome del dominio o l’url principale nei motori di ricerca come Google, Bing o Yahoo. Se il tuo sito è indicizzato, dovrebbe apparire nei risultati di ricerca. Puoi anche utilizzare la querysite:” seguita dal tuo nome di dominio o url principale nei motori di ricerca. Ad esempio, “site:example.com”. Questo mostrerà un elenco di tutte le pagine del tuo sito che sono state indicizzate da quel motore di ricerca.

Esistono poi strumenti gratuiti come Google Search Console che offre informazioni dettagliate sull’indicizzazione dei siti web su Google, inclusi eventuali problemi che potrebbero influenzare l’indicizzazione. Strumenti di analisi del traffico come Google Analytics permettono inoltre di vedere se il sito riceve traffico da motori di ricerca.

Aldo Agostinelli