Spesso si vorrebbe che determinati
file o cartelle contenenti file del nostro sito in rete non fossero
indicizzate dai motori di ricerca. Per perseguire questo obiettivo
è necessario creare un file di testo e chiamarlo robot.txt
contenente dei comandi tali da impedire l'indicizzazione dei motori
di ricerca. Andiamo ora a vedere quali sono questi comandi da scrivere
all'interno del file robot.txt:
se ad esempio si vuole che il contenuto della cartella 'admin' di
un sito non venga indicizzato si devono scrivere le seguenti 2 righe:
User-agent: *
Disallow: /admin/
Il termine User-agent indica il motore di ricerca mentre il termine
Disallow indica le cartella o il file che si vuole escludere dall'indicizzazione.
Mettendo un asterisco dopo User-agent si vuole dire che si fa riferimento
a tutti i motori di ricerca mentre scrivendo dopo Disallow il termine
/admin/ si vuole dire che la cartella da escludere dall'indicizzazione
di tutti i motori di ricerca è la cartella 'admin'.
Se volessimo escludere la cartella 'admin' dall'indicizzazione solamente
di Google dovremmo scrivere:
User-agent: googlebot
Disallow: /admin/
Si possono escludere anche più cartelle scrivendo:
User-agent: googlebot
Disallow: /admin/
Disallow: /log/
Disallow: /statistiche/
Inq uesto caso si è escluso dall'indicizzazione di Google
le cartelle 'admin', 'log', 'statistiche'.
Come ultimo esempio vediamo l'esclusione di un file dall'indicizzazione.
Per escludere il file file.html dall'indicizzazione di tutti i motori
di ricerca si andrà a scrivere:
User-agent: *
Disallow: file.html
|