Photo by ThisIsEngineering on Pexels.com
Un file robots.txt è semplicemente un file di testo inserito all’interno della radice del vostro sito web che istruisce i crawler Un web crawler, chiamato anche spider o robot, è un software che naviga sistematicamente nel World Wide Web, tipicamente ai fini dell ‘indicizzazione del web. IO…dei motori di ricercasu quali pagine di un sito web deve crawlare e quali ignorare. Queste istruzioni di crawl sono definite “non consentire” o “consentire” del comportamento di uno specifico software di web crawling .
Come funziona Robots.txt?
Il file robots fa parte del Robots Exclusion Protocol (REP), un conglomerato di standard che regolano il modo in cui i robot In informatica, un robot (o semplicemente “bot”) è un insieme di comandi o istruzioni codificate che indicano ad un dispositivo meccanico e ad un sistema …eseguono il crawl del web, l’accesso e l’ indicizzazione L’indicizzazione è la fase in cui il motore di ricerca raccoglie, analizza ed archivia i dati per facilitare la rapida e accurata ricerca di informazioni …dei contenuti , e come presentano tali contenuti agli utenti.
Il REP include anche indicazioni come i meta robot, così come pagine, sottodirectory, o istruzioni a livello di sito web per come i motori di ricerca dovrebbero trattare i link (come “nofollow” o “follow”).
Esempio Robots.txt:
Di seguito sono riportati alcuni esempi di robots.txt in azione per un sito http://www.example.com.
L’ URL dell’URL sta per Uniform Resource Locator. Chiamato colloquialmente indirizzo web, è un riferimento a una risorsa web come un sito, una pagina o un file … del file robots deve essere: http://www.example.com/robots.txt
Blocco di tutti i web crawler da tutti i contenuti
Questa istruzione dice a tutti i web crawler di non eseguire il crawling di alcuna pagina su http://www.example.com, compresa la homepage.
Agente utente: *
Disallow: /
Permettere a tutti i web crawler di accedere a tutti i contenuti
La regola seguente dice ai web crawler di cercare tutte le pagine del sito http://www.example.com, compresa la homepage.
Agente utente: * Consenti:
Bloccare un web crawler specifico da una cartella specifica
User-agent: Googlebot
Disallow: / example-subfolder /
Questa sintassi indica solo al crawler di Google di eseguire il crawler di qualsiasi pagina contenente la stringa URL http://www.example.com/example-subfolder/.
Bloccare un web crawler determinato da una specifica pagina web
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Questa sintassi indica solo il crawler di Bing per evitare il crawling della pagina esatta all’indirizzo http://www.example.com/example-subfolder/blocked-page.html.
Come funziona il file robots.txt
I motori di ricerca hanno due obiettivi principali:
- Eseguire il crawler del web per scoprire i contenuti
- Indicizzare quel contenuto in modo che possa essere trovato da chi cerca informazioni.
In generale, per cercare siti web, i motori di ricerca seguono i link per passare da un sito web all’altro, navigando attraverso miliardi di link e siti. Questo comportamento di crawling è anche conosciuto con il nome di ” spidering “.
Una volta in un sito web e prima di effettuare lo spidering, i crawler cercano un file robots. Se ne esiste uno, lo leggono ancor prima di procedere nella “scansione” dell’intera pagina.
Se il file robots non contiene alcuna regola di non consentire o il sito web non ha un file robots, i crawler procedono alla ricerca di altre informazioni sul sito web.
Nozioni veloci da sapere sul file robots.txt:
- Per essere trovato, un file robots deve essere inserito nella directory di primo livello di un sito web detta anche root.
- Il file /robots.txt è disponibile al pubblico. Basta aggiungere /robots.txt alla fine di qualsiasi dominio principale per vedere le direttive di quel sito web (se quel sito ha un file robots!). Questo significa che chiunque può vedere quali pagine hai impostato per essere o non essere scansionato. Quindi, non usatele per nascondere le informazioni sensibili dell’utente.
- Alcuni robot potrebbero decidere di ignorare il vostro file robots. Questo è particolarmente comune con i crawler malevoli, come gli scraper di indirizzi e-mail oi robot malware .
- Ogni sottodominio su un dominio principale utilizza file robots separati. Ciò significa che sia example.com che blog Un blog (abbreviazione di “weblog”) è un “giornale online”, o un sito web informativo, che mostra le informazioni in ordine cronologico inverso, con gli ultimi ….example.example.com dovrebbero avere i propri file robots.txt (su example.com/robots.txt e blog.example.com/robots.txt).
- Robots.txt è case sensitive : il file deve essere chiamato “robots.txt” (non robots.TXT, Robots.txt, ecc.).
- Si consiglia di indicare la posizione di eventuali sitemap collegate a questo dominio nella parte inferiore del file robots.
Sintassi tecnica robots.txt
Moz definisce la sintassi di robots.txt come segue: La sintassi di Robots.txt può essere pensata come il “linguaggio” dei file robots.txt.
Ci sono 5 termini comuni che si possono incontrare in un file robots. Essi includono:
- User-agent : Il web crawler specifico a cui si usa le istruzioni per il crawler – di solito un motore di ricerca. La maggior parte degli interpreti può essere trovata qui.
- Allow (valido solo per Googlebot Googlebot è il nome del robot (o crawler) di Google. Un web crawler, chiamato anche spider o robot (o semplicemente “bot”) è un software che …): Questa direttiva indica a Googlebot di accedere a una pagina o sottocartella anche se la sua pagina madre o sottocartella può essere proibita.
- Disallow: La direttiva istruisce l’utente-agente a non fare il crawl di certo URL. Si noti che è consentita una sola riga “Disallow:” per ogni URL.
- Sitemap: Usato per richiamare la posizione di qualsiasi sitemap XML collegata a questo URL.
Suggerimento: questa direttiva è supportata solo da Ask, Bing, Google e Yahoo. - Crawl-delay: Si riferisce al numero di secondi che un crawler dovrebbe attendere prima di caricare e strisciare il contenuto della pagina. Suggerimento: Googlebot non riconosce questa regola. Tuttavia la velocità di scansione può essere impostata nella Google Search Console.
Pattern-matching
Quando si tratta di consentire o bloccare gli URL esatti, i file robots.txt possono diventare piuttosto complessi in quanto l’uso di pattern-matching per coprire una serie di possibili opzioni di URL.
Sia Bing che Google riconoscono due espressioni comuni che possono essere utilizzate per rilevare pagine o sottocartelle che un SEO Search Engine Optimization (ottimizzazione per i motori di ricerca): l’insieme di strategie e pratiche per posizionare siti o pagine web nei risultati organici dei motori … vuole essere escluso.
Questi due caratteri sono il segno del dollaro ($) e l’ asterisco (*).
Il ($) corrisponde alla fine dell’URL e (*) è un carattere jolly che rappresenta una qualsiasi sequenza di caratteri.
Google fornisce nella guida ” Creare un file robots.txt ” un’ampia lista di possibili sintassi e di esempi di sintassi che corrispondono ai modelli.
Dove mettere i robot.txt?
Il file robots.txt deve essere posizionato alla radice dell’host del sito a cui si applica.
Ad esempio, per controllare il crawling su tutti gli URL sotto http L’Hypertext Transfer Protocol (HTTP) è il fondamento del World Wide Web, e viene utilizzato per caricare pagine web utilizzando link ipertestuali. L’HTTP è un protocollo …: //www.example.com/, il file robots deve essere posizionato all’indirizzo http://www.example.com/robots.txt.
Non può essere localizzato in una sottodirectory (per esempio all’indirizzo http://example.com/pages/robots.txt).
Se non si è sicuri di come accedere alla radice del proprio sito, o si ha bisogno di un supporto operativo, si consiglia sempre di contattare il proprio fornitore di servizi di web hosting Un Web hosting (o hosting) è un servizio che permette di pubblicare un sito web su Internet. Per pubblicare qualunque sito web online, è necessario ….
Suggerimento professionale! Se non riesci ad accedere al tuo sito web root, usa un metodo alternativo come i meta tag.
Perché robots.txt è essenziale?
Per bloccare le pagine non pubbliche
Sì, a volte si possono avere pagine del sito web che non si vuole indicizzare – per esempio, una pagina di login. Se avete tali pagine, è possibile utilizzare il file robots.txt per bloccarle da crawler e bot dei motori di ricerca.
Massimizzare il crawl budget
Se hai difficoltà a indicizzare tutte le tue pagine, potresti avere un problema di budget Un budget è una stima delle entrate e delle spese in un periodo determinato di tempo futuro, e viene compilato e rivalutato periodicamente. IO…. Bloccando pagine insignificanti dal file robots, Googlebot può spendere più del crawl budget Il Crawl Budget è il numero di pagine che Googlebot cerca e indica su un sito web in un determinato lasso di tempo. Il Crawl … sulle pagine che essenzialmente contano.
Prevenire l’indicizzazione delle risorse
Mentre le meta directives possono funzionare bene quanto i robots.txt nell’impedire che le pagine vengono indicate, non funzionano bene per le risorse multimediali come immagini ei file PDF. È qui che entra in gioco robots.txt.
Puoi sempre controllare quante pagine web hai indicato nella Google Search Console . Se il numero è esattamente quello che si vuole indicizzare, non c’è bisogno di preoccuparsi. Ma se non è così, allora c’è bisogno di creare un file robots.txt per il tuo sito.
Le migliori pratiche SEO
- Assicurati di non bloccare alcun contenuto o sezione del tuo sito che vuoi far crawlare.
- Non utilizzare il file robots per evitare che i dati sensibili appaiano nei risultati della SERP SERP: acronimo di Search Engine Results Pages, letteralmente “pagina dei risultati di un motore di ricerca”. Le SERP sono pagine web servite agli utenti quando …. Questo perché altre pagine potrebbero collegarsi direttamente alla pagina contenente informazioni private, che potrebbero essere ancora indicizzate.
- Se vuoi davvero bloccare la tua pagina dai risultati della ricerca, utilizza un metodo diverso, come la meta direttiva noindex o la protezione con password.
Link sulle pagine bloccate da robots.txt non saranno seguiti. Ciò significa:
- A meno che non siano collegati anche da altre pagine accessibili dal motore di ricerca (come esempio le pagine non bloccate da robots.txt, meta-robot, ecc.), Le risorse collegate non saranno sottoposte a scansione e potrebbero non essere indicizzate.
- Nessun link equità può essere passata dalla pagina bloccata alla destinazione del link. Se hai pagine a cui vuoi che l’equità venga passata, utilizza un meccanismo di blocco diverso da quello di robots.txt.
- Alcuni motori di ricerca hanno più crawler. Ad esempio, Google utilizza Googlebot-Image per la ricerca di immagini e Googlebot per la ricerca organica.
La maggior parte dei crawler dello stesso motore di ricerca seguono le stesse regole, quindi non c’è bisogno di definire le regole per ciascuno dei crawler multipli di un motore di ricerca.
Tuttavia, avere la possibilità di farlo permette di perfezionare il modo in cui il tuo sito web viene crawlato.
- Rendi il tuo file robots facile da trovare.
- Mentre è possibile posizionarlo in qualsiasi directory principale del tuo sito web, si consiglia di metterlo a https://example.com/robots.txt e scriverlo in minuscolo per aumentare le probabilità.
- Il file robots fa distinzione tra maiuscole e minuscole . Quindi assicurati di usare una “r” minuscola nel nome del file.
- Un motore di ricerca metterà in cache i contenuti di robots.txt, ma di solito aggiorna i contenuti in cache almeno una volta al giorno. Se si modifica il file e si desidera aggiornarlo più velocemente di quanto non sia, è possibile inviare l’URL /robots.txt a Google.
Robots.txt contro meta-robot contro x-robot
Qual è la differenza tra questi tre tipi di direttiva sui robot?
Semplicemente, robots.txt è il file di testo vero e proprio, mentre meta e x-robot sono meta Directive. Oltre a questo, queste tre direttive servono per funzioni diverse.
Robots.txt determina il comportamento di crawl del sito web o della direzione a livello di sito web.
I meta e gli x-robot possono determinare il comportamento di indicizzazione a livello di singola pagina (o elemento di pagina).
[tramite siteguru.com ]
Leave a Reply