Qu’est-ce qu’un fichier robots.txt et à quoi sert-il ?

Il est rare qu’on n’utilise pas Google pour rechercher une information. Le moteur de recherche le plus célèbre du monde nous offre toutes sortes de solutions pour notre vie car c’est l’une des marques les plus conviviales pour les citoyens. Cependant, les moteurs de recherche ont besoin d’informations, sont curieux par nature et veulent absolument tout savoir sur nos vies et nos sites web. En bref, ils sont avides de connaissances et d’informations, d’où l’importance de connaître l’utilisation et le fonctionnement d’un robot.txt.

Les moteurs de recherche disposent de machines ou de robots qui parcourent le web pour classer et indexer le plus d’informations possible dans leurs bases de données. Les robots.txt sont une sorte de machine largement utilisée sur le web pour indexer le contenu du web. Les spammeurs, par exemple, les utilisent pour suivre les adresses électroniques. Mais attention, ils ont aussi beaucoup d’autres usages comme la localisation de sites en XML ou le blocage de l’accès aux fichiers et répertoires de codes

Le monde de robots.txt est passionnant et aujourd’hui nous allons essayer d’éclairer le sujet. Nous allons donc vous dire comment fonctionne le fichier robots.txt, ce que vous devez savoir et comment vous devez vous y prendre.

Qu’est-ce que le fichier robots.txt

Lorsque nous créons un nouveau site web, nous devons pouvoir accéder à notre page pour suivre nos informations. Pour accomplir cette tâche, nous devons créer un fichier texte (avec une extension .txt) dans notre domaine afin de fournir au moteur de recherche toutes les informations que nous souhaitons connaître sur notre site web ou notre entreprise. En même temps, ce fichier .txt est utilisé pour empêcher les robots ou les robots .txt d’ajouter des données et des informations que nous ne voulons pas partager avec la société Moutain View. Selon Google, la définition d’un fichier .txt est la suivante :

« Un fichier robots.txt est un fichier qui se trouve à la racine d’un site et qui indique les parties auxquelles vous ne voulez pas que les robots des moteurs de recherche accèdent. Le fichier utilise la norme d’exclusion des robots, qui est un protocole comportant un petit ensemble de commandes pouvant être utilisé pour indiquer l’accès au site web par section et par des types spécifiques de robots d’indexation (tels que les robots mobiles ou les robots informatiques) ».

Comment fonctionne le fichier robots.txt

Le fonctionnement d’un robot.txt est plus simple qu’il n’y paraît. La première chose que nous devons savoir est à quoi sert le fichier robots.txt et quels éléments de notre web sont capables d’être indexés ou non.

En outre, le fonctionnement de robots.txt est limité et il existe d’autres systèmes pour nos adresses web se trouvent sur le web.

Veuillez noter que les instructions contenues dans le fichier robots.txt ne sont qu’indicatives et ne sont pas définitives. Par exemple, les robots de Google appelés Googlebots obéissent aux commandes du fichier robots.txt, mais les autres moteurs de recherche (Yandex, Alltheweb, ASK ou Altavista) n’ont pas à le faire.

Par exemple, Google n’explorera pas et n’indexera pas les informations relatives au contenu des pages que nous bloquons avec le fichier robots.txt, mais il indexera toutes les adresses ou URL qui se trouvent dans d’autres éléments ou pages web, même si elles sont limitées dans le fichier .txt. Un conseil important est donc que si votre page web doit contenir des informations sensibles mais que vous ne voulez pas les partager, il vaut mieux ne pas les créer.

Deux types de robots : les user agents et les robots

Google fait la distinction entre différents types de robots :

  • Les user-agents que vous utilisez spécifiquement pour effectuer des recherches et donner des instructions. Pour pouvoir utiliser ce robot, il faut ajouter la commande suivante :user-agent : *
  • Les autres robots sont des Googlebots : le Googlebot-Mobile (spécifique aux appareils mobiles) et le Googlebot-Image qui est destiné aux images et à la photographie.

La commande Disallow

Si nous voulons limiter l’indexation des fichiers pour ce type de robot, nous devons utiliser la commande « Disallow ». Par exemple, si nous voulons retirer certains contenus de notre page web, nous mettrons les éléments suivants

  • En cas de blocage de l’ensemble du site, nous mettrons une barre oblique, comme ceci : Disallow: /
  • Si nous voulons bloquer un répertoire et tout ce qui s’y trouve, nous mettrons ce qui suit : Disallow: /https://digitalmeddiatipps.com/marketing/
  • Pour bloquer une page entière, mettez-la après Disallow comme ceci : Disallow:/https://digitalmeddiatipps.com/marketing/

En ce qui concerne les images, elles sont supprimées comme suit :

  • Si vous ne souhaitez supprimer qu’une seule image : User-agent: Googlebot-Image
    Disallow: /images/marketing et commerce électronique.jpg
  • Si vous souhaitez supprimer toutes les images de Google Images, utilisez les commandes suivantes :
    • User-agent: Googlebot-Image
      Disallow: /
  • Pour bloquer les fichiers d’un certain type (par exemple .gif), vous pouvez inclure la commande suivante :
    • User-agent: Googlebot
      Disallow: /*.gif$

Autres commandes qui sont également très utilisées

  • Sitemap – Indiquez où se trouve le plan du site en XML.
  • Allow – Fonctionne à l’opposé de la commande Disallow car elle permet d’accéder aux répertoires et aux pages. Il peut également être utilisé partiellement ou complètement pour passer outre la commande Disallow.
  • Crawl-delay – Cette commande indique au robot le nombre de secondes à charger entre chaque page. En fait, il est assez courant de l’utiliser en matière de SEO pour améliorer la vitesse de chargement des serveurs.

Comment le fichier robots.txt est créé

Nous vous avons déjà dit que le fonctionnement du fichier robots.txt est très simple. Par exemple, pour sa création, il est nécessaire de donner accès à la racine du domaine et de télécharger le fichier au format texte (txt) nommé « robots.txt » dans le répertoire racine de premier niveau de notre serveur où se trouve la page web que nous voulons indexer.

N’oubliez pas d’utiliser pour la création du fichier un fichier texte, sous Windows et Mac il y a des fichiers texte en clair qui peuvent être utiles. Un exemple serait le suivant : http://digitalmeddiatipps.com/robots.txt

Enfin, vous devez vérifier le fonctionnement de votre robots.txt, pour cela, Google nous met à disposition un outil de test dans la Google Search Console. Vous pouvez y vérifier comment Googlebot lira le fichier et vous informer des éventuelles erreurs qu’il pourrait contenir.

Au cas où vous auriez besoin de plus d’informations sur le sujet, je vous recommande de vous rendre sur la page d’assistance de Google où ils vous informent sur tout ce que vous devez savoir sur le fonctionnement d’un robots.txt. Qu’en est-il de la restriction des informations de votre site web à Google ? Pensez-vous vraiment que c’est un système efficace ? Laissez-nous votre avis dans les commentaires et nous serons heureux de vous répondre.

Découvrez également :